网站做支付需要准备什么,sem代运营公司,电脑网站模板,无法跳转到建设银行网站我的两个医学数据分析技术思路
从临床上获得的或者公共数据库数据这种属于观察性研究#xff0c;是对临床诊疗过程中自然产生的数据进行分析而获得疾病发生发展的规律等研究成果。再细分#xff0c;可以分为独立危险因素鉴定和预测模型构建两种。
独立危险因素鉴定是一直以…我的两个医学数据分析技术思路
从临床上获得的或者公共数据库数据这种属于观察性研究是对临床诊疗过程中自然产生的数据进行分析而获得疾病发生发展的规律等研究成果。再细分可以分为独立危险因素鉴定和预测模型构建两种。
独立危险因素鉴定是一直以来的研究内容目的是研究疾病预后的影响因素或者开发诊断指标早期是通过统计学和逻辑回归模型等方法进行研究而预测模型构建是后来出现的把多个独立危险因素集中起来共同对疾病结局进行预测或者诊断疾病达到更好地诊断和治疗疾病的目的。
数据分析技术新的发展也给以上两部分内容带来了新的面貌这里总结个人在这两方面的分析技术思路供大家借鉴。
机器学习算法主导的独立危险因素鉴定
这里的机器学习主要是指xgboost等非线性模型传统的是使用多因素逻辑回归作为独立危险因素鉴定的最终结果线性模型事先假定变量之间的关系是线性的被认为可能造成了分析结果的不准确所以现在用xgboost等非线性模型来克服这个缺点但是非线性模型就没有象OR值这样能反映变量间关联强度的指标等到SHAP分析这样可以解释模型的工具出现之后机器学习算法主导的独立危险因素鉴定才形成套路。 技术思路 变量信息表传统的表1展示变量的分布信息平均值和标准差等 Boruta算法筛选变量这是近年才流行的方法微小的关联也能筛选出来所以不担心遗漏有意义的变量。 构建xgboost等非线性模型并展示模型效能这里良好的模型性能代表所选择的变量与结局变量之间有良好的相关性在这个前提下后续的分析才是有价值的。 SHAP分析展示变量的整体贡献可以选择排名靠前的变量或者所有的变量进行后续的分析 SHAP分析展示单个变量随变量值变化其对结局变量贡献某变量的SHAP值的变化结合立方样条曲线拟合确定关键的点SHAP值为0时对应的点和shap值大于0的曲线上的拐点 SHAP分析展示变量间的交互作用展示变量间的交互作用。 其它可以加入传统的线性模型的分析方法以从不同方面展示独立危险因素如果收集了同类变量还可以比较同类变量之间与结局变量相关性的差异如果得到的独立危险因素够多可以进行预测模型的构建否则也可以独立成文。
临床预测模型构建从数据到应用
临床预测模型在这里不多介绍。 技术思路 变量的展示表1 BorutaLasso等方法选择变量传统的通过单因素分析p值的半自动方法应该淘汰了。 模型构建和评价评价包括内部评价和外部评价ROC曲线和校准曲线等我们已经耳熟能详的指标。这里可以是单个模型也可以是相似结局的一组模型。 SHAP分析等解释模型这里以汇总结果为主从整体评价变量对模型的贡献 DCA分析比较模型间的净收益以选择模型或者变量间的净收益来评价变量 构建列线图或者预测模型APP如果是APP推荐融入SHAP分析的个体评价对单个预测结果进行解释可以展示变量当前值对预测结果的贡献在临床实践中可以解析为当前患者的病因是什么 后续确定后续的临床措施预测模型阳性采取的检验或者治疗措施并进行预测模型临床影响力评价一般是随机对照试验。
最后
当拿到一份数据可以先做预分析如果得到的相关变量较多就可以做预测模型如果不够多就可以考虑独立危险因素分析。
个人感觉数据分析类的研究关键在于数据大样本自己收集的有特点的数据更容易做出有意义的研究。