幸运28网站代理怎么做,wordpress 文章去掉时间,服务器是干嘛的,杭州市建设信用网网站目录 火山图
热图
箱线图
森林图
LASSO回归可视化图#xff08;套索图#xff09;
交叉验证图
PCA图
ROC曲线图 这篇文章只介绍这些图应该怎么解读#xff0c;具体怎么绘制#xff0c;需要什么参数#xff0c;怎么处理数据#xff0c;会在下一篇文章里面给出
火山…目录 火山图
热图
箱线图
森林图
LASSO回归可视化图套索图
交叉验证图
PCA图
ROC曲线图 这篇文章只介绍这些图应该怎么解读具体怎么绘制需要什么参数怎么处理数据会在下一篇文章里面给出
火山图 火山图横轴表示与对照组的差异倍数纵轴表示表达水平。整个图由两条竖着的虚线和一条横着的虚线分割成六个部分横着的虚线表示显著性水平线在显著性水平线上面的是表达显著下面是表达不显著。竖着的两条虚线表示差异倍数线。在差异倍数线区域的左侧表示表达量下降右边表示表达量上升。在看火山图的时候一般看的是左上区域和右上区域。他们分别是表达量显著下降和表达量显著上升。
热图 这是一个热图用颜色的深浅来表示基因表达量的差异
横轴代表样本本例中分为了两组一组是Healthy一组是DCM
纵轴代表基因
横轴纵轴交汇处代表的就是特定基因在特定样本中的表达
可以看到上面和左面还有一些折线相互作用交错聚在一起聚在一起的列可能表示有相似表达模式的基因而聚在一起的行可能表示表达模式相似的样本或条件
箱线图
普通箱线图的基本组成
箱体箱体的上下边界分别是数据的上四分位数Q3和下四分位数Q1因此箱体包含了数据集中间的50%的数据点。箱体的长度即IQR四分位间距可以用来衡量数据的散布程度。中位线箱体内部的一条线表示数据的中位数Q2。触须须线从箱体出发的两条线延伸至数据的最大值和最小值但不包括异常值。它们代表数据的正常范围。触须的计算方式有多种但常见的一种是从Q1和Q3分别向外延伸1.5倍IQR四分位间距。异常值通常用小圆圈表示异常值是 those 数据点它们的值超出了触须的范围。这些点被认为是异常的或“离群”的需要特别注意。
分组箱线图的基本组成
分组箱线图保持了箱线图的所有基本元素包括箱体、中位线、触须和异常值但它在横轴上为每个组或类别提供了一个单独的箱线图。这些箱线图并排排列使得不同组之间的比较变得直接而明显。
这是一个分组箱线图 森林图 1表示研究对象可能是某些差异表达的基因名等等
2是一些平行于x轴的线段线段长短对应百分之九十五置信区间线段左右两端的两个数值分别对应百分之九十五置信区间的两个端点值线段越长表示95%置信区间越长因此越不精准。
3无效线通常是x0或x1如果2中的线段与无效线相交则代表2中的线段没有统计学意义
5OR叫比值比计算方式位患病组中暴露的与不暴露的比值除上对照组中暴露的与不暴露的比值也就是两个比值的比因此也叫比值比
LASSO回归可视化图套索图 一般我们看到的套索图都是往右边收敛的那些图的横坐标都是负的而这个图的横坐标是正的因此与那些图正好反着。LASSO回归是通过在多元线性回归模型中添加了一个惩罚系数来达到简化模型的效果图中每一条线都代表一个影响因素比如基因让上来有非常多条线但是随着惩罚系数的增大他们的影响力不断减小甚至有的已经到达了0而随着惩罚系数不断增大这些线最终都会收敛于0我们以某一个惩罚系数的值位基准剔除到达这个基准之前的那些基因就能够简化模型了。
那么这个所谓的基准应该怎么选才合适呢这就需要用到下面这张图了
交叉验证图 交叉验证图上面都会有两条虚线分别是让纵坐标最小的位置和往右一个误差的位置通常会使用均方误差作为纵坐标。
在文章中套索图和交叉验证图都是一起出现的。
PCA图
PCA主成分分析
先来介绍一下PCA在做什么举个极端的例子在一个二维坐标系中有一些点他们排成了一条直线比如他们都是直线ykxb上面的点如果要描述这些点的位置就需要知道他们的横坐标和纵坐标也就是需要两个维度的信息但是既然他们都已经排成一条线了我们如果能够旋转坐标系让他们都落在某一条坐标轴上那么再次描述这些点的位置不就只需要一维的信息就足够了吗这就达到了一个降维的效果。实际上PCA在做的事情与这个例子类似是在把一个多维的信息转换成几个综合指标从而达到降维的效果这个综合指标是对原始指标数据的线性组合这个综合指标被称为主成分比如PC1,PC2等
而PCA图就是对我们降维的结果进行展示下面是一个PCA图 横坐标和纵坐标分别表示PC1和PC2的方差在这一组指标中的总方差中所占的比例如果在PCA图中两个样本聚集在一起就说明他们的差异性比较小如果两个样本离着比较远则说明他们的差异较大。
ROC曲线图
ROC曲线在生信中主要用于评估模型的性能可以看到ROC曲线中有一条42度的直线这条直线与ROC曲线所围成的面积越大表示模型性能越好。
在 ROC 曲线上有几个重要的参数需要解读
真阳性率 也称为灵敏度表示本身患病同时被模型预测为患病的比例计算公式为模型正确预测的患病人数/实际患病的总人数假阳性率实际为阴性但是被模型预测为阳性 计算公式为本来没患病但是被模型预测为患病的人数/实际患病的人数AUCArea Under the Curve ROC 曲线下的面积AUC 值越接近1表示分类模型的性能越好AUC 值越大通常意味着模型的准确性越高。
在 ROC 曲线中我们希望曲线尽量向左上角凸起即 TPR 高、FPR 低这表示模型的性能较好。而 ROC 曲线下的面积 AUC 越大则说明模型性能越好。