关于 建设 旅游网站 建议,wordpress 当前页面登录,首京建设投资引导基金网站,做网站servlet一、项目简介
项目背景
利用心血管疾病风险预测数据集进行深入分析#xff0c;探究不同因素与心血管疾病风险之间的关联。
数据源
Kaggle上的心血管疾病风险预测数据集。#xff08;Cardiovascular Diseases Risk Prediction Dataset | Kaggle#xff09;
二、数据预处…一、项目简介
项目背景
利用心血管疾病风险预测数据集进行深入分析探究不同因素与心血管疾病风险之间的关联。
数据源
Kaggle上的心血管疾病风险预测数据集。Cardiovascular Diseases Risk Prediction Dataset | Kaggle
二、数据预处理
导入数据集
数据清洗和处理 三、数据分析
单变量分析
对身高、体重、BMI、酒精消费等数值特征进行分析。 结果解释
- 身高(cm)患者的身高似乎遵循正态分布大多数患者的身高在 160 至 180 厘米左右。
- 体重公斤患者的体重似乎也呈正态分布大多数患者体重大约在 60 至 100 公斤之间。
- BMI身体质量指数的分布有些右偏。 大量患者的BMI在20至30之间属于正常至超重范围。 然而也有大量患者的 BMI 处于肥胖范围 (30)。
- 喝酒频率大多数患者饮酒量较低但也有少数患者饮酒量较高。
- 食用水果大多数患者经常食用水果但也有少数患者食用频率较低。
- 食用绿色蔬菜大多数患者适度食用绿色蔬菜但也有少数患者食用频率较低。
- 食用炸薯条基本上所有患者都很少吃炸薯条。
分类特征分析
分析一般健康状况、体检情况、锻炼习惯、心脏病历史等分类特征。 结果解释
- 总体健康状况大多数患者将其总体健康状况描述为“良好”“非常好”是第二常见的反应。 很少有患者将自己的健康状况评为“一般”或“差”。
- 体检大多数患者在过去一年内接受过体检。 很少有患者在 2 年前或 5 年前进行最后一次体检。
- 锻炼与不锻炼的患者相比更多的患者表示他们锻炼过。
- 心脏病绝大多数患者没有心脏病。 只有一小部分患者患有心脏病。
- 皮肤癌绝大多数患者没有皮肤癌。
- 其他癌症与皮肤癌类似大多数患者没有其他形式的癌症。
- 抑郁症大多数患者没有抑郁症。 然而确实有不少患者报告患有抑郁症。
- 糖尿病与上述疾病相关特征类似大多数患者并没有糖尿病。 然而一小部分人确实患有糖尿病。
- 关节炎大多数患者没有关节炎但也有相当一部分患者患有关节炎。
- 性别数据集中女性患者略多于男性患者。
- 年龄区间数据集包含各种年龄类别的患者。 65-69岁年龄段的患者最多其次是70-74岁和60-64岁年龄段。
- 吸烟史大多数患者没有吸烟史。 双变量分析
探究不同变量与疾病之间的关系。 结果解释
- 心脏病 - 心脏病在一般健康状况评价为“良好”或“一般”的患者中更为普遍。 - 在运动的患者中稍微常见一些。 - 男性比女性更容易患心脏病。 - 心脏病的患病率随着年龄的增长而增加在80岁以上年龄组中最为常见。 - 心脏病在有吸烟史的患者中也更常见。
- 皮肤癌 - 皮肤癌在一般健康状况评价为“良好”或“非常好”的患者中更为常见。 - 在运动的患者中稍微常见一些。 - 不同性别的患病率没有太大差异。 - 皮肤癌的患病率随着年龄的增长而增加在80岁以上的年龄组中最常见。 - 根据吸烟史患病率没有太大差异。
- 其他癌症 - 其他癌症在总体健康状况评价为“良好”或“非常好”的患者中更为常见。 - 在运动的患者中这种情况稍微常见一些。 - 不同性别的患病率没有太大差异。 - 其他癌症的患病率随着年龄的增长而增加其中在70-74岁年龄段最常见。 - 根据吸烟史患病率没有太大差异。
- 糖尿病 - 在一般健康状况评价为“一般”或“良好”的患者中糖尿病更为普遍。 - 在运动的患者中更为常见。 - 不同性别的患病率没有太大差异。 - 糖尿病的患病率随着年龄的增长而增加在70-74岁年龄段最常见。 - 根据吸烟史患病率没有太大差异。
- 关节炎 - 关节炎在一般健康状况评价为“良好”或“非常好”的患者中更为普遍。 - 在运动的患者中稍微常见一些。 - 女性比男性更容易患关节炎。 - 关节炎的患病率随着年龄的增长而增加在70-74岁年龄段最常见。 - 根据吸烟史患病率没有太大差异。 多变量分析
综合考虑多个变量分析它们与疾病风险之间的相互作用。 结果解释
- 按年龄类别划分的总体健康状况分布显示随着年龄的增长将健康状况评价为“良好”或“非常好”的个体比例下降而将健康状况评价为“一般”或“差”的比例增加。
- 一般健康状况与疾病状况心脏病、皮肤癌、其他癌症、糖尿病、关节炎之间的关系显示出一些有趣的模式 - 对于心脏病、其他癌症、糖尿病、皮肤癌和关节炎健康状况被评为“差”或“一般”的人群的患病率较高。 这表明这些状况可能不会影响个人对其整体健康状况的看法。 结果解释
- 按运动划分的BMI类别分布显示经常运动的人的“正常”BMI 比例较高而不经常运动的人的“超重”和“肥胖”BMI 比例较高。 这表明运动与更健康的体重指数相关。
- BMI类别与疾病状况心脏病、皮肤癌、其他癌症、糖尿病、关节炎之间的关系显示出以下模式 - 对于糖尿病和关节炎BMI“超重”和“肥胖”的人群患病率较高。 这表明这些情况可能与较高的BMI水平有关。 - 对于心脏病、皮肤癌和其他癌症不同BMI类别的患病率似乎分布更均匀。 这可能表明这些类型的癌症可能不像其他疾病那样与体重指数密切相关。 四、数据可视化
统计图表
使用Seaborn和Matplotlib生成的各类图表。
相关性热力图
展示不同特征之间的相关性。 结果解释
- 相关性热力图提供数据集中不同特征之间相关性的直观表示。 每个方块显示每个轴上变量之间的相关性。 相关性值的范围为-1到1。值接近1表示强正相关值接近-1表示强负相关值在0附近表示不相关。
- 以下是热图中的一些观察结果 - BMI和体重kg与糖尿病呈正相关。 这表明体重指数和体重较高或不锻炼的人更有可能患糖尿病。 - 一般健康状况与糖尿病、心脏病、关节炎和抑郁症呈负相关。 这表明总体健康状况较差的人更有可能患有这些疾病。 - 年龄类别与心脏病、皮肤癌、其他癌症、糖尿病和关节炎呈正相关。 这表明这些疾病的风险随着年龄的增长而增加。 - 男性与心脏病和皮肤癌呈正相关与关节炎呈负相关。 这表明男性更容易患心脏病或皮肤癌但患关节炎的可能性较小。