背景描述
据美国疾病控制与预防中心的数据,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)的主要死因之一。
大约一半的美国人(47%)至少有三种导致心脏病的主要风险因素中的一种:高血压、高胆固醇和吸烟。
其他关键指标包括糖尿病状况、肥胖(BMI高)、缺乏体育活动或饮酒过多。发现和预防对心脏病有最大影响的因素在医疗保健中非常重要。
反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测病人的病情。
数据说明
该数据集包含18个变量(9个布尔值,5个字符串和4个小数点)。在机器学习项目中,“HeartDisease ”可以用作探究变量,但请注意,类是严重失衡的。
HeartDisease -曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者
BMI -身体质量指数(BMI)
Smoking-你一生中至少抽过100支烟吗?
AlcoholDrinking-重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯
Stroke-中风
PhysicalHealth-现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里,有多少天你的身体健康不好?(0-30天)
MentalHealth-心理健康,在过去的30天里有多少天你的心理健康不好?(0-30天)
DiffWalking-你走路或爬楼梯有严重困难吗?
Sex-性别
AgeCategory -年龄范畴
Race-种族/民族
Diabetic-是否有糖尿病?
PhysicalActivity-过去30天里从事体育活动或锻炼的成年人
GenHealth-你是否认为你的健康状况?
SleepTime-平均来说,你在24小时内的睡眠时间是多少小时?
Asthma-是否得有哮喘?
KidneyDisease -不包括肾结石、膀胱感染或尿失禁,你是否曾被告知有肾病?
SkinCancer-是否得过皮肤癌?
数据来源
该数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,收集美国居民健康状况的数据。
正如美国疾病控制与预防中心所描述的那样:“BRFSS成立于1984年,在15个州建立,现在在所有50个州以及哥伦比亚特区和3个美国领地收集数据。
BRFSS每年完成40多万名成年人的访谈,使其成为世界上最大的连续进行的健康调查系统。
最近的数据集(截至2022年2月15日)包含了2020年的数据。它由401,958行和279列组成。大部分栏目都是针对受访者的健康状况的问题,如“你走路或爬楼梯有严重困难吗?”或“你一生中吸过至少100支烟吗?。
问题描述
如上所述,原始数据集的近300个变量被缩减到大约20个变量。
除了经典的EDA,该数据集还可以应用于一系列机器学习方法,最显著的是分类器模型(逻辑回归、支持向量机、随机森林等)。


