关于数据集

糖尿病是美国最常见的慢性疾病之一,每年影响数百万美国人,并给美国经济带来沉重的负担。糖尿病是一种严重的慢性疾病,患者无法有效调节血糖水平,并可能导致生活质量下降和预期寿命缩短。各种食物在消化过程中分解成糖分后,会被释放到血液中。这会促使胰腺释放胰岛素。胰岛素帮助体内细胞利用血液中的糖分转化为能量。糖尿病的通常特征是身体无法产生足够的胰岛素,或者无法有效地利用产生的胰岛素。

心脏病、视力丧失、下肢截肢和肾脏疾病等并发症与糖尿病患者血液中长期高血糖水平有关。虽然糖尿病无法治愈,但减肥、健康饮食、积极运动和接受药物治疗等策略可以减轻许多患者受到的疾病危害。早期诊断可以改变生活方式并提供更有效的治疗,因此糖尿病风险预测模型是公众和公共卫生官员的重要工具。

认识到这个问题的严重性也很重要。美国疾病控制与预防中心 (CDC) 表示,截至 2018 年,3420 万美国人患有糖尿病,8800 万患有糖尿病前期。此外,CDC 估计,五分之一的糖尿病患者和大约十分之八的糖尿病前期患者并未意识到自己的风险。虽然糖尿病有不同的类型,但 II 型糖尿病是最常见的类型,其患病率因年龄、教育程度、收入、地域、种族和其他社会健康决定因素而异。这种疾病的大部分负担也落在社会经济地位较低的人身上。糖尿病还给经济带来沉重的负担,每年确诊的糖尿病费用约为 3270 亿美元,未确诊的糖尿病和糖尿病前期的总费用接近 4000 亿美元。

内容

行为风险因素监测系统 (BRFSS) 是一项由美国疾病控制与预防中心 (CDC) 每年开展的健康相关电话调查。该调查每年收集超过 40 万美国人关于健康相关风险行为、慢性健康状况和预防服务使用情况的回复。自 1984 年以来,BRFSS 每年都会进行。本项目使用了 Kaggle 上 2015 年数据集的 csv 文件。该原始数据集包含 441,455 人的回复,包含 330 个特征。这些特征要么是直接向参与者提出的问题,要么是基于个体参与者回答计算得出的变量。

该数据集包含3个文件:

  1. diabetes _ 012 _ health _ indicator _ BRFSS2015.csv 是一个干净的数据集,包含 253,680 份针对 CDC BRFSS2015 调查问卷的回复。目标变量 Diabetes_012 有 3 个类别。0 表示无糖尿病或仅在妊娠期患有糖尿病,1 表示糖尿病前期,2 表示糖尿病。该数据集存在类别不平衡问题。该数据集包含 21 个特征变量
  2. diabetes _ binary _ 5050split _ health _ indicator _ BRFSS2015.csv 是一个干净的数据集,包含 70,692 份针对美国疾病控制与预防中心 (CDC) BRFSS2015 调查问卷的回复。该数据集中,无糖尿病和糖尿病前期或糖尿病的受访者比例各占 50%。目标变量 Diabetes_binary 有 2 个类别:0 表示无糖尿病,1 表示糖尿病前期或糖尿病。该数据集包含 21 个特征变量,且保持平衡。
  3. diabetes _ binary _ health _ indicator _ BRFSS2015.csv 是一个干净的数据集,包含 253,680 份针对 CDC BRFSS2015 调查问卷的回复。目标变量 Diabetes_binary 有 2 个类别。0 表示无糖尿病,1 表示糖尿病前期或糖尿病。该数据集包含 21 个特征变量,且不平衡。

探索以下一些研究问题:

  1. BRFSS 的调查问题能否准确预测一个人是否患有糖尿病?
  2. 哪些风险因素最能预测糖尿病风险?
  3. 我们能否使用一组风险因素来准确预测一个人是否患有糖尿病?
  4. 我们能否使用特征选择从 BRFSS 创建简短形式的问题来准确预测某人是否可能患有糖尿病或是否具有患糖尿病的高风险?
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?