关于数据集

心脏病数据集文档

该合成数据集包含个人的临床和生活方式属性,并有一个二元目标值指示是否存在心脏病。每行代表一个个体(患者记录)。数据以数值形式呈现,并经过分类编码,适用于预测心脏病风险等分类任务。

高层概述

  • 行(记录):每条记录对应一名患者。
  • 列(特征):人口统计、临床、测试结果和生活方式指标的混合。
  • 目标:heart_disease(0=无心脏病,1=有心脏病)。
  • 典型用途:
    • 用于风险预测(分类)的监督学习。
    • 心血管危险因素的探索性数据分析。
    • 特征重要性和模型可解释性研究。

列字典

柱子类型描述
age数字个人年龄(岁)。
sex分类生理性别(通常 0 = 女性,1 = 男性)。
cp分类胸痛类型(典型/非典型心绞痛、非心绞痛、无症状的序数编码)。
trestbps数字入院时测量静息血压(mm Hg)。
chol数字血清胆固醇(毫克/分升)。
fbs分类空腹血糖 >120 mg/dL 指标(0 = 假,1 = 真)。
restecg分类静息心电图结果(编码类别)。
thalach数字运动期间达到的最大心率。
exang分类运动诱发心绞痛(0 = 否,1 = 是)。
oldpeak数字与休息相比,运动引起的 ST 段压低。
slope分类峰值运动 ST 段的斜率(编码类别)。
ca分类通过荧光透视着色的主要血管数量(0-3)。
thal分类地中海贫血状态(编码;通常 3 = 正常,6 = 固定缺陷,7 = 可逆缺陷)。
smoking分类当前吸烟状况(0 = 否,1 = 是)。
diabetes分类糖尿病状况(0 = 否,1 = 是)。
bmi数字体重指数(kg/m²)。
heart_disease二进制目标是否存在心脏病(0 = 否,1 = 是)。

关于编码和范围的注释

  • 几个临床字段(cprestecgslopecathal加上二进制标志如fbsexangsmokingdiabetes)被编码为整数;除非应用域重新编码,否则将它们视为分类。
  • 典型的生理范围:
    • trestbps:成人静息血压,一般为 90–200+ 毫米汞柱。
    • chol:成人胆固醇典型值为 100–600 mg/dL。
    • thalach:通常在 60–210 bpm 之间,具体取决于年龄/健康状况。
    • oldpeak:非阴性,通常为 0–6(ST 段压低)。
    • bmi:临床数据集中通常为 15–45 kg/m²,但可能包含更广泛的值。
  • ca通常在 0-3 范围内;超出此范围的值可能表示替代编码。

数据质量考虑因素

  • 检查临床测量中的异常值(choltrestbpsoldpeakbmi),这些异常值可能需要缩尾处理或域审查。
  • 验证分类代码本(例如thal,,,,)以确保正确映射到临床意义。cprestecgslope
  • heart_disease评估模型选择和评估策略的类别平衡。
  • 验证缺失;根据源约定,编码的零可能代表有效的负数或缺失的替代项。

推荐的预处理

  • 将分类整数转换为具有有意义标签的分类数据类型。
  • 为基于距离或正则化的模型缩放/标准化连续变量。
  • 考虑特定领域的特征工程:
    • 得出血压类别。
    • 年龄组或交互项(例如age × thalach)。
    • 如果有临床依据,则风险综合评分。

示例用例

  • 训练/测试分割并分层heart_disease
  • 基线:逻辑回归、基于树的模型(RF/GBM)和校准评估。
  • 模型可解释性:SHAP 用于全局和局部因素贡献。
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?