关于数据集
心脏病数据集文档
该合成数据集包含个人的临床和生活方式属性,并有一个二元目标值指示是否存在心脏病。每行代表一个个体(患者记录)。数据以数值形式呈现,并经过分类编码,适用于预测心脏病风险等分类任务。
高层概述
- 行(记录):每条记录对应一名患者。
- 列(特征):人口统计、临床、测试结果和生活方式指标的混合。
- 目标:
heart_disease
(0=无心脏病,1=有心脏病)。 - 典型用途:
- 用于风险预测(分类)的监督学习。
- 心血管危险因素的探索性数据分析。
- 特征重要性和模型可解释性研究。
列字典
柱子 | 类型 | 描述 |
---|---|---|
age | 数字 | 个人年龄(岁)。 |
sex | 分类 | 生理性别(通常 0 = 女性,1 = 男性)。 |
cp | 分类 | 胸痛类型(典型/非典型心绞痛、非心绞痛、无症状的序数编码)。 |
trestbps | 数字 | 入院时测量静息血压(mm Hg)。 |
chol | 数字 | 血清胆固醇(毫克/分升)。 |
fbs | 分类 | 空腹血糖 >120 mg/dL 指标(0 = 假,1 = 真)。 |
restecg | 分类 | 静息心电图结果(编码类别)。 |
thalach | 数字 | 运动期间达到的最大心率。 |
exang | 分类 | 运动诱发心绞痛(0 = 否,1 = 是)。 |
oldpeak | 数字 | 与休息相比,运动引起的 ST 段压低。 |
slope | 分类 | 峰值运动 ST 段的斜率(编码类别)。 |
ca | 分类 | 通过荧光透视着色的主要血管数量(0-3)。 |
thal | 分类 | 地中海贫血状态(编码;通常 3 = 正常,6 = 固定缺陷,7 = 可逆缺陷)。 |
smoking | 分类 | 当前吸烟状况(0 = 否,1 = 是)。 |
diabetes | 分类 | 糖尿病状况(0 = 否,1 = 是)。 |
bmi | 数字 | 体重指数(kg/m²)。 |
heart_disease | 二进制目标 | 是否存在心脏病(0 = 否,1 = 是)。 |
关于编码和范围的注释
- 几个临床字段(
cp
、restecg
、slope
、ca
、thal
加上二进制标志如fbs
、exang
、smoking
、diabetes
)被编码为整数;除非应用域重新编码,否则将它们视为分类。 - 典型的生理范围:
trestbps
:成人静息血压,一般为 90–200+ 毫米汞柱。chol
:成人胆固醇典型值为 100–600 mg/dL。thalach
:通常在 60–210 bpm 之间,具体取决于年龄/健康状况。oldpeak
:非阴性,通常为 0–6(ST 段压低)。bmi
:临床数据集中通常为 15–45 kg/m²,但可能包含更广泛的值。
ca
通常在 0-3 范围内;超出此范围的值可能表示替代编码。
数据质量考虑因素
- 检查临床测量中的异常值(
chol
,trestbps
,oldpeak
,bmi
),这些异常值可能需要缩尾处理或域审查。 - 验证分类代码本(例如
thal
,,,,)以确保正确映射到临床意义。cp
restecg
slope
heart_disease
评估模型选择和评估策略的类别平衡。- 验证缺失;根据源约定,编码的零可能代表有效的负数或缺失的替代项。
推荐的预处理
- 将分类整数转换为具有有意义标签的分类数据类型。
- 为基于距离或正则化的模型缩放/标准化连续变量。
- 考虑特定领域的特征工程:
- 得出血压类别。
- 年龄组或交互项(例如
age × thalach
)。 - 如果有临床依据,则风险综合评分。
示例用例
- 训练/测试分割并分层
heart_disease
。 - 基线:逻辑回归、基于树的模型(RF/GBM)和校准评估。
- 模型可解释性:SHAP 用于全局和局部因素贡献。

资源下载
下载价格9.9 元
VIP免费
立即购买