关于数据集
肺癌风险数据集
概述
该数据集包含 50,000 份患者资料,用于肺癌风险分析和机器学习应用。该数据集干净、经过预处理,可立即用于分类任务、统计分析和数据可视化。
- 行数:50,000
- 列数:11
- 文件:
preprocessed_lung_cancer_dataset.csv
- 许可证:CC0:公共领域
数据集描述
该数据集包含基于已知肺癌风险因素(例如吸烟史、环境暴露和慢性肺部疾病)的患者资料。所有数据均为合成数据,旨在反映真实的风险因素分布,同时保护患者隐私。
特征
柱子 | 类型 | 描述 | 值/范围 |
---|---|---|---|
患者 ID | 整数 | 唯一患者标识符 | 100000-149999 |
年龄 | 整数 | 患者年龄(岁) | 18-100 |
性别 | 细绳 | 患者性别 | “男”、“女” |
包装年数 | 漂浮 | 吸烟暴露(年数×每天包数) | 0-100 |
氡暴露 | 细绳 | 住宅氡暴露水平 | “低”、“中”、“高” |
石棉暴露 | 细绳 | 职业石棉暴露史 | “是”,“否” |
二手烟暴露 | 细绳 | 被动吸烟 | “是”,“否” |
慢性阻塞性肺病诊断 | 细绳 | 慢性阻塞性肺疾病诊断 | “是”,“否” |
酒精消费 | 细绳 | 酒精消费模式 | “无”、“中等”、“严重” |
家族史 | 细绳 | 肺癌家族史 | “是”,“否” |
肺癌 | 细绳 | 目标变量:肺癌诊断 | “是”,“否” |
数据质量
- 完整:没有缺失值或重复值
- 清洁:所有值都在实际范围内
- 平衡特征:风险因素的现实分布
- 目标分布:约 25% 的阳性病例,反映现实世界的肺癌患病率
用例
- 二元分类建模
- 危险因素相关性分析
- 数据可视化和探索性分析
- 机器学习管道开发
- 统计假设检验

资源下载
下载价格9.9 元
VIP免费
立即购买