关于数据集
📌 简介
该数据集是对新生儿健康监测的 合成但逼真的模拟
。 它专为医疗保健分析、机器学习和应用程序开发而设计,尤其适用于新生儿健康风险的早期检测。
该数据集模拟了新生儿的日常健康记录,包括生命体征、生长参数、喂养模式和风险分类标签。
🎯 动机
新生儿健康是医疗保健领域最敏感的领域之一。
监测新生儿有助于及早 发现黄疸、感染、脱水和呼吸系统疾病
。 由于真实的新生儿数据是私密的且难以访问,该数据集为研究人员、学生和开发者提供了一个安全且实用的替代方案,可用于构建和测试:
- 📊探索性数据分析(EDA)
- 🤖机器学习分类模型
- 📱医疗保健监测应用程序(Streamlit、Flask、Django 等)
– 🏥预测医疗保健系统
数据集概述
- 婴儿总数:100
- 监测期:每个婴儿30天
- 总记录数:3,000
- 文件格式:CSV
–合成数据:使用 Python ( pandas
, numpy
, faker
) 按照医学规则 生成
📑 列描述
🔹 人口统计
- baby_id → 每个婴儿的唯一标识符(例如
B001
)。 - 名字→随机生成的婴儿名字(为了真实)。
- 性别→男/女。
- gestational_age_weeks → 出生时的孕周(正常:37-42 周)。
- birth_weight_kg → 出生体重(正常范围:2.5–4.5 公斤)。
- birth_length_cm → 出生时的长度(平均:48-52 厘米)。
- birth_head_circumference_cm → 出生时的头围(平均:33-35 厘米)。
🔹 每日监控
- 日期→ 监测日期。
- age_days → 婴儿出生以来的年龄(天数)。
- weight_kg → 每日更新体重(增长趋势~25-30克/天)。
- length_cm → 每日更新身体长度(缓慢增加)。
- head_circumference_cm → 每日更新头围。
- temperature_c → 体温(°C)(正常:36.5–37.5°C)。
- heart_rate_bpm → 心率(正常:120–160 bpm)。
- breathing_rate_bpm → 呼吸频率(正常:30-60 次/分钟)。
- 氧饱和度→SpO₂ 水平(正常值 >95%)。
🔹 喂食和补水
- feeding_type → 母乳喂养 / 配方奶粉喂养 / 混合喂养。
- feeding_frequency_per_day → 每天喂食次数(正常:8-12)。
- urine_output_count → 每天湿尿布的数量(正常:6-8+)。
- stool_count → 每天排便次数(通常为 0-5)。
🔹 医疗检查
- jaundice_level_mg_dl → 胆红素水平(正常<5,轻度5-12,重度>15)。
- apgar_score → 出生时分数为 0-10(仅第 1 天)。
- immunizations_done → 是/否(第 1 天和第 30 天接种 BCG、HepB、OPV)。
- reflexes_normal → 新生儿反射检查(是/否)。
🔹风险分类
- risk_level → 自动分配的健康状态:
- ✅ 健康 → 所有生命体征正常。
- ⚠️ 有风险 → 轻度异常(例如轻度黄疸、轻微发烧、SpO₂ 92–95%)。
– 🚨 严重→严重异常(例如,黄疸>15,SpO₂<92,HR>180,体温>39°C)。
📊 数据是如何生成的
数据集是在Python中使用以下方式生成的:
numpy
并pandas
用于数据模拟。faker
用于生成婴儿的名字和日期。
-针对生命体征、生长、黄疸进展和风险分类的 医学上现实规则。
💡 潜在应用
- 机器学习:训练分类模型来预测新生儿的健康风险。
- Streamlit/Dash 应用程序:构建实时新生儿监控仪表板。
- 医疗保健研究:研究生长和生命体征模式。
–教育:在健康数据集上练习 EDA、可视化和预测模型。

资源下载
下载价格9.9 元
VIP免费
立即购买