关于数据集
多语言合成 EHR 数据集包
三个大型、高质量、完全合成的电子健康记录 (EHR) 数据集:
- 每个数据集有 200,000 名独特患者
- 语言:英语(英国)、西班牙语(墨西哥)、俄语(俄罗斯和独联体)
- 针对每种语言的地区合适的医院和领域
- 所有值和列都已完全本地化
适合:
- 医疗保健领域的 AI/ML 模型开发和测试
- 分析、数据科学和可视化
- 原型设计、黑客马拉松、教育项目
每个数据集:
- 24 个领域(人口统计、诊断、实验室、医院、访问等)
- 100% 合成(无真实患者数据)
- CSV 格式 — 随时可用
关于此文件建议编辑
概述:
该数据集呈现了统一的多语言合成电子健康记录 (EHR) 集合,旨在用于研究、机器学习、数据科学和跨语言基准测试。每个文件代表来自三个不同国家/地区和语言的大型数据集的 10% 演示样本:
英语(英国)
西班牙语(墨西哥)
俄语(俄罗斯/独联体)
每个文件包含 20,000 条合成患者记录,具有 26 列的完全标准化结构,可直接比较、分析或连接以进行国际或跨语言研究。
数据集文件
demo_english.csv — 20,000 行,英语,合成英国患者
demo_spanish.csv — 20,000 行,西班牙语,合成墨西哥患者
demo_russian.csv — 20,000 行,俄语,合成俄罗斯/独联体患者
所有文件都使用相同的列名(英文)和顺序。
数据来源和方法
所有记录都是综合的:生成和协调以保护隐私,支持开放数据共享,并实现现实研究而不会对真实患者造成风险。
原始数据模拟了英国、墨西哥和俄罗斯/独联体。
列和编码协调一致,以实现跨语言可用性。
该演示占完整数据集的 10%(请参阅项目以了解潜在的完整版本)。
使用思路
跨语言机器学习实验
基准数据整理和协调工具
探索性数据分析与可视化实践
医疗数据科学的教育演示
测试多国医疗保健分析管道

资源下载
下载价格9.9 元
VIP免费
立即购买