多种细菌分离株、风险因素和抗生素耐药性概况

关于数据集

📖概述

该数据集提供了针对多种抗生素进行测试的细菌分离株的综合集合。每行代表从患者样本中分离出的一种特定细菌菌株,以及相关的人口统计学信息、临床风险因素和抗生素敏感性测试结果。

该数据集的结构允许研究人员研究:

  • 跨细菌物种的多重耐药性(MDR)模式
  • 患者危险因素(如糖尿病、高血压、住院史)与抵抗力的关系
  • 抗生素家族耐药性的流行病学趋势
  • 数据质量挑战的影响,例如缺失值、不一致的标签和自由文本输入

该数据集非常适合抗生素耐药性监测、探索性数据分析 (EDA)、预测模型和数据驱动微生物学教学。

🔬抗生素家族和分子

该数据集涵盖 4 个主要抗生素家族,共 15 种以上,代表了临床实践中常用的处方药。结果主要编码如下:

  • R → 抵抗
  • S → 易受
    偶尔的替代编码影响,例如 i、中间、r、s、NA、缺失。

β-内酰胺类(Beta-内酰胺类)

通过抑制青霉素结合蛋白(PBP)来靶向细菌细胞壁合成。

  • AMX/AMP → 阿莫西林/氨苄西林(氨基青霉素)
  • AMC → 阿莫西林 + 克拉维酸(β-内酰胺/β-内酰胺酶抑制剂)
  • CZ→头孢唑林(第一代头孢菌素)
  • FOX → 头孢西丁(第二代头霉素)
  • CTX/CRO → 头孢噻肟/头孢曲松(第三代头孢菌素)
  • IPM → 亚胺培南(卡巴培南类,被认为是最后的治疗手段)

氨基糖苷类(氨基苷类)

与 30S 核糖体亚基结合,抑制蛋白质合成。

  • GEN → 庆大霉素
  • AN → 阿米卡星(广谱,通常对庆大霉素耐药菌株有效)

喹诺酮类/氟喹诺酮类

抑制细菌DNA旋转酶和拓扑异构酶IV,干扰DNA复制。

  • Acide nalidixique → Nalidixic Acid (第一代喹诺酮类药物,革兰氏阴性菌覆盖)
  • OFX → 氧氟沙星(氟喹诺酮类,广谱)
  • CIP → 环丙沙星(氟喹诺酮类药物,广泛用于治疗泌尿道感染)

其他重要代理

包括用于治疗革兰氏阳性菌、革兰氏阴性菌或多重耐药感染的各类药物。

  • C → 氯霉素(广谱,由于毒性很少使用,但仍经过测试)
  • 复方新诺明 → 甲氧苄啶 + 磺胺甲恶唑(叶酸通路抑制剂)的组合
  • 呋喃类→呋喃妥因(常用于治疗泌尿道感染)
  • 粘菌素 → 粘菌素(多粘菌素类,针对耐卡巴培南菌的最后一线治疗药物)

🧾数据集结构

身份识别与人口统计

  • ID → 唯一菌株标识符(例如,S290)
  • Souche → 细菌种类名称(例如,大肠杆菌、肺炎克雷伯菌、铜绿假单胞菌)
  • 年龄 → 患者年龄(数字)
  • 性别 → 编码为 M / F

风险因素

  • 糖尿病 → {是,否,Y,N,真,1,?}
  • 高血压 → {是,否,缺失,?}
  • Hospital_before → {是,否}(过去 6 个月内曾住院)
  • Infection_Freq → 复发感染的频率
    • 永不→不再复发
    • 很少 → 每年少于 2 次
    • 定期 → 每年少于 6 次
    • 经常 → 每年≥6次

抗生素敏感性试验(AST)结果

每列对应一种抗生素(例如 GEN、CIP、IPM)

结果:{R、S、i、中间、NA、缺失}

元数据

Collection_Date → 样本采集日期(多种格式:ISO、DD/MM/YYYY、文本月份格式)
Notes → 自由文本注释(多语言,包括英语、法语、西班牙语、阿拉伯语)

📊 数据集维度

行数:~10,000 个分离株

列:~25 个特征(包括人口统计、风险因素和 AST 结果)

覆盖范围:多种细菌种类、多种抗生素、异质患者

🧪 分析机会

研究人员和数据科学家可以探索:

  • 抗生素家族内部和跨家族的耐药性流行情况
  • 多重耐药概况(对≥3个家族有耐药性的菌株)
  • 风险因素与耐药性之间的关联(例如,糖尿病与氨基糖苷类耐药性)
  • 流行病学趋势(按年龄、性别、住院史分布)
  • 跨物种和科的抗性聚集
  • 数据质量问题(处理嘈杂的分类标签、缺失值和非结构化注释)

🎯 预期用例

  • 抗菌素耐药性监测→识别物种抗生素模式和耐多药菌株
  • 预测模型→构建抗性预测分类器(二元/多标签分类)
  • 数据清理挑战→处理分类不一致、缺失数据和损坏值
  • 教学与培训 → 用作微生物学、数据科学和机器学习课程的案例研究
  • 基准测试→比较机器学习算法的分类、聚类或降维

✨ 重点

  • ✅ 涵盖 4 大家族 15 种以上抗生素
  • ✅ 纳入临床风险因素,研究与耐药性的关联
  • ✅ 人口统计元数据(年龄、性别、住院情况)
  • ✅ 混乱的数据元素(拼写错误、缺失值、不一致的编码、多语言注释)
  • ✅ 适用于高级探索性、统计和机器学习分析

💡 该数据集可以详细研究抗菌素耐药模式,支持多药耐药性建模,并为临床数据分析和决策支持研究提供现实基础。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?