​关于数据集​​​

这是一个包含 50,000 个工单的合成表格数据集,这些工单来自 25 家公司,用于研究优先级分类(低、中、高)。各公司在规模和行业上有所不同;大型公司在多个地区运营。特征混合了在工单录入时通常可用的数值型和分类型信号。数据是完全人工合成的——不包含真实的用户、系统或专有日志。

预期用途​​:

用于监督学习在表格数据分类上的基准测试(例如,梯度提升、XGBoost、LightGBM、AdaBoost、支持向量机、朴素贝叶斯)、特征工程、处理混合数据类型、类别不平衡以及轻微的标签噪声。

文件与数据模式​​​​标识符与时间​

  • ​ticket_id​​: 唯一工单标识符(随机顺序)
  • ​day_of_week​​: 星期几(周一至周日)
  • ​day_of_week_num​​: 星期几对应的数字(1-7;周一=1)

​公司档案​​(每行重复)

  • ​company_id​​: 公司ID
  • ​company_size​​: 公司规模(小/中/大 + 对应的分类编码 _cat
  • ​industry​​: 行业(7个类别 + 对应的分类编码 _cat
  • ​customer_tier​​: 客户等级(基础版/增强版/企业版 + 对应的分类编码 _cat
  • ​org_users​​: 活跃用户席位(大型公司可达约10,000)

​上下文​

  • ​region​​: 地区(美洲/欧洲中东非洲/亚太 + 对应的分类编码 _cat
  • ​past_30d_tickets​​: 过去30天内的工单数量
  • ​past_90d_incidents​​: 过去90天内的事件数量

​产品与渠道​

  • ​product_area​​: 产品领域(认证、计费、移动端、数据管道、分析、通知 + 对应的分类编码 _cat
  • ​booking_channel​​: 提交渠道(网页、邮件、聊天、电话 + 对应的分类编码 _cat
  • ​reported_by_role​​: 报告者角色(技术支持、运维、产品经理、财务、高管 + 对应的分类编码 _cat

​影响与标志​

  • ​customers_affected​​: 受影响的客户数(重尾分布)
  • ​error_rate_pct​​: 错误率百分比(浮点数,0-100;有时 0.0 表示”未测量”)
  • ​downtime_min​​: 宕机时长(分钟,0 表示仅为性能降级)
  • ​payment_impact_flag​​: 支付影响标志(0/1)
  • ​security_incident_flag​​: 安全事件标志(0/1)
  • ​data_loss_flag​​: 数据丢失标志(0/1)
  • ​has_runbook​​: 是否有应急预案(0/1)

​文本代理特征​

  • ​customer_sentiment​​: 客户情绪(负面/中性/正面 + 对应的分类编码 _cat,0 表示缺失)
  • ​description_length​​: 描述长度(整数,20-2000)

​目标变量​

  • ​priority​​: 优先级(低/中/高 + 对应的分类编码 priority_cat= 1/2/3)

​说明与局限性​

  • 数据完全合成;适用于教育、基准测试和教程。
  • 不包含时间顺序信息或工单解决后的字段,避免了标签泄漏。
  • 噪声水平被调整为:即使使用优化良好的模型,性能上限也约为 97-98%,而非完美可分。
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?