关于数据集
这是一个包含 50,000 个工单的合成表格数据集,这些工单来自 25 家公司,用于研究优先级分类(低、中、高)。各公司在规模和行业上有所不同;大型公司在多个地区运营。特征混合了在工单录入时通常可用的数值型和分类型信号。数据是完全人工合成的——不包含真实的用户、系统或专有日志。
预期用途:
用于监督学习在表格数据分类上的基准测试(例如,梯度提升、XGBoost、LightGBM、AdaBoost、支持向量机、朴素贝叶斯)、特征工程、处理混合数据类型、类别不平衡以及轻微的标签噪声。
文件与数据模式标识符与时间
- ticket_id: 唯一工单标识符(随机顺序)
- day_of_week: 星期几(周一至周日)
- day_of_week_num: 星期几对应的数字(1-7;周一=1)
公司档案(每行重复)
- company_id: 公司ID
- company_size: 公司规模(小/中/大 + 对应的分类编码
_cat
) - industry: 行业(7个类别 + 对应的分类编码
_cat
) - customer_tier: 客户等级(基础版/增强版/企业版 + 对应的分类编码
_cat
) - org_users: 活跃用户席位(大型公司可达约10,000)
上下文
- region: 地区(美洲/欧洲中东非洲/亚太 + 对应的分类编码
_cat
) - past_30d_tickets: 过去30天内的工单数量
- past_90d_incidents: 过去90天内的事件数量
产品与渠道
- product_area: 产品领域(认证、计费、移动端、数据管道、分析、通知 + 对应的分类编码
_cat
) - booking_channel: 提交渠道(网页、邮件、聊天、电话 + 对应的分类编码
_cat
) - reported_by_role: 报告者角色(技术支持、运维、产品经理、财务、高管 + 对应的分类编码
_cat
)
影响与标志
- customers_affected: 受影响的客户数(重尾分布)
- error_rate_pct: 错误率百分比(浮点数,0-100;有时 0.0 表示”未测量”)
- downtime_min: 宕机时长(分钟,0 表示仅为性能降级)
- payment_impact_flag: 支付影响标志(0/1)
- security_incident_flag: 安全事件标志(0/1)
- data_loss_flag: 数据丢失标志(0/1)
- has_runbook: 是否有应急预案(0/1)
文本代理特征
- customer_sentiment: 客户情绪(负面/中性/正面 + 对应的分类编码
_cat
,0 表示缺失) - description_length: 描述长度(整数,20-2000)
目标变量
- priority: 优先级(低/中/高 + 对应的分类编码
priority_cat
= 1/2/3)
说明与局限性
- 数据完全合成;适用于教育、基准测试和教程。
- 不包含时间顺序信息或工单解决后的字段,避免了标签泄漏。
- 噪声水平被调整为:即使使用优化良好的模型,性能上限也约为 97-98%,而非完美可分。

资源下载
下载价格9.9 元
VIP免费
立即购买