关于数据集
抽象的
数据与葡萄牙一家银行机构的直接营销活动(电话营销)相关。分类目标是预测客户是否会认购定期存款(变量 y)。
信息
这些数据与葡萄牙一家银行机构的直接营销活动有关。营销活动以电话联系为基础。通常需要与同一客户联系多次,才能了解该产品(银行定期存款)是否会被认购(“是”)或不会被认购(“否”)。bank
-additional-full.csv 包含所有示例(41188 个)和 20 个输入,按日期排序(从 2008 年 5 月到 2010 年 11 月),非常接近 [Moro et al., 2014] 中分析的数据
。提供最小的数据集是为了测试计算要求更高的机器学习算法(例如 SVM)。分类目标是预测客户是否会认购(是/否)定期存款(变量 y)。
属性
输入变量:
银行客户数据:
1 – 年龄(数字)
2 – 工作:工作类型(分类:’行政’、’蓝领’、’企业家’、’女佣’、’管理’、’退休’、’自雇’、’服务’、’学生’、’技术员’、’失业’、’未知’)
3 – 婚姻:婚姻状况(分类:’离婚’、’已婚’、’单身’、’未知’;注:’离婚’表示离婚或丧偶)
4 – 教育(分类:’基础.4y’、’基础.6y’、’基础.9y’、’高中’、’文盲’、’专业课程’、’大学学位’、’未知’)5
– 违约:是否有信用违约? (分类:‘否’,‘是’,‘未知’)
6 – 住房:有住房贷款吗?(分类:‘否’,‘是’,‘未知’)
7 – 贷款:有个人贷款吗?(分类:‘否’,‘是’,‘未知’)
与当前活动的最后一次接触有关:
8 – contact:联系通信类型(分类:’蜂窝’,’电话’)
9 – month:最后联系月份(分类:’一月’,’二月’,’三月’,…,’十一月’,’十二月’)
10 – day_of_week:最后联系星期几(分类:’星期一’,’星期二’,’星期三’,’星期四’,’星期五’)
11 – duration:最后联系持续时间,以秒为单位(数字)。重要提示:此属性会极大地影响输出目标(例如,如果duration = 0,则y =’no’)。但是,在进行呼叫之前无法知道持续时间。此外,在通话结束后,y显然是已知的。因此,此输入仅应用于基准测试目的,如果目的是建立一个切合实际的预测模型,则应将其丢弃。
其他属性:
12 – 活动:在此活动期间为该客户进行的联系次数(数字,包括最后一次联系)
13 – 天数:自上次活动联系客户以来经过的天数(数字;999 表示之前未联系过客户)
14 – 先前:在此活动之前为该客户进行的联系次数(数字)
15 – 结果:上次营销活动的结果(分类:“失败”、“不存在”、“成功”)
社会和经济背景属性
16 – emp.var.rate:就业变化率 – 季度指标(数字)
17 – cons.price.idx:消费者价格指数 – 月度指标(数字)
18 – cons.conf.idx:消费者信心指数 – 月度指标(数字)
19 – euribor3m:欧元银行同业拆借利率 3 个月 – 每日指标(数字)
20 – nr.employed:员工人数 – 季度指标(数字)
输出变量(期望目标):
21 – y – 客户是否已认购定期存款?(二进制:’是’,’否’)
致谢
此数据集可供研究者公开使用。详情请参阅 [Moro et al., 2014]。
如果您计划使用此数据库,请注明来源:
[Moro 等,2014] S. Moro、P. Cortez 和 P. Rita,《一种预测银行电话营销成功率的数据驱动方法》。《决策支持系统》,爱思唯尔,62:22-31,2014 年 6 月
数据来源:UCI机器学习库
灵感
您的数据将呈现在全球最大的数据科学社区面前。您希望看到哪些问题的答案?
