关于数据集

该数据集通常被称为成人收入数据集或人口普查收入数据集,包含来自 1994 年美国人口普查数据库的个人人口统计和就业相关属性。目标是根据个人和职业特征预测个人年收入是否超过 5 万美元。

该数据集广泛用于:

机器学习分类任务

特征工程实验

人工智能模型中的公平性和偏见检测

数据集亮点

行数:32,561

列数:15

目标:(<=50K,>50K)收入

类型:分类特征和数值特征的混合

年龄——个人年龄

工作类别 – 就业类型(例如,私营、自营、政府等)

fnlwgt – 最终权重,人口普查局用它来估算人口统计数据

教育 – 所获最高教育水平

education.num – 教育水平的数字表示

marital.status – 婚姻状况

职业 – 职业类型

关系——家庭内的关系状态

种族 – 个人的种族

性别 – 个人的性别

capital.gain – 报告的资本收益

capital.loss – 报告的资本损失

hours.per.week – 每周工作小时数

native.country – 原产国

income – 收入水平(<=50K 或 >50K,分类目标)

潜在用途

二元分类的基准数据集

监督学习的教育资源

跨性别和种族的模型公平性和偏见分析

数据预处理与特征工程实践

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?