关于数据集

该数据集是在Zindi上的竞赛中引入的，目的是挑战数据专业人员，根据分析中考虑的变量来预测测试人群的收入是否低于或高于50，000美元。

分析目标。

这项挑战的目的是创建一个机器学习模型来预测一个人的收入是否高于或低于一定数额。

该解决方案可以潜在地降低成本并提高监测关键人口指标的准确性，例如人口普查年份之间的收入水平。这些信息将有助于政策制定者更好地管理和避免全球收入不平等。

数据背景

这些数据是从随机人群中收集的。

训练文件中有大约200，000个人，测试文件中有大约100，000个人。

训练和测试数据将用于创建机器学习模型，以预测个人收入是否超过50，000美金。

关键变量如下:

字段	中文	说明
ID	编号	记录或受访者的唯一标识符。
age	年龄	受访者的年龄。
gender	性别	受访者的性别。
education	教育程度	所受教育的水平（如：高中、学士、硕士等）。
class	类别/阶级	可能指社会阶层或工作类别（如：私营企业、政府雇员）。
education_institute	教育机构	毕业院校或教育机构类型。
marital_status	婚姻状况	如：已婚、未婚、离异、丧偶。
race	种族	人种（如：白人、黑人、亚裔）。
is_hispanic	是否为西班牙裔	是否是西班牙裔美国人（是/否）。
employment_commitment	工作周数	一年中工作的周数。
unemployment_reason	失业原因	导致失业的主要原因（如：被解雇、辞职）。
employment_stat	就业状况	当前的就业状态（如：就业、失业、非劳动力）。
wage_per_hour	时薪	每小时工资（美元）。
is_labor_union	是否工会成员	是否是工会成员（是/否）。
working_week_per_year	年工作周数	一年中工作的周数。
industry_code	行业代码	当前所在行业的分类代码。
industry_code_main	主行业代码	主要行业的分类代码。
occupation_code	职业代码	当前职业的分类代码。
occupation_code_main	主职业代码	主要职业的分类代码。
total_employed	总就业人数	可能指家庭或特定群体中的总就业人数。
household_stat	家庭状况	受访者在家庭中的身份（如：户主、配偶、子女）。
household_summary	家庭概况	家庭类型的概括（如：独居、有子女的家庭）。
under_18_family	家庭中18岁以下成员	家庭中18岁以下成员的数量或情况。
veterans_admin_questionnaire	退伍军人问卷	是否填写过退伍军人相关问卷。
vet_benefit	退伍军人福利	是否领取退伍军人福利。
tax_status	报税状态	纳税申报状态（如：联合申报、单独申报）。
gains	资本收益	来自投资等的资本收益金额（美元）。
losses	资本损失	资本损失金额（美元）。
stocks_status	股票状况	是否持有股票（是/否）。
citizenship	公民身份	公民身份（如：本土出生、归化入籍、非公民）。
mig_year	移民年份	移民到当前国家的年份。
country_of_birth_own	本人出生国	本人出生的国家。
country_of_birth_father	父亲出生国	父亲出生的国家。
country_of_birth_mother	母亲出生国	母亲出生的国家。
migration_code_change_in_msa	大都市区变动迁移代码	是否迁入或迁出大都市统计区的代码。
migration_prev_sunbelt	此前是否在阳光地带	之前是否居住在美国的“阳光地带”。
migration_code_move_within_reg	区域内迁移代码	在同一地区内迁移的代码。
migration_code_change_in_reg	跨区域迁移代码	变更居住地区的迁移代码。
residence_1_year_ago	一年前居住地	一年前的居住地址。
old_residence_reg	原居住地区	之前居住的地区。
old_residence_state	原居住州	之前居住的州或省。
importance_of_record	记录重要性权重	该记录在样本中的权重，用于推算总体人口。
income_above_limit	收入是否超过上限（目标变量）	这很可能是机器学习任务中的预测目标，表示收入是否超过某个阈值（如5万美元/年）。

根据设置的变量和数据目标要求，可以假设分析是基于20世纪美国人口数据，其中中位数收入约为50，000美元。

为什么要预测收入？

收入预测从个人和人口数据中提取见解，因为它提供了预测收入水平，评估财务风险，针对营销活动以及为不同领域的关键决策提供信息的能力。然而，道德考虑，潜在的偏见和数据隐私问题需要密切关注，同时还有不可否认的好处。

在特定行业中的应用:

财务:

信用评分和贷款审批: 预测收入以评估风险并确定贷款资格。
欺诈检测: 根据收入模式识别可疑的金融活动。
定向营销: 根据预测收入为个人量身定制金融产品和服务。
财富管理: 基于收益潜力和风险承受能力的个性化投资策略。

医疗保健:

根据患者收入和人口统计数据预测医疗成本和资源分配。
识别因医疗账单而面临财务困难风险的个人。
根据收入部门制定有针对性的医疗保险计划。
评估政府医疗保健计划的资格。

营销和零售:

基于预测收入群体的客户细分和针对性广告。
针对不同收入阶层量身定制的产品定价策略。
预测客户终身价值，优化营销支出。
根据收入潜力识别潜在的高价值客户。

人力资源:

根据行业标准和预测收入趋势制定薪酬基准和薪酬计划。
基于工作满意度和收入相关因素的员工离职风险预测
通过提供有竞争力的薪酬方案来识别和吸引顶尖人才。
根据收入潜力和技能组合优化人才管理策略。

公共政策:

基于收入分配预测税收收入和分配政府资源。
根据收入贫困确定需要社会援助计划的个人。
评估针对收入不平等的政府政策的有效性。
根据预测的收入水平设计累进税制。

挑战和考虑因素:

与收入信息相关的数据隐私和安全问题。
基于收入预测模型的偏见和歧视的可能性。
收入预测算法的可解释性和透明度。
收入预测对个体行为和选择的影响

资源下载

下载价格9.9 元

VIP免费

收入预测数据集 (美国20世纪数据)

关于数据集

分析目标。

数据背景

为什么要预测收入？

在特定行业中的应用:

财务:

医疗保健:

营销和零售:

人力资源:

公共政策:

挑战和考虑因素:

在线客服

升级VIP

返回顶部

收入预测数据集 (美国20世纪数据)

关于数据集

分析目标。

数据背景

为什么要预测收入？

在特定行业中的应用:

财务:

医疗保健:

营销和零售:

人力资源:

公共政策:

挑战和考虑因素:

猜你喜欢

在线客服

升级VIP

返回顶部