关于数据集

该数据集是在Zindi上的竞赛中引入的,目的是挑战数据专业人员,根据分析中考虑的变量来预测测试人群的收入是否低于或高于50,000美元。

分析目标。

这项挑战的目的是创建一个机器学习模型来预测一个人的收入是否高于或低于一定数额。

该解决方案可以潜在地降低成本并提高监测关键人口指标的准确性,例如人口普查年份之间的收入水平。这些信息将有助于政策制定者更好地管理和避免全球收入不平等。

数据背景

这些数据是从随机人群中收集的。

训练文件中有大约200,000个人,测试文件中有大约100,000个人。

训练和测试数据将用于创建机器学习模型,以预测个人收入是否超过50,000美金。

关键变量如下:

字段中文说明
​ID​编号记录或受访者的唯一标识符。
​age​年龄受访者的年龄。
​gender​性别受访者的性别。
​education​教育程度所受教育的水平(如:高中、学士、硕士等)。
​class​类别/阶级可能指社会阶层或工作类别(如:私营企业、政府雇员)。
​education_institute​教育机构毕业院校或教育机构类型。
​marital_status​婚姻状况如:已婚、未婚、离异、丧偶。
​race​种族人种(如:白人、黑人、亚裔)。
​is_hispanic​是否为西班牙裔是否是西班牙裔美国人(是/否)。
​employment_commitment​工作周数一年中工作的周数。
​unemployment_reason​失业原因导致失业的主要原因(如:被解雇、辞职)。
​employment_stat​就业状况当前的就业状态(如:就业、失业、非劳动力)。
​wage_per_hour​时薪每小时工资(美元)。
​is_labor_union​是否工会成员是否是工会成员(是/否)。
​working_week_per_year​年工作周数一年中工作的周数。
​industry_code​行业代码当前所在行业的分类代码。
​industry_code_main​主行业代码主要行业的分类代码。
​occupation_code​职业代码当前职业的分类代码。
​occupation_code_main​主职业代码主要职业的分类代码。
​total_employed​总就业人数可能指家庭或特定群体中的总就业人数。
​household_stat​家庭状况受访者在家庭中的身份(如:户主、配偶、子女)。
​household_summary​家庭概况家庭类型的概括(如:独居、有子女的家庭)。
​under_18_family​家庭中18岁以下成员家庭中18岁以下成员的数量或情况。
​veterans_admin_questionnaire​退伍军人问卷是否填写过退伍军人相关问卷。
​vet_benefit​退伍军人福利是否领取退伍军人福利。
​tax_status​报税状态纳税申报状态(如:联合申报、单独申报)。
​gains​资本收益来自投资等的资本收益金额(美元)。
​losses​资本损失资本损失金额(美元)。
​stocks_status​股票状况是否持有股票(是/否)。
​citizenship​公民身份公民身份(如:本土出生、归化入籍、非公民)。
​mig_year​移民年份移民到当前国家的年份。
​country_of_birth_own​本人出生国本人出生的国家。
​country_of_birth_father​父亲出生国父亲出生的国家。
​country_of_birth_mother​母亲出生国母亲出生的国家。
​migration_code_change_in_msa​大都市区变动迁移代码是否迁入或迁出大都市统计区的代码。
​migration_prev_sunbelt​此前是否在阳光地带之前是否居住在美国的“阳光地带”。
​migration_code_move_within_reg​区域内迁移代码在同一地区内迁移的代码。
​migration_code_change_in_reg​跨区域迁移代码变更居住地区的迁移代码。
​residence_1_year_ago​一年前居住地一年前的居住地址。
​old_residence_reg​原居住地区之前居住的地区。
​old_residence_state​原居住州之前居住的州或省。
​importance_of_record​记录重要性权重该记录在样本中的权重,用于推算总体人口。
​income_above_limit​​收入是否超过上限(目标变量)​​这很可能是机器学习任务中的预测目标​​,表示收入是否超过某个阈值(如5万美元/年)。

根据设置的变量和数据目标要求,可以假设分析是基于20世纪美国人口数据,其中中位数收入约为50,000美元。

为什么要预测收入?

收入预测从个人和人口数据中提取见解,因为它提供了预测收入水平,评估财务风险,针对营销活动以及为不同领域的关键决策提供信息的能力。然而,道德考虑,潜在的偏见和数据隐私问题需要密切关注,同时还有不可否认的好处。

在特定行业中的应用:

财务:

  • 信用评分和贷款审批: 预测收入以评估风险并确定贷款资格。
  • 欺诈检测: 根据收入模式识别可疑的金融活动。
  • 定向营销: 根据预测收入为个人量身定制金融产品和服务。
  • 财富管理: 基于收益潜力和风险承受能力的个性化投资策略。

医疗保健:

  • 根据患者收入和人口统计数据预测医疗成本和资源分配。
  • 识别因医疗账单而面临财务困难风险的个人。
  • 根据收入部门制定有针对性的医疗保险计划。
  • 评估政府医疗保健计划的资格。

营销和零售:

  • 基于预测收入群体的客户细分和针对性广告。
  • 针对不同收入阶层量身定制的产品定价策略。
  • 预测客户终身价值,优化营销支出。
  • 根据收入潜力识别潜在的高价值客户。

人力资源:

  • 根据行业标准和预测收入趋势制定薪酬基准和薪酬计划。
  • 基于工作满意度和收入相关因素的员工离职风险预测
  • 通过提供有竞争力的薪酬方案来识别和吸引顶尖人才。
  • 根据收入潜力和技能组合优化人才管理策略。

公共政策:

  • 基于收入分配预测税收收入和分配政府资源。
  • 根据收入贫困确定需要社会援助计划的个人。
  • 评估针对收入不平等的政府政策的有效性。
  • 根据预测的收入水平设计累进税制。

挑战和考虑因素:

  • 与收入信息相关的数据隐私和安全问题。
  • 基于收入预测模型的偏见和歧视的可能性。
  • 收入预测算法的可解释性和透明度。
  • 收入预测对个体行为和选择的影响
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?