该数据集包含一家跨国公司 (MNC) 员工的人力资源信息。它包含 200 万条员工记录,其中包含个人身份识别信息、工作相关属性、绩效、就业状况和薪资信息等详细信息。
该数据集可用于人力资源分析,包括员工分布、人员流失分析、薪资趋势和绩效评估。
利用这个数据集,我们在项目中用 Python 回答了多个问题。
Q.1) 员工状态(在职、辞职、退休、终止)的分布情况如何?
Q.2) 工作模式(现场、远程)的分布情况是怎样的?
Q.3) 每个部门有多少名员工?
Q.4) 各部门的平均工资是多少?
Q.5) 哪个职位的平均工资最高?
Q.6)不同部门按职位划分的平均工资是多少?
Q.7) 每个部门有多少名员工辞职或被解雇?
Q.8)薪资如何随工作经验年限而变化?
Q.9)各部门的平均绩效评级是多少?
Q.10) 哪个国家的员工集中度最高?
Q.11) 绩效评级和薪水之间有关联吗?
Q.12) 招聘人数随时间(每年)有何变化?
Q.13) 比较远程员工和现场员工的薪水——有显著差异吗?
Q.14) 找出每个部门薪水最高的前 10 名员工。
Q.15) 确定流失率(辞职率)最高的部门。
这些是数据集中可用的主要特征/列:
1)未命名:0 – 索引列(自动生成,对分析无用,将被删除)。
2) Employee_ID – 分配给每个员工的唯一标识符(例如,EMP0000001)。
3) Full_Name – 员工全名。
4) Department – 员工工作的部门(例如,IT、人力资源、市场营销、运营)。
5) Job_Title – 员工的职位或角色(例如,软件工程师、人力资源经理)。
6) Hire_Date – 员工被公司雇用的日期。
7) Location – 员工的地理位置(城市、国家)。
8) Performance_Rating – 绩效评估分数(数字尺度,越高越好)。
9) Experience_Years – 员工的专业经验年数。
10) Status – 当前就业状态(例如,在职、辞职)。
11) Work_Mode – 工作模式(例如,现场、混合、远程)。
12) Salary_INR – 员工的年薪(印度卢比)。
