关于数据集

全球时尚零售分析数据集


📊数据集概览

此合成数据集模拟两年的交易数据对于一家跨国时尚零售商,其特点是:

  • 📈4 + 万销售记录
  • 🏪35家门店7个国家:
    🇺🇸美国 |🇨🇳中国 |🇩🇪德国 |🇬🇧英国 |🇫🇷法国 |🇪🇸西班牙 |🇵🇹葡萄牙

涵盖的货币:
每笔交易都包含详细的货币信息,涵盖多种货币:

💵USD (美国) |💶欧元 (欧元区) |💴人民币 (中国) |💷GBP (英国)

专为详细和多方面的分析而设计

🌐地理销售比较
深入了解不同地区和国家/地区的销售业绩差异,并确定在不同市场取得成功的趋势。

👥分析人员配备和绩效
评估门店人员配置比例,分析员工绩效对门店成功的影响。

🛍️客户行为和细分
了解区域客户偏好,分析年龄、职业等人口统计因素,根据客户的购买习惯进行细分。

💱多币种分析
探索如何处理不同货币 (美元、欧元、人民币、英镑) 的交易,分析货币兑换效果,并比较使用多种货币的不同地区的销售额。

👗产品趋势
评估产品类别 (例如,女性,男性,儿童) 和特定产品属性 (尺寸,颜色) 在不同地区的表现。

🎯定价和折扣分析
研究不同的定价模式和折扣如何影响不同地区的销售和客户决策。

📊先进的跨国和货币分析
行为复杂的多维分析这种互连国家/地区、货币和销售数据,识别隐藏相关性经济因素、区域需求和财务绩效之间的关系。

合成数据优势

它使用算法生成,模拟真实世界的零售动态,同时确保隐私。

  • 隐私-安全: 所有客户和员工数据都是人工生成的,以确保隐私和遵守数据保护法规。个人详细信息,如电子邮件和电话号码,是匿名的。
  • 可扩展模式: 数据复制了现实世界的零售动态,确保了用于测试算法和分析模型的模式的可扩展性。
  • 受控复杂性: 数据集引入了有意的复杂性 (例如,缺少职位名称,电话号码格式不一致),为探索性数据分析提供了更现实和更具挑战性的探索体验。
  • 可针对各种用例进行自定义: 无论您是执行销售预测、员工绩效分析还是客户细分,此数据集都为各种分析任务提供了灵活的基础。

此数据集是零售分析师,数据科学家和商业智能专业人士的理想资源,旨在探索跨国零售数据,优化运营并发现有关客户行为,销售趋势,和员工效率。

customers表列说明

字段描述示例
Customer ID客户的唯一数字标识符1
Name全名 (可能包括头衔/敬语,如Mr.或专业后缀)Gregory Tanner
Email带有假域的匿名电子邮件 (fake_gmail.com,fake_hotmail.com)gregory.tanner@fake_gmail.com
Telephone格式不一致的电话号码 (混合国家代码和分机)001-828-249-8786x663
CityCityNew York
CountryCountryUnited States
GenderGender (F,M,D) D = «多样化»F
Date Of Birth出生日期在YYYY-MM-DD格式1968-12-18
Job Title职业 (可选字段; 可以为空或包含多个角色)Restaurant manager

discounts列说明

字段描述示例
Start Date折扣生效的日期,在YYYY-MM-DD格式2024-06-01
End Date折扣到期的日期,在YYYY-MM-DD格式2024-06-30
Discount表示折现率的十进制值 (例如,0.20表示20% 的折扣)0.20
Description折扣活动的简要说明Summer sale discount on all items
Discount Percentage表示折现率的十进制值 (例如,0.20表示20% 的折扣)0.20
Category折扣适用的产品类别Feminine
Sub Category折扣适用的产品子类别T-shirts and Tops

employees列说明

字段描述示例
Employee ID员工的唯一数字标识符1
Store ID商店id1
Name中的全名[First Name] [Last Name]格式Michelle Williams
Position存储层次结构中的角色 (Manager监督运营,Seller处理交易)Manager

products列说明

字段描述示例
Product ID产品的唯一数字标识符123
Category产品的高级分类 (EN) (例如,Feminine,Masculine,Children)Feminine
Sub Category类别中更具体的分类 (EN)Coats and Blazers
Description PT葡萄牙语产品描述esportivo veludo verde com botões
Description DE德语产品描述Sport Samt Sport mit Knöpfen
Description FR法语产品描述Sports Velvet Sports avec des boutons
Description ES西班牙语产品描述deportes de terciopelo con botones
Description EN产品英文描述sports velvet sports with buttons
Description ZH产品中文描述运动天鹅绒运动与按钮
Color产品颜色PINK
Sizes可用产品尺寸S|M|L|XL
Production Cost生产产品所产生的成本 (美元)22.62

stroes列说明

字段描述示例
Store ID商店位置的唯一标识符1
Country商店所在的国家/地区中国(中国)
City商店所在的城市上海(上海)
Store Name遵循以下格式的人类可读名称Store [City]Store 上海
Number of Employees分配给商店的员工总数5
ZIP Code商店位置的邮政编码200000
Latitude商店位置的地理纬度31.2304
Longitude商店位置的地理经度121.4737

transactions列说明

字段描述示例
Invoice ID每个交易的唯一标识符,区分销售和退货。它遵循以下格式 :( 用于销售的INV或用于退货的RET) + 国家/地区代码 + 商店ID + 顺序计数器。这可确保同一交易记录中的所有项目都分组在同一发票下。INV-US-001-00001233
Line表示产品在发票中位置的序号。单张发票可以包含多个行项目。1
Customer ID顾客id380368
Product ID产品id1816
Size产品尺寸变体 (例如,S、M、L、XL)。如果不适用,则留空。M
Color产品的颜色变化。如果不适用,则留空。PINK
Unit Price在应用任何折扣之前,单个产品单位的价格。198
Quantity此发票行项目中购买的产品的单位数。2
Date格式的事务处理的日期和时间YYYY-MM-DD HH:MM:SS(24小时格式)。2023/1/1 12:23
Discount折扣0
Line Total应用任何折扣后行项目的总成本。计算公式为:Unit Price × Quantity × (1 – Discount)。277.2
Store ID商店id6
Employee ID员工id37
Currency三个字母的ISO货币代码,表示用于交易的货币 (例如,美元、欧元、人民币、英镑)。USD
Currency Symbol与交易货币相关联的符号 (例如,$ 、 € 、 £ 、 ¥)。$
SKU库存单位 (SKU),组合产品ID、尺寸和颜色的唯一库存代码 (例如,FESH81-M-PINK= 产品ID 81 + 尺寸M + 颜色粉红色)。FESH81-M-PINK
Transaction Type指定交易记录是销售还是退货。Sale
Payment Method用于完成交易的方法 (例如,信用卡、现金)。Credit Card
Invoice Total指交易记录 (发票ID) 的总值。它是同一发票ID的所有行合计值的总和。在同一发票ID内的所有行项目中重复此值。347.5
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?