关于数据集
杂货店连锁销售数据集
数据集概述
这个综合的合成数据集包含来自一家拥有多家门店的连锁杂货店的1,980 条记录,涵盖了不同门店位置、产品类别、顾客互动和促销活动的详细交易数据。该数据集涵盖了约 2 年(2023-2025 年)的销售数据,并提供了关于顾客购买行为、门店业绩、产品受欢迎程度和促销效果的洞察。
数据集特征
- 总记录:1,980 笔交易
- 时间范围:2023年8月-2025年8月
- 商店位置:9 家不同的杂货店分店
- 产品类别:11个不同的过道
- 数据质量:包括清理实践中实际缺失的值和数据不一致的情况
列描述
列名称 | 数据类型 | 描述 | 示例值 | 笔记 |
---|---|---|---|---|
customer_id | 细绳 | 唯一客户标识符 | “2824”,“5506”,“4657” | 4 位数客户 ID |
store_name | 细绳 | 杂货店位置名称 | “蔬菜水果广场”、“ValuePlus 超市” | 9个不同的商店位置 |
transaction_date | 日期 | 交易日期 | “2023-08-26”,“2024-02-13” | 范围:2023-2025 |
aisle | 细绳 | 产品类别/部门 | “农产品”、“乳制品”、“肉类和海鲜” | 11个不同的过道 |
product_name | 细绳 | 购买产品的名称 | “意大利面”、“奶酪”、“香蕉” | 18种不同的产品 |
quantity | 细绳 | 购买商品数量 | “2”、“1”、“4” | 范围:1-5 项(存储为字符串) |
unit_price | 漂浮 | 每件商品的价格 | 7.46、1.85、29.56 | 范围:0.99 美元 – 29.99 美元 |
total_amount | 漂浮 | 折扣前总成本 | 14.92、1.85、29.52 | 数量 × 单价 |
discount_amount | 漂浮 | 已应用总折扣 | 0.0, 3.41, 4.04 | 促销折扣 |
final_amount | 漂浮 | 折扣后最终金额 | 14.92, -1.56, 25.48 | 总金额 – 折扣金额 |
loyalty_points | 整数 | 获得的客户忠诚度积分 | 377, 111, 301 | 范围:0-500分 |
商店位置
数据集包括来自以下商店位置的交易:
- FreshMart 市中心店
- 蔬菜水果店广场
- SuperSave Central
- 家庭美食快车
- QuickStop 市场
- MegaMart 西区
- 街角杂货店
- 城市鲜食店
- ValuePlus 市场
产品类别(过道)
走道 | 产品类型 |
---|---|
生产 | 新鲜水果和蔬菜 |
奶制品 | 牛奶、奶酪、酸奶制品 |
肉类和海鲜 | 新鲜蛋白质来源 |
面包店 | 面包和烘焙食品 |
冷冻食品 | 冷冻食品 |
罐头食品 | 腌制食品 |
零食和糖果 | 糖果和零食 |
饮料 | 饮料和果汁 |
个人护理 | 健康和卫生产品 |
家居用品 | 清洁和家居用品 |
健康与保健 | 维生素和保健品 |
数据质量说明
该数据集包含现实世界数据中典型的故意数据质量问题:
- 缺失值:缺少一些商店名称、促销活动和会员等级
- 数据不一致:数量字段的混合格式(“2”与“2.0”)
- 负值:由于折扣较高,一些最终金额为负数
- 类型变化:客户 ID 尽管是数字,但存储为字符串
关键业务指标
- 平均交易额:不同商店和产品存在显著差异
- 折扣渗透:折扣模式体现多种促销策略
- 客户忠诚度:积分系统,每笔交易 0-500 积分
- 产品多样性:11个主要类别的18种核心产品
- 地理覆盖范围:9 个门店位置,提供区域洞察
潜在用例
该数据集非常适合:
- 客户细分分析
- 销售业绩评估
- 库存管理优化
- 促销效果研究
- 商店比较分析
- 产品热度追踪
- 客户生命周期价值计算
- 需求预测模型
- 数据清理与预处理实践

资源下载
下载价格9.9 元
VIP免费
立即购买