关于数据集
奢侈品零售分析数据集中的信用卡欺诈检测
概述
这个综合的合成数据集包含来自全球主要城市的奢侈化妆品快闪活动的2,133 条交易记录。该数据集专为信用卡欺诈检测分析而设计,包含16 个精心挑选的列,用于捕捉构建稳健欺诈检测模型所必需的交易和行为模式。
数据集特征
- 总记录数:2,133 行
- 总功能:16列
- 目标变量:二元欺诈分类(Fraud_Flag)
- 时间段:2025年2月 – 2025年8月(6个月跨度)
- 地理覆盖范围:全球 20 个奢侈品零售点
- 行业重点:高端化妆品和美容产品
- 数据质量:针对实际数据清理场景的故意空值
列描述
列名称 | 数据类型 | 描述 | 示例值 | 空值 |
---|---|---|---|---|
交易ID | 细绳 | 每笔交易的唯一标识符(UUID格式) | 702bdd9b-9c93-41e3-9dbb-a849b2422080 | 不 |
客户 ID | 细绳 | 唯一客户标识符(UUID格式) | 119dca0b-8554-4b2d-9bec-e964eaf6af97 | 不 |
交易日期 | 日期 | 交易发生日期 | 2025-07-27 ,2025-03-14 | 不 |
交易时间 | 时间 | 交易的准确时间(24小时制) | 04:04:15 ,20:23:23 | 不 |
客户年龄 | 整数 | 顾客年龄(18-65岁) | 56 ,,46 32 | 是 (~5%) |
客户忠诚度等级 | 分类 | 客户忠诚度计划等级 | Bronze ,,,,,Silver Gold Platinum VIP | 是 (~5%) |
地点 | 分类 | 发生快闪活动的城市 | New York ,,,Paris Tokyo Dubai | 不 |
商店 ID | 分类 | 每个快闪店的唯一标识符 | FLAGSHIP-LA ,,BOUTIQUE-NYC POPUP-TOKYO | 不 |
产品_SKU | 分类 | 限量版产品标识符 | AURORA-LIP-01 ,CELESTE-EYE-05 | 不 |
产品类别 | 分类 | 购买的化妆品类型 | Lipstick ,,Foundation Mascara | 不 |
购买金额 | 漂浮 | 交易价值(美元)(50-300 美元范围) | 158.24 ,,86.03 255.69 | 不 |
付款方式 | 分类 | 付款方式 | Credit Card ,,,Debit Card Mobile Payment Gift Card | 是 (~5%) |
设备类型 | 分类 | 用于交易的设备 | Mobile ,,,Desktop Tablet Laptop | 不 |
IP地址 | 细绳 | 交易的IP地址 | 239.249.58.237 ,84.49.227.90 | 不 |
欺诈标记 | 二进制 | 目标变量(0=无欺诈,1=欺诈) | 0 (97%),1 (3%) | 不 |
Footfall_Count | 整数 | 快闪活动的每日访客数量 | 333 ,,406 96 | 不 |
欺诈检测的关键功能
时间模式
- 用于识别可疑时间模式的交易日期和时间
- 六个月期间的季节性趋势
客户行为
- 年龄结构(18-65岁)
- 忠诚度等级分布(铜级:40%,银级:25%,金级:20%,白金级:10%,VIP:5%)
- 奢侈品价格区间(50-300美元)的购买金额模式
地理智能
- 遍布主要奢侈品购物目的地的 20 个优质地点
- 用于位置验证的 IP 地址数据
- 特定商店的交易模式
产品和付款洞察
- 10 个限量版 SKU 及对应产品类别
- 4 种用于行为分析的支付方式类型
- 设备类型偏好和模式
特定事件指标
- 每日客流量统计(50-500 名访客),用于情境感知欺诈检测
- 快闪店绩效指标
欺诈分布
- 非欺诈交易:97%(2,069条记录)
- 欺诈交易:3%(64条记录)
- 欺诈率:行业实际值为 3%,用于增强模型训练
用例
- 二元分类:欺诈与非欺诈预测
- 异常检测:识别异常交易模式
- 风险评分:客户和交易风险评估
- 特征工程:为机器学习模型创建派生变量
- 时间分析:时间序列欺诈模式识别
- 地理分析:基于位置的欺诈趋势
- 客户细分:基于忠诚度层级的行为分析
数据质量说明
- 缺失值:策略性地放置在 Customer_Age、Customer_Loyalty_Tier 和 Payment_Method 中
- 现实分布:所有分类变量都遵循现实世界的商业分布
- 均衡的地理覆盖:在奢侈品零售地点的均衡分布
- 时间一致性:维持逻辑日期时间关系
模型就绪功能
- 高基数:Transaction_ID、Customer_ID、IP_Address
- 序数:Customer_Loyalty_Tier(青铜级 < 白银级 < 黄金级 < 白金级 < VIP)
- 分类:位置、商店 ID、产品 SKU、产品类别、付款方式、设备类型
- 数值:客户年龄、购买金额、客流量
- 时间:交易日期、交易时间
- 二进制目标:Fraud_Flag
该数据集为开发和测试欺诈检测算法提供了良好的基础,其丰富的背景信息反映了现实世界的奢侈品零售环境。

资源下载
下载价格9.9 元
VIP免费
立即购买