关于数据集

语境

金融服务领域,尤其是在新兴的移动货币交易领域,缺乏公开可用的数据集。金融数据集对许多研究人员来说至关重要,对我们这些从事欺诈检测研究的人来说尤其如此。部分原因在于金融交易本质上的隐私性,这导致没有公开可用的数据集。

我们提出了一个使用名为 PaySim 的模拟器生成的合成数据集,作为解决此类问题的方法。PaySim 使用来自私有数据集的聚合数据来生成一个模拟正常交易操作的合成数据集,并注入恶意行为,以便后续评估欺诈检测方法的性能。

内容

PaySim 模拟移动货币交易,其依据是从非洲某国家实施的移动货币服务一个月的财务日志中提取的真实交易样本。原始日志由一家跨国公司提供,该公司是该移动金融服务的提供商,目前该服务已在全球 14 个国家/地区运行。

该合成数据集缩小了原始数据集的 1/4,专为 Kaggle 创建。

注意:被检测为欺诈的交易将被取消,因此对于欺诈检测,不得使用这些列(oldbalanceOrg、newbalanceOrig、oldbalanceDest、newbalanceDest)。

标题

这是带有标题说明的 1 行示例:

1,付款,1060.31,C429214117,1089.0,28.69,M1591654462,0.0,0.0,0,0

步长 – 映射现实世界中的时间单位。在本例中,1 步长代表 1 小时。总步长 744(模拟 30 天)。

类型 – 现金存入、现金取出、借记、付款和转账。

金额——
以当地货币计算的交易金额。

nameOrig – 发起交易的客户

oldbalanceOrg – 交易前的初始余额

newbalanceOrig – 交易后的新余额。

nameDest – 交易接收者的客户

oldbalanceDest – 交易前的初始余额收款人。请注意,没有以 M 开头的客户(商户)的信息。

newbalanceDest – 交易后新的余额接收方。请注意,没有以 M 开头的客户(商户)的信息。

isFraud – 这是模拟中欺诈代理进行的交易。在此特定数据集中,代理的欺诈行为旨在通过控制客户账户获利,并试图通过转移到另一个账户然后从系统中提现来清空资金。

isFlaggedFraud – 该商业模型旨在控制账户间的大规模转账,并标记非法尝试。本数据集中的非法尝试是指单笔交易中转账金额超过 20 万英镑的尝试。

过去的研究

有 5 个类似的文件,分别包含 5 种不同场景的运行。这些文件在我的博士论文第 7 章中有更详细的解释(博士论文可在此处获取:http://urn.kb.se/resolve? urn=urn:nbn:se:bth-12932 )。

我们使用随机种子多次运行 PaySim,共计 744 步,代表一个月内的每个小时,这与原始日志的数据一致。每次运行大约需要 45 分钟,使用的是英特尔 i7 处理器和 16GB 内存。运行的最终结果包含约 2400 万条财务记录,分为五类:现金入账、现金出账、借记、付款和转账。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?