关于数据集
这可能是一个非常有趣的数据集😎
请注意:这是一个合成数据集,不能用于学术研究或其他目的,该数据集的目的是为了获得乐趣并学习在具有挑战性的数据集上进行分类,并且数据可能与现实世界的个性不符。
语境
这是一个非常酷的多类分类问题
内容
它包含 16 项性格测试的问题及其使用的量表中的答案,但采用数字编码:
完全同意:3
部分同意:2
稍微同意:1
中立 -> 0
稍微不同意:-1
部分不同意:-2
完全不同意:-3
方法
这种方法非常复杂。为了制作这些数据,我们投入了大量的精力和思考。虽然这些数据是合成的,但一旦你开始处理它,你就会意识到这是一个有效的分类数据。
一些附加信息:
这是一个综合生成的数据,我生成了一个分类数据,将随机数转换为整数(李克特量表),并根据每个人的性格特征,我放大/缩小了一些特征的值(确定直觉/判断/思考的问题)等,然后测试了一些分类模型来查看这些数据是否真的成立。这是第 11 个版本,我一直在不断调整数据集,一次调整一个特征,尝试根据它们对应的性格(目标列)缩小/缩放某些特征的值。因此,构建这种规模的数据集并使其成为有效的数据集实际上需要我付出很多努力,但我仍在完善它的过程中。实际上,我每周都会改进数据集并运行一些 AutoML Pycaret 脚本并调整一些超参数以查看质量是否有所提高😅。所以这本身就像一个研究课题,最终会成为想要解决这个问题的人的资源。

资源下载
下载价格9.9 元
VIP免费
立即购买