关于数据集
📦具有 AST 和 Token 特征的软件缺陷多语言数据集此存储库提供跨多种编程语言的1,000 个合成代码函数
的数据集,用于软件缺陷预测、多语言静态分析和LLM 评估。🙋如果您在研究或项目中使用此数据集, 请引用 ,请引用为:
Ravikumar RN,具有AST特征的软件缺陷多语言数据集 (2025)。由用于缺陷预测和多语言代码分析的合成方法生成。🧠数据集亮点
- 包含的语言:Python、Java、JavaScript、C、C++、Go、Rust
- 记录:1,000 个代码片段
- 标签:
defect
(1 = 有缺陷,0 = 干净)- 特征:
token_count
:总令牌数(基于 Python 的 AST)num_ifs
,num_returns
,num_func_calls
: 代码结构特点ast_nodes
:抽象语法树中的节点数(仅限 Python)lines_of_code
&cyclomatic_complexity
:用于建模的模拟指标📊列说明|列|说明||———————-|—————————————————–|||function_name
函数的唯一标识符|||实际code
函数源代码|||使用language
的编程语言|||函数lines_of_code
中的大约行数|||决策cyclomatic_complexity
复杂度的模拟度量|||defect
1 = 有缺陷,0 = 干净|||token_count
总令牌数(Python 使用 AST 令牌)|||’num_ifs
if’ 语句数|||’num_returns
return’ 语句数|||函数num_func_calls
调用次数|||ASTast_nodes
节点数(仅限 Python,fallback = 令牌数)|🛠️使用示例此数据集适用于:- 训练传统机器学习模型,例如随机森林或 XGBoost
- 评估基于提示或微调的 LLM(例如 CodeT5、GPT-4)
- 使用 AST 和静态代码指标进行特征重要性研究
- 代码理解中的跨语言迁移学习
资源下载
下载价格9.9 元
VIP免费
立即购买