该数据集使用多种指纹算法提供了生物活性化合物的广泛分子表示:
-RDKit 指纹(每种化合物 1,400 多个二进制特征)
-Morgan 指纹(循环扩展连接描述符)
-MACCS 键(结构片段模式)
总之,这些捕获了全面的化学空间,使数据集非常适合药物发现、化学信息学和人工智能驱动的分子建模的高级研究。
-由于其高维性,该数据集非常适合:
-需要丰富结构输入的深度学习模型
-基准特征选择、降维和自动编码器
-大规模 QSAR 和活动预测管道 –
化学相似性搜索、聚类和多样性分析
-对于寻求更轻版本的用户,还可以使用仅包含最有效指纹的较小配套数据集,该数据集针对快速 ML 原型设计进行了优化。
该数据集适用于想要探索分子描述符全部功能的研究人员,可根据项目灵活地平衡准确性和效率。


资源下载
下载价格9.9 元
VIP免费
立即购买