Files
SIME/Data/fragment
mm644706215 ea218a3a39 update
2025-10-16 17:26:35 +08:00
..
2025-10-16 17:26:35 +08:00

Cell 论文筛选数据

数据输入:原始片段库

Frags-Enamine-18M.csvEnamine REAL数据库的18M片段需提取SMILES。 GDB11-27M.csvGDB-11数据库的27M片段需提取SMILES

下载地址:Zenodo link

原文筛选逻辑(淋病奈瑟菌靶向)

1数据输入原始片段库 文件来源: Frags-Enamine-18M.csvEnamine REAL数据库的18M片段需提取SMILES。 GDB11-27M.csvGDB-11数据库的27M片段需提取SMILES2模型预测Chemprop预训练模型 模型用途: 使用预训练的Chemprop模型针对淋病奈瑟菌或金黄色葡萄球菌预测片段的抗菌活性得分范围0-1。 模型合理性: Chemprop模型基于图神经网络GNN已在大规模化合物库如Broad Institute的38,765个化合物上训练对结构-活性关系有较高预测精度。 论文验证了模型对已知抗生素片段的预测能力见Figure S1A证明其可靠性。 3多维度过滤条件 筛选逻辑包含以下条件(需代码实现):

1.活性阈值: GDB库片段预测得分>0.05 Enamine库片段预测得分>0.1(因合成性更佳)。 2.毒性过滤: 使用预训练的HepG2、HSkMC、IMR-90细胞毒性模型剔除预测得分>0.5的片段。 3.结构过滤: 排除含PAINS/Brenk子结构的片段易导致假阳性或代谢不稳定。 与已知559个抗生素的Tanimoto相似度<0.5(确保结构新颖性)。 4结果输出 最终获得1,156,945个片段淋病奈瑟菌靶向存储于补充数据或Zenodo仓库中。