Files
SIME/Data/fragment/README.md
mm644706215 ea218a3a39 update
2025-10-16 17:26:35 +08:00

36 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
## [Cell](https://www.cell.com/cell/abstract/S0092-8674(25)00855-4) 论文筛选数据
## 数据输入:原始片段库
Frags-Enamine-18M.csvEnamine REAL数据库的18M片段需提取SMILES
GDB11-27M.csvGDB-11数据库的27M片段需提取SMILES
下载地址:[Zenodo link](https://zenodo.org/records/15191826)
## 原文筛选逻辑(淋病奈瑟菌靶向)
1数据输入原始片段库
文件来源:
Frags-Enamine-18M.csvEnamine REAL数据库的18M片段需提取SMILES
GDB11-27M.csvGDB-11数据库的27M片段需提取SMILES
2模型预测Chemprop预训练模型
模型用途:
使用预训练的Chemprop模型针对淋病奈瑟菌或金黄色葡萄球菌预测片段的抗菌活性得分范围0-1
模型合理性:
Chemprop模型基于图神经网络GNN已在大规模化合物库如Broad Institute的38,765个化合物上训练对结构-活性关系有较高预测精度。
论文验证了模型对已知抗生素片段的预测能力见Figure S1A证明其可靠性。
3多维度过滤条件
筛选逻辑包含以下条件(需代码实现):
1.活性阈值:
GDB库片段预测得分>0.05
Enamine库片段预测得分>0.1(因合成性更佳)。
2.毒性过滤:
使用预训练的HepG2、HSkMC、IMR-90细胞毒性模型剔除预测得分>0.5的片段。
3.结构过滤:
排除含PAINS/Brenk子结构的片段易导致假阳性或代谢不稳定
与已知559个抗生素的Tanimoto相似度<0.5(确保结构新颖性)。
4结果输出
最终获得1,156,945个片段淋病奈瑟菌靶向存储于补充数据或Zenodo仓库中。