36 lines
1.7 KiB
Markdown
36 lines
1.7 KiB
Markdown
## [Cell](https://www.cell.com/cell/abstract/S0092-8674(25)00855-4) 论文筛选数据
|
||
|
||
|
||
|
||
## 数据输入:原始片段库
|
||
|
||
Frags-Enamine-18M.csv:Enamine REAL数据库的18M片段(需提取SMILES)。
|
||
GDB11-27M.csv:GDB-11数据库的27M片段(需提取SMILES)。
|
||
|
||
下载地址:[Zenodo link](https://zenodo.org/records/15191826)
|
||
|
||
## 原文筛选逻辑(淋病奈瑟菌靶向)
|
||
|
||
(1)数据输入:原始片段库
|
||
文件来源:
|
||
Frags-Enamine-18M.csv:Enamine REAL数据库的18M片段(需提取SMILES)。
|
||
GDB11-27M.csv:GDB-11数据库的27M片段(需提取SMILES)。
|
||
(2)模型预测:Chemprop预训练模型
|
||
模型用途:
|
||
使用预训练的Chemprop模型(针对淋病奈瑟菌或金黄色葡萄球菌)预测片段的抗菌活性得分(范围0-1)。
|
||
模型合理性:
|
||
Chemprop模型基于图神经网络(GNN),已在大规模化合物库(如Broad Institute的38,765个化合物)上训练,对结构-活性关系有较高预测精度。
|
||
论文验证了模型对已知抗生素片段的预测能力(见Figure S1A),证明其可靠性。
|
||
(3)多维度过滤条件
|
||
筛选逻辑包含以下条件(需代码实现):
|
||
|
||
1.活性阈值:
|
||
GDB库片段预测得分>0.05;
|
||
Enamine库片段预测得分>0.1(因合成性更佳)。
|
||
2.毒性过滤:
|
||
使用预训练的HepG2、HSkMC、IMR-90细胞毒性模型,剔除预测得分>0.5的片段。
|
||
3.结构过滤:
|
||
排除含PAINS/Brenk子结构的片段(易导致假阳性或代谢不稳定)。
|
||
与已知559个抗生素的Tanimoto相似度<0.5(确保结构新颖性)。
|
||
(4)结果输出
|
||
最终获得1,156,945个片段(淋病奈瑟菌靶向),存储于补充数据或Zenodo仓库中。 |