update

2025-10-16 17:26:35 +08:00
parent b1d437a06d
commit ea218a3a39
49 changed files with 694742 additions and 2 deletions
--- a/Data/fragment/README.md
+++ b/Data/fragment/README.md
@@ -0,0 +1,36 @@
+## [Cell](https://www.cell.com/cell/abstract/S0092-8674(25)00855-4) 论文筛选数据
+
+
+
+## 数据输入：原始片段库
+
+Frags-Enamine-18M.csv：Enamine REAL数据库的18M片段（需提取SMILES）。
+GDB11-27M.csv：GDB-11数据库的27M片段（需提取SMILES）。
+
+下载地址：[Zenodo link](https://zenodo.org/records/15191826)
+
+## 原文筛选逻辑（淋病奈瑟菌靶向）
+
+（1）数据输入：原始片段库
+文件来源：
+Frags-Enamine-18M.csv：Enamine REAL数据库的18M片段（需提取SMILES）。
+GDB11-27M.csv：GDB-11数据库的27M片段（需提取SMILES）。
+（2）模型预测：Chemprop预训练模型
+模型用途：
+使用预训练的Chemprop模型（针对淋病奈瑟菌或金黄色葡萄球菌）预测片段的抗菌活性得分（范围0-1）。
+模型合理性：
+Chemprop模型基于图神经网络（GNN），已在大规模化合物库（如Broad Institute的38,765个化合物）上训练，对结构-活性关系有较高预测精度。
+论文验证了模型对已知抗生素片段的预测能力（见Figure S1A），证明其可靠性。
+（3）多维度过滤条件
+筛选逻辑包含以下条件（需代码实现）：
+
+1.活性阈值：
+GDB库片段预测得分>0.05；
+Enamine库片段预测得分>0.1（因合成性更佳）。
+2.毒性过滤：
+使用预训练的HepG2、HSkMC、IMR-90细胞毒性模型，剔除预测得分>0.5的片段。
+3.结构过滤：
+排除含PAINS/Brenk子结构的片段（易导致假阳性或代谢不稳定）。
+与已知559个抗生素的Tanimoto相似度<0.5（确保结构新颖性）。
+（4）结果输出
+最终获得1,156,945个片段（淋病奈瑟菌靶向），存储于补充数据或Zenodo仓库中。