diff --git a/docs/shotter_math_full_zh_typora.md b/docs/shotter_math_full_zh_typora.md index 2556ac0..359327d 100644 --- a/docs/shotter_math_full_zh_typora.md +++ b/docs/shotter_math_full_zh_typora.md @@ -682,3 +682,225 @@ flowchart TB - 正文公式保留 score 这一条即可。 _本文是对 Bttoxin_Shotter v1 实现逻辑的文字化说明,如需与最新代码完全严格对齐,请以代码仓库中的实现为准。_ + +--- + +## 11. 加入 3 项“基因组背景特征”到菌株×靶标分数(ZWA/Thu/TAA BGC / Mobilome / CRISPR) + +> 你新增的三类指标,本质上都是“**对同一个菌株的全基因组背景做先验修正(strain-level priors)**”。 +> +> - Shotter v1 的 $\text{Score}(\text{strain},\text{order})$ 仅由“毒素命中→靶标分布→noisy-OR”构成(第 3–6 节)。 +> - 现在我们引入三类**菌株层特征**,用来调整(boost / penalize)每个靶标分数,同时保持: +> - 分数仍在 $[0,1]$; +> - 解释仍然清晰:毒素命中给“证据”,背景特征给“先验”。 +> +> 三类特征都来自**序列比对/检测的结果**: +> - ZWA/Thu/TAA:对已知 BGC/关键酶蛋白做 BLAST/HMM(或用 BGC 预测器)→ 得到“存在/不存在”。 +> - Mobilome:对转座酶、质粒复制蛋白、噬菌体标志蛋白等做 BLAST/HMM/注释统计 → 得到数量。 +> - CRISPR/Cas:对 Cas 蛋白做 HMM/BLAST + 阵列检测(repeat/spacer)→ 判定“完整/不完整/不存在”。 + +### 11.1 为什么这三项可以影响“杀虫活性潜力”?(三条关键因果链) + +> 你要向专家说明的不是“它们直接提高毒力”,而是:它们改变了菌株在进化与生态上**获得/维持杀虫模块**的概率。 + +#### (A) ZWA/Thu/TAA 三类“杀虫素 BGC”:存在即为直接功能模块证据(正向) + +关键因果链(可直接放到讨论里): + +1. 这些基因簇(BGC)代表一种可表达的生物合成路径(酶系/修饰/转运/自抗等模块齐备)。 +2. 若用序列比对/结构域检测确认该路径的关键酶与骨架基因存在,则“产物存在的可行性”显著上升。 +3. 因此,即使 Cry/Vip 等蛋白毒素命中较少,BGC 的存在也代表一种**独立(正交)的杀虫潜力来源**。 + +结论:**存在(1)应当加分;不存在(0)不加分。** + +#### (B) 移动元件(转座酶/质粒/噬菌体)数量:mobilome 越丰富,越容易获得/重排毒素模块(总体正向,但要饱和) + +关键因果链: + +1. Bt 及 B. cereus group 中,大量杀虫相关基因(包括 cry 等)常与质粒/移动 DNA 库强相关,且移动元件(IS/转座子等)参与基因重排、模块拼装与在质粒上的迁移。 +2. mobilome 越丰富,意味着可重排/可迁移的 DNA 元件越多,越容易出现: + - 新毒素模块的获得(HGT/共轭/转导等); + - 现有毒素模块的复制、重排、组合与剂量效应; + - 数据库未覆盖的新型“other/unknown”杀虫因子的潜力。 +3. 但 mobilome 指标也会受组装质量、注释阈值影响,因此应做“边际递减/饱和”,避免被噪声拉爆。 + +结论:**数量越多总体加分(正向),但用饱和函数。** + +#### (C) CRISPR/Cas 完整度:越完整,越像“限制外源 DNA 的屏障”,从而降低获得毒素/质粒库的先验(负向) + +关键因果链: + +1. CRISPR-Cas 的核心生态功能之一是抵御外源遗传元件(质粒/噬菌体等),本质上会对水平基因转移(HGT)形成选择压力。 +2. 在 Bt 中,杀虫谱与毒素库的快速扩展常与质粒/移动 DNA 库相关; +3. 因此,当 CRISPR/Cas **更完整且更可能功能健全**时,菌株对外源质粒/移动模块的“进入与稳定维持”通常更困难,导致“获取/更新毒素库”的先验下降。 +4. 反过来,CRISPR 缺失/失活的菌株更可能处于“更开放的 mobilome 交换状态”,更容易累积可迁移毒素模块。 + +结论:对“杀虫潜力总评分”应采用 **不存在 > 不完整 > 完整** 的单调顺序(即 CRISPR 越完整越压分)。 + +> 注:CRISPR 的实际生态效应可能随环境与 anti-CRISPR 等因素复杂化,但作为“全基因组先验”,上述方向能提供最稳定、最可解释的单调修正。 + +### 11.2 三类指标的输入格式(对应你的量化规则) + +你希望的量化方式: + +1. 三种杀虫素(分别为 ZWA、Thu、TAA)生物合成基因簇:存在(1)、不存在(0)。 +2. 移动元件(转座酶、质粒、噬菌体):用数量表示。 +3. CRISPR/Cas 系统:完整(2)、不完整(1)、不存在(0)。 + +记作: + +- $b_Z, b_T, b_A \in \{0,1\}$(对应 ZWA/Thu/TAA) +- $m \in \mathbb{N}_0$(mobilome 总计数,或分项加和) +- $c \in \{0,1,2\}$(CRISPR 状态:0=不存在,1=不完整,2=完整) + +### 11.3 为什么不用把这三类特征直接塞进 noisy-OR?(建模选择) + +noisy-OR 适合合成“多条毒素命中对同一靶标的独立贡献”。 +而这三类新特征是“菌株整体背景”,并不对应某个具体命中的 $c_i(\text{order})$。 + +因此最稳妥的做法是: + +1. 先按 v1 算出 $S_\text{tox}(\text{strain},\text{order})$(即第 6 节的 Score); +2. 再用一个“先验修正项”把它调整为 $S_\text{final}$。 + +### 11.4 推荐的并入方式:logit 先验修正(保持 $[0,1]$ 且可解释) + +令: + +$$ +S_{\text{tox}}(\text{strain},o) = 1 - \prod_{i\in H_{\text{strain}}}\left[1-c_i(o)\right] +$$ + +我们定义最终分数: + +$$ +S_{\text{final}}(\text{strain},o)=\sigma\Big(\operatorname{logit}(S_{\text{tox}}(\text{strain},o)+\varepsilon) + \Delta(\text{strain})\Big) +$$ + +其中: + +- $\sigma(x)=\dfrac{1}{1+e^{-x}}$ 是 sigmoid; +- $\operatorname{logit}(p)=\ln\dfrac{p}{1-p}$; +- $\varepsilon$ 是极小正数(如 $10^{-6}$),避免 $\logit(0)$ 或 $\logit(1)$。 + +把三项特征写进 $\Delta(\text{strain})$: + +$$ +\Delta(\text{strain}) = +\beta_Z\,b_Z + \beta_T\,b_T + \beta_A\,b_A ++ \beta_M\,g(m) ++ \beta_C\,h(c) +$$ + +其中 $g(m)$ 与 $h(c)$ 用来保证“饱和”和“单调方向”。 + +#### 11.4.1 mobilome 饱和函数 $g(m)$(正向,边际递减) + +推荐二选一: + +- 对数饱和: + +$$ + g(m)=\ln(1+m) +$$ + +- 线性截断: + +$$ + g(m)=\min\left(1,\frac{m}{K}\right) +$$ + +$K$ 取一个经验阈值(例如 50 或 100),取决于你统计的元件类型与注释粒度。 + +#### 11.4.2 CRISPR 单调映射 $h(c)$(“完整压分”) + +为了实现“不存在 > 不完整 > 完整”的顺序,直接把 $c\in\{0,1,2\}$ 映射到 $\{1,0.5,0\}$: + +$$ + h(c)=1-\frac{c}{2} +$$ + +解释: + +- 不存在 $c=0\Rightarrow h=1$(最大加成) +- 不完整 $c=1\Rightarrow h=0.5$(中等加成) +- 完整 $c=2\Rightarrow h=0$(不加成,相当于“最压分”) + +只要取 $\beta_C>0$,就得到你想要的确定性方向: + +> CRISPR 越完整 → $h(c)$ 越小 → $\Delta$ 越小 → $S_{\text{final}}$ 越低 + +### 11.5 这三项对评分是“增加还是降低”?(给你一个可写进算法的确定性结论) + +在上述形式下,只要你取参数满足: + +- $\beta_Z,\beta_T,\beta_A > 0$ +- $\beta_M > 0$ +- $\beta_C > 0$ + +则得到确定性结论: + +- **ZWA/Thu/TAA:存在(1)一定增加分数;不存在(0)不增加。** +- **移动元件数量:数量越多一定增加分数(经 $g(m)$ 饱和)。** +- **CRISPR:不存在(0)加成最大;不完整(1)次之;完整(2)最小(最压分)。** + +### 11.6 将“三项特征”并入 Shotter 的输出矩阵(菌株×靶标) + +你最终仍输出一个矩阵: + +- `strain_target_scores.tsv`(或新文件名)里,每个单元格从 $S_{\text{tox}}$ 替换为 $S_{\text{final}}$。 + +也就是说,Shotter 原本的 per-hit 解释仍然保留(因为 $S_{\text{tox}}$ 没变); +三项新特征只是在菌株层做一个整体“上移/下移”的可解释修正。 + +### 11.7 Mermaid:在原流程上加入“背景特征先验”分支(可选) + +> 如果你想把这三项清晰地画进流程图,可以追加一个“Genome context”分支: + +```mermaid +flowchart TB + G["Genome .fna"] --> ORF[ORF/CDS prediction] + ORF --> TR[Translate CDS to proteins] + + TR --> ID["Toxin identification\n(BLAST/HMM)"] + ID --> ALL["All_Toxins.txt"] + + BPPRC["BPPRC specificity CSV\n(toxicity-data.csv)"] --> IDX["Build specificity index\nP(order|·), P(species|·)"] + + ALL --> PARSE["Per-hit parsing"] + IDX --> WHIT["Compute w_i"] + WHIT --> PHIT["Per-hit scoring\nc_i(order)"] + PHIT --> COMB["Per-strain noisy-OR\nS_tox(strain,order)"] + + subgraph CONTEXT["Genome context features (BLAST/HMM/detectors)"] + BGC["ZWA/Thu/TAA BGC\n(0/1)"] + MGE["Mobilome count m"] + CRISPR["CRISPR state c\n(0/1/2)"] + end + + TR --> BGC + TR --> MGE + TR --> CRISPR + + COMB --> ADJ["Logit prior adjust\nS_final = sigmoid(logit(S_tox)+Δ)"] + CONTEXT --> ADJ + + ADJ --> OUT2["strain_target_scores.tsv\n(strain × order, updated)"] +``` + +--- + +## 12. 参考文献(用于支撑第 11 节的因果链,建议在论文/汇报中引用) + +> 下面列出的是“因果链”的常用支撑点: +> - Bt 毒素与质粒/移动 DNA 的关联; +> - CRISPR-Cas 对质粒/HGT 的屏障作用; +> - Bt 的移动基因库与致病/宿主谱的关系。 + +1. Fiedoruk K. et al. *Genetic Environment of cry1 Genes Indicates Their Common Origin.* (2017).(cry 基因位于 Bt 质粒并与特定复制系统/遗传环境相关) +2. Lechuga A. et al. *Completed Genomic Sequence of Bacillus thuringiensis…* (2020).(Bt 的昆虫致病能力与质粒携带 cry 基因相关的概述) +3. Thomas D.J.I. et al. *Transfer of plasmid pBC16 between Bacillus thuringiensis…* (2002).(Bt 大质粒可经类似共轭机制传播,获得 cry 质粒可扩展生态位/宿主) +4. Gillis A. et al. *Role of plasmid plasticity and mobile genetic elements in…* (2018).(综述:Bt 移动基因库与致病/生活史相关) +5. Marraffini L.A. & Sontheimer E.J. *CRISPR Interference Limits Horizontal Gene Transfer in Staphylococci.* Science (2008).(经典实验证据:CRISPR 干预能限制共轭/转化等 HGT) +6. Wheatley R.M. & MacLean R.C. *CRISPR-Cas systems restrict horizontal gene transfer…* (2020).(综述:CRISPR 对质粒/ICE 等 HGT 的普遍限制作用) +