Files
bttoxin-pipeline/docs/shotter_math_full_zh_typora.md

24 KiB
Raw Blame History

Bttoxin_Shotter 数学与算法全解Typora 版)

目标:把 BtToxin_Digger 的命中结果 + BPPRC Specificity Database 的活性数据,转换成
「给定一个菌株,它对哪些昆虫目 / 物种最可能有杀虫活性?」的概率型评分。

本文用 Typora 兼容的公式语法(行内 $...$,行间 $$...$$),把所有用到的数学公式、符号和数据来源都说明清楚,并解释为什么这样设计、有哪些假设和局限。


1. 整体思路

用一句话概括 Shotter 的核心想法:

先问“每条毒素命中长得像谁(相似性)?”再问“这些已知毒素在 BPPRC 里主要杀什么虫特异性最后把多条证据组合成菌株层的总体风险noisy-OR

更正式一点的步骤:

  1. 从 BPPRC 的 toxicity-data.csv 里,统计出:

    • 每个 Bt 毒素(名字 / 亚家族 / 家族)
    • 对各个昆虫“目”order和“物种”species经验活性分布
      → 数学上记作 $P(\text{order} \mid \text{毒素})$、$P(\text{species} \mid \text{毒素})$。
  2. 从 BtToxin_Digger 的 All_Toxins.txt 里,取出每条命中的:

    • Identity序列一致性
    • Coverage比对覆盖度
    • HMM 标记(有没有 HMM 结构域命中) → 折算成一条 01 的相似性权重 $w_i$。
  3. 对于菌株里的每条命中 $i$,用它 best hit 的毒素名/家族,到第 1 步的索引里查:

    • 这条命中,对每个昆虫目/物种的单条贡献

      
      c_i(\text{order}) = w_i \times P(\text{order} \mid \text{该命中的毒素名字/家族})
      
  4. 对同一菌株的所有命中,利用 noisy-OR 公式,在菌株层合成:

    
    \text{Score}(\text{strain}, \text{order}) = 1 - \prod_{i \in H_{\text{strain}}} \left[1 - c_i(\text{order})\right]
    

    其中 H_{\text{strain}} 是该菌株里的全部命中集合。

  5. 得到:

    • strain_target_scores.tsv:菌株 × 目标“目”的分数矩阵;
    • 如果 BPPRC 有物种信息,还会有 strain_target_species_scores.tsv:菌株 × 目标物种矩阵;
    • toxin_support.tsv:逐命中 × “目/物种”的贡献矩阵,可用来画 per_hit_C15.png 这种“哪条毒素负责哪个靶标”的可视化。

2. 记号与数据来源一览

2.1 数据文件

  1. Digger 输出(序列相似性)

    • All_Toxins.txt(必须):
      每行是一条命中hit包含

      • Strain:菌株名
      • Protein_ID:该菌株中蛋白的 ID
      • Hit_IDbest hit 的已知 Bt 毒素名字(如 Cry21Aa3
      • Identity:与该毒素的氨基酸一致性(百分数)
      • Align_len / Query_len / Subject_len:比对长度与两边长度
      • HMM 标记:是否有 HMM 域命中

      在脚本中,这些字段被用来计算 $id_i$、$cov_i$、$hmm_i$。

  2. BPPRC Specificity Database经验活性

    • toxicity-data.csv(只用阳性记录):
      • protein / toxin:实验中使用的 Bt 毒素名,如 Cry21Aa3
      • target_order:目标昆虫目,如 RhabditidaLepidoptera 等;
      • target_species(可选):目标物种学名;
      • activity:是否有活性(只保留“有活性”的记录);
      • lc50 + lc50_unit:若有 LC50单位如 ppmµg/g 等;
      • percentage_mortality 或文字描述:若无 LC50用死亡率描述毒力。
  3. 输出文件

    • toxin_support.tsv:每条命中 i 对每个“目/物种”的贡献 $c_i(\cdot)$
    • strain_target_scores.tsv:菌株 × 目标“目”的得分 $\text{Score}(\text{strain}, \text{order})$
    • strain_target_species_scores.tsv:菌株 × 目标物种的得分 $\text{Score}(\text{strain}, \text{species})$
    • strain_scores.json:上述结果的 JSON 版本。

2.2 数学符号

为了后面讲公式方便,统一一下符号:

  • $\text{strain}$:一个菌株,例如 C15
  • $H_{\text{strain}}$:这个菌株中所有命中的集合;
  • $i \in H_{\text{strain}}$:第 i 条命中hit
  • $\text{order}$:某个昆虫目,如 LepidopteraDiptera 等;
  • $\text{species}$:某个具体物种(如果 CSV 有);
  • $\text{name}$:某个毒素的精确名字,例如 Cry21Aa3
  • $\text{subfamily}$:亚家族记号,例如 Cry21A
  • $\text{family}$:家族记号,例如 Cry21

对应到 Digger / BPPRC 数据:

  • 对第 i 条命中:

    • $\text{name}_i$Digger 里 Hit_ID 的值;

    • $\text{family}_i$:从 Hit_ID 解析出来的家族前缀(例如把 Cry21Aa3 截成 Cry21

    • $id_i$Identity / 100落在 $[0,1]$

    • $cov_i$:比对覆盖度,典型定义是

      
      cov_i = \frac{\text{Align\_len}_i}{\text{参考毒素长度}}
      
    • $hmm_i$:若 HMM 有命中,取 $1$,否则 $0$。

  • 对 BPPRC 的第 r 行实验记录:

    • $\text{toxin}_r$:毒素名;
    • $\text{order}_r$、$\text{species}_r$:该条记录对应的目标目/物种;
    • $\text{LC50}_r$、单位 $\text{unit}_r$
    • $\text{mortality}_r$:死亡率或文字,如 “80%”、“some”、“stunting”。

3. 从 BPPRC 构建特异性索引 P(\text{order} \mid \cdot)

3.1 只用阳性记录

首先,在 toxicity-data.csv 中只保留 activity 表示“有活性”Yes / positive 等)的记录。理由:

  • 阴性记录经常语义不清晰(剂量太低?实验条件不合适?);
  • v1 版本采用保守策略:只用“反复证明打得动”的正证据,不去尝试建一个完整的剂量-反应模型。

所以从现在开始,所有行 r 都是 阳性活性记录

3.2 每条记录的“毒力权重” \text{potency}_r

我们希望不同文献、不同剂量单位下的结果,能压缩成一个 01 的权重:$\text{potency}_r \in [0,1]$。
直觉是“LC50 越低 / 死亡率越高 → 毒力越强 → 权重越高”。

3.2.1 按单位桶分组

因为 LC50 单位多种多样,不能直接混在一起比较:

  • 将记录按 lc50_unit 分成若干“单位桶”,例如:
    • 饮食掺喂实验中 ppmµg/gug/gμg/g,合并到同一桶;
    • 其它单位(如 µg/cm^2, mg/L 等)各自成桶。

在同一个桶里,单位一致,才能比较大小。

3.2.2 有 LC50 的记录:反分位归一

对于某个单位桶 $u$,设其中有 n_u 条记录,集合记作 $R_u$。
对每条记录 $r \in R_u$

  1. 按 LC50 从小到大排序,给它一个“从 0 到 1 的排名百分位”:

    
    \text{rank\_pct}_r =
    \begin{cases}
    0, & n_u = 1 \\
    \dfrac{\text{rank}_u(r)-1}{n_u - 1}, & n_u > 1
    \end{cases}
    
    • 这里 \text{rank}_u(r) 是 LC50 排序后的位次(最小的 LC50 rank = 1
    • 因此 LC50 最小的记录 $\text{rank_pct}=0$,最大的为 $1$。
  2. 定义毒力权重:

    
    \text{potency}_r = 1 - \text{rank\_pct}_r
    
    • LC50 最低(毒力最强) ⇒ $\text{potency}=1$
    • LC50 最高(毒力最弱) ⇒ $\text{potency}=0$
    • 中间线性过渡。

为什么不用直接做 $\text{potency} = 1 / \text{LC50}$

  • 不同单位之间本来就不能直接比;
  • 同一单位桶内部的相对排序比绝对数值更可靠;
  • 分位数归一对极端值不敏感,适合文献数据这种“噪声大 + 范围广”的情况。

3.2.3 没有 LC50只有死亡率的记录

如果某条记录没有 LC50但有死亡率或文字描述则按照经验规则赋值

  • 死亡率 ≥ 80% 或文字为 “greater than 80%” →

    
    \text{potency}_r = 0.90
    
  • 5080%(包括 6080%、60100% 等区间)→

    
    \text{potency}_r = 0.65
    
  • 060% / 050% / “25%” / “some” / “stunting”等弱效应 →

    
    \text{potency}_r = 0.25
    

这些常数0.90 / 0.65 / 0.25)不是“统计拟合”的结果,而是人工选择的分级:强 / 中 / 弱

3.2.4 既没有 LC50 也没有死亡率文本

如果一条记录只告诉你“有活性”,但没有剂量信息:


\text{potency}_r = 0.55

解释:

  • 介于“中等毒力”0.65和“最低档有毒”0.25)之间;
  • 既体现“确实有活性”的正证据,又不过分抬高其权重。

3.3 从单条记录到毒素级别的总权重

每条记录 r 还包含一个毒素名 $\text{toxin}_r$、目标目 \text{order}_r 和可选的目标物种 $\text{species}_r$。

Shotter 在三个层级上建索引:

  1. 精确名字
    $\text{name}_r = \text{toxin}_r$,例如 Cry21Aa3
  2. 亚家族
    例如把 Cry21Aa3 截断成 Cry21A
  3. 家族
    再截成 Cry21

对于每一个层级的 key记为 $K$,可以是 name / subfamily / family分别计算

  • 在“目标目”维度的总毒力:

    
    S_{\text{order}}[K, o] =
    \sum_{\substack{r \text{ 属于阳性记录} \\
                    \text{key}(r) = K \\
                    \text{order}_r = o}}
        \text{potency}_r
    
  • 如果 CSV 有物种信息,“目标物种”维度的总毒力:

    
    S_{\text{species}}[K, s] =
    \sum_{\substack{r \text{ 属于阳性记录} \\
                    \text{key}(r) = K \\
                    \text{species}_r = s}}
        \text{potency}_r
    

直觉:

每一行实验是一个“该毒素对某个目标有怎样强度的正证据”,
把同一毒素、同一目标的所有实验权重加起来,就得到该毒素对该目标的总支持度

3.4 归一化成概率分布 P(\text{order} \mid K)

对每一个 key $K$

  1. 计算该 key 在各个目上的总权重和:

    
    Z^{\text{order}}_K = \sum_o S_{\text{order}}[K, o]
    
  2. 如果 $Z^{\text{order}}_K > 0$,则定义:

    
    P(\text{order}=o \mid K) =
    \frac{S_{\text{order}}[K, o]}{Z^{\text{order}}_K}
    

    对所有 order 求和等于 1。

同理,如果有物种信息:


P(\text{species}=s \mid K) =
\frac{S_{\text{species}}[K, s]}
     {\sum_{s'} S_{\text{species}}[K, s']}

这一步的含义是:

在所有已报道的靶标中,这个毒素的毒力是如何在不同‘目/物种’之间分布的?

例如,对某个毒素名字 $K = \text{Cry21Aa3}$,可能得到类似分布:

  • P(\text{Rhabditida} \mid K) = 0.8
  • P(\text{Thysanoptera} \mid K) = 0.2
  • 其它目为 0。

3.5 回退back-offother / unknown

现实中很多毒素只有家族层面数据,比如只知道 Cry21,没有具体到 Cry21Aa3
因此 Shotter 的设计是:

  1. 对每条命中,优先在 name 层级 查 $P(\cdot \mid \text{name})$
  2. 如果该名字没有任何证据($Z^{\text{order}}_{\text{name}} = 0$),则退到 subfamily 层级
  3. 再不行退到 family 层级
  4. 如果在 family 层级也没有证据,又有两种情况:
    • 可以解析出家族前缀(例如知道它是 Cry999 这种新家族),但 BPPRC 里还没有任何活性记录:
      → 这类证据被记到特殊的 other 列中,不去抬高任何具体的“目”。
    • 连家族前缀也解析不出来(名字不符合 Bt 命名规则):
      → 记到 unknown 列中。

这就是 strain_target_scores.tsvother / unknown 的来源。


4. 从 Digger 命中计算相似性权重 w_i

4.1 命中是什么?

在 BtToxin_Digger 中,给定一个菌株基因组,流程大致是:

  1. ORF/CDS 预测;
  2. CDS 翻译成蛋白;
  3. 用 BLAST + HMM 去已知 Bt 毒素数据库里做毒素识别。

All_Toxins.txt 中的每一行就是一条 命中hit

  • 这条蛋白 “像” 某个已知 Bt 毒素($\text{name}_i$
  • Digger 给出 Identity、比对长度、HMM 命中等信息;
  • Shotter 需要把“像的程度”压缩成 01 权重 $w_i$。

4.2 Identity、Coverage 与 HMM 变量

对第 i 条命中:

  • $id_i$Digger 的 Identity 字段除以 100变成 01 小数;

  • $cov_i$:比对覆盖度,典型取值为

    
    cov_i = \frac{\text{Align\_len}_i}{\text{参考毒素长度}_i}
    
  • $hmm_i$:如果 HMM 检测到相应家族的结构域,则为 1否则为 0。

4.3 base 分段函数:家族 / 亚家族阈值

Bt 毒素命名规范中,家族 / 亚家族 的划分大致用 Identity 0.45 和 0.78 作为分界。
Shotter 按此定义一个分段函数:


\text{base}_i =
\begin{cases}
1, & id_i \ge 0.78 \text{ 且 } cov_i \ge 0.80 \\
\dfrac{id_i - 0.45}{0.78 - 0.45}, & 0.45 \le id_i < 0.78 \\
0, & \text{否则}
\end{cases}

含义:

  • id_i \ge 0.78cov_i \ge 0.80 时:
    • 认为这条命中和参考毒素至少属于同一个亚家族,高度可靠,给 $\text{base}_i = 1$
  • 当 $0.45 \le id_i < 0.78$
    • 认为像是同家族但亚家族不确定,于是 base 在 01 之间线性上升;
  • 当 $id_i < 0.45$
    • 序列过于遥远,直接视为无效命中,$\text{base}_i = 0$。

coverage 条件 cov_i \ge 0.80 是为了过滤掉“只覆盖一小截结构域”的伪阳性。

4.4 合并 coverage 与 HMM 加成,得到 w_i

最终的相似性权重定义为:


w_i = \min\left(1,\ \text{base}_i \cdot cov_i + 0.1 \cdot hmm_i\right)

解释:

  • $\text{base}_i \cdot cov_i$
    base 体现 Identity 的可信度,再乘以 coverage避免只有一小段高 identity 时权重过高。
  • $0.1 \cdot hmm_i$
    如果 HMM 有命中($hmm_i=1$),则额外 $+0.1$,表示“结构域层面的再确认”;
    但上限由 \min(1,\dots) 限制在 1 以内。

为什么 HMM 只加 0.1

  • HMM 命中说明有“家族结构域”存在,是一种很好的辅助证据;
  • 但 HMM 也可能比较宽泛,不必高于完整序列比对;
  • 因此把它当作“尾数加分”,而不是主导因子。

4.5 配对家族partner families的下调

某些 Bt 毒素家族只有在“配对”时才有完整毒力,例如:

  • Vip1 / Vip2
  • Vpa / Vpb

Shotter 的处理是:

  • 对于在“需要配对”的家族集合中的一条命中 $i$

    • 检查同一菌株中是否存在“配对家族”的命中 $j$,且 $w_j \ge 0.3$

    • 如果找不到这样的搭档,则下调当前命中的权重

      
      w_i \leftarrow 0.2 \times w_i
      
  • 下调而不直接置零,是因为:

    • 仍然保留“弱证据”,比如可能另一条 partner 被漏检;
    • 但在没有配对证据的情况下,不应让这种命中主导靶标预测。

5. 单命中对各目标目/物种的贡献 c_i(\cdot)

有了相似性权重 w_i 和特异性分布 P(\text{order} \mid K) / $P(\text{species} \mid K)$,每条命中就可以被看成是对不同靶标的“分布式投票”。

5.1 为每条命中选择合适的 keyname / subfamily / family

对第 i 条命中:

  1. 从 Digger 的 Hit_ID 得到名字 $\text{name}_i$,解析出对应的:
    • $\text{subfamily}_i$,如 Cry21A
    • $\text{family}_i$,如 Cry21
  2. 按以下顺序尝试从特异性索引中取分布:
    1. 若存在 $P(\text{order} \mid \text{name}_i)$,则取 $K_i = \text{name}_i$
    2. 否则若存在 $P(\text{order} \mid \text{subfamily}_i)$,则 $K_i = \text{subfamily}_i$
    3. 否则若存在 $P(\text{order} \mid \text{family}_i)$,则 $K_i = \text{family}_i$
    4. 若三者都不存在:
      • 若能解析出 family则认为“这是一个有家族但 BPPRC 没记录的新毒素”,贡献放入 other
      • 若连 family 也解析不出,则放入 unknown

5.2 贡献公式:c_i(\text{order}) = w_i \times P(\text{order} \mid K_i)

对每个命中 i 和每个目标目 $\text{order}$,定义:


c_i(\text{order}) = w_i \times P(\text{order} \mid K_i)

解释:

  • $P(\text{order} \mid K_i)$:经验上,这个毒素的毒力主要集中在哪些目
  • $w_i$:这条命中到底“有多像”这个毒素;
  • 乘积 w_i \times P(\text{order} \mid K_i) 就是:

“在考虑序列相似度之后,这条命中对某个目有多强的杀虫活性支持度”。

other / unknown 的处理:

  • 如果 K_i 在任何层级都没有 BPPRC 证据,则:
    • 若能解析家族前缀:
      • $c_i(\text{other}) = w_i$,其它目为 0
    • 若连家族前缀也没有:
      • $c_i(\text{unknown}) = w_i$,其它目为 0。

5.3 物种维度:c_i(\text{species})

如果 toxicity-data.csv 里有 target_species 信息,则同样构建 $P(\text{species} \mid K)$,然后:


c_i(\text{species}) = w_i \times P(\text{species} \mid K_i)

这一部分会被写入 toxin_support.tsv 的物种列,并最终合成 strain_target_species_scores.tsv


6. 菌株层合成noisy-OR 公式

单条命中的贡献 c_i(\cdot) 只能告诉我们:

“如果只有这一条毒素存在,那么它对某个目有多大概率有活性?”

但实际菌株中往往有多条毒素命中,需要把它们合起来。

6.1 数学形式

对某个菌株 strain,它的命中集合为 $H_{\text{strain}}$。
对任意一个目标目 $\text{order}$,定义:


\text{Score}(\text{strain}, \text{order}) =
1 - \prod_{i \in H_{\text{strain}}} \left[1 - c_i(\text{order})\right]

同理,如果看物种维度:


\text{Score}(\text{strain}, \text{species}) =
1 - \prod_{i \in H_{\text{strain}}} \left[1 - c_i(\text{species})\right]

6.2 公式中每个符号的含义

  • $c_i(\text{order})$:第 i 条命中对该目有活性的概率 / 支持度,来源于上一节;

  • $1 - c_i(\text{order})$:对应地,是“i 条命中对该目不起作用”的概率;

  • $\prod_{i \in H_{\text{strain}}} [\dots]$:大写 Π 表示连乘号
    \prod_{i} x_i 意思是 $x_1 \times x_2 \times \cdots$

  • 所以

    
    \prod_{i \in H_{\text{strain}}} [1 - c_i(\text{order})]
    

    可以理解为:

“菌株里所有毒素都对这个目不起作用”的概率(假设独立)。

  • 最外面的 1 - (\cdot) 就是:

“至少有一条毒素对这个目起作用”的概率。

这就是经典的 noisy-OR 组合方式:
逻辑上“OR”只要至少有一个 cause 生效),但每个 cause 都带有“噪声”(概率 < 1

6.3 直观小例子

假设某个菌株里,对 Rhabditida 有两条命中:

  • 命中 1c_1 = 0.4
  • 命中 2c_2 = 0.6

那么:


\text{Score} =
1 - (1 - 0.4) \times (1 - 0.6)
= 1 - 0.6 \times 0.4
= 1 - 0.24
= 0.76

可以看到:

  • \text{Score}(\text{strain}, \text{Rhabditida}) = 0.76 比单条 0.6 / 0.4 都大;
  • 但仍然在 01 之间,不会像简单相加那样变成 1.0 以上。

如果有 3 条贡献分别为 0.3、0.3、0.3


\text{Score} = 1 - 0.7^3 \approx 1 - 0.343 = 0.657

说明多个中等证据叠加起来,也能给出一个比较高的综合得分。

6.4 为什么认为“独立”是合理近似?

noisy-OR 的核心假设是:不同毒素对同一靶标的“失效”是近似独立的。

现实中毒素之间可能互相协同或者拮抗,但当前阶段:

  • 没有足够数据建完整的“多毒素交互模型”;
  • 又希望有一个简单、可解释、单调的组合方式。

在这样的权衡下,noisy-OR 是一个非常常见、保守且易于解释的选择

  • 任意增加新的命中,只会让 Score 不减(增加或持平),符合常识;
  • 多条弱证据可以叠加成中等甚至强证据;
  • 强证据不会被简单叠加到 >1而是趋近于 1。

7. 从分数到“最大概率靶标”

有了 strain_target_scores.tsv 之后,对任意菌株 strain

  • 可以找到:

    
    \text{best\_order}(\text{strain}) =
    \arg\max_{\text{order}} \text{Score}(\text{strain}, \text{order})
    

    作为单一“最大概率”目标目

  • 也可以设置阈值,如:

    • Score ≥ 0.7:强候选靶标;
    • 0.40.7:中等可信度;
    • < 0.4:弱证据。

物种层面的 strain_target_species_scores.tsv 也可以同样处理,得到:

  • 最可能的靶标物种;
  • 以及“该菌株在某个目内部,更偏向于打哪些代表物种”。

8. 常见质疑与回答

这一节列出一些“审稿人/同行可能会问”的问题和解释,方便在 PPT 或论文中使用。

Q1为什么只用阳性记录不用阴性记录

  • 阴性结果的语义模糊:
    “没看到活性”可能是剂量太低、实验条件不合适、靶标抗性等多种原因;
  • 数据中大量阴性条目缺乏剂量信息,很难和阳性条目放在一个统一框架里比较;
  • v1 设计选择保守策略:只累积“肯定打得动”的正证据

Q2LC50 / 死亡率是不同单位和实验条件,为什么可以直接比较?

  • LC50 只在同一单位桶内被排序和归一化,不跨单位;
  • 采用反分位数而不是直接用 $1/\text{LC50}$,是为了:
    • 用“谁比谁强”而不是“绝对值差多少”;
    • 对极端值不敏感;
  • 不同实验条件确实会带来噪声,但在大量文献叠加时,稳定的“毒素→靶标”关系仍然会在分布中凸显出来。

Q30.45 / 0.78 这两个 Identity 阈值怎么来的?

  • 它们来自 Bt 毒素命名的经验规则:
    通行做法大致是:
    • ≥0.95:同一毒素;
    • ~0.78:亚家族边界;
    • ~0.45:家族边界。
  • Shotter 把 0.450.78 区间视为“同家族但亚家族不确定”,用线性插值连接 0 和 1
  • 这是与 Bt 命名体系兼容的连续近似
    • Identity 明显高于 0.78 → 强证据;
    • 明显低于 0.45 → 弱证据,基本忽略;
    • 中间区域在两个极端之间平滑过渡。

Q4为什么用 noisy-OR 而不是简单相加 / 取最大值?

  • 简单相加:
    • 多条中等证据累加可能 >1不再有概率意义
    • 不能很好表达“至少有一条毒素起作用”的逻辑。
  • 取最大值:
    • 会完全忽略其它毒素的贡献;
    • 无法体现“多条中等证据也值得重视”。
  • noisy-OR 的优点:
    • 单调:增加证据只会增加或保持分数;
    • 有明确概率解释:$1 - \prod(1-c_i)$
    • 实现简单,可读性好,方便向非数学背景使用者解释。

Q5BPPRC 数据不全面,新家族或少量报道会不会被低估?

  • 对于完全没有 BPPRC 记录的家族,命中会被计入 otherunknown,不会错误地抬高某个具体目;
  • 这意味着:
    • 新家族 / 数据稀少家族 在 v1 中只能作为“待挖掘候选”,而不是高置信度靶标;
    • 可以在未来版本中补充其它来源(专利、未发表数据、实验室结果)来充实特异性索引。

9. Mermaid 流程图Typora 友好版)

注意:含有点号或 <br/> 的节点需要加引号,否则 Mermaid 会解析错误。

flowchart TB
    G["Genome .fna"] --> ORF[ORF/CDS prediction]
    ORF --> TR[Translate CDS to proteins]
    TR --> ID["Toxin identification<br/>(BLAST/HMM)"]

    subgraph Digger["BtToxin_Digger (Docker)"]
        ORF
        TR
        ID
    end

    ID --> LIST["*.list / *.gbk"]
    ID --> ALL["All_Toxins.txt"]

    BPPRC["BPPRC specificity CSV<br/>(toxicity-data.csv)"] --> IDX["Build specificity index<br/>P(order|·), P(species|·)"]

    LIST --> PARSE["Per-hit parsing<br/>(one row per toxin hit)"]
    ALL  --> PARSE

    PARSE --> WHIT["Compute similarity weight w_i"]
    IDX   --> WHIT

    WHIT --> PHIT["Per-hit scoring<br/>c_i(order), c_i(species)"]
    PHIT --> COMB["Per-strain combination<br/>noisy-OR over hits"]

    COMB --> OUT1["toxin_support.tsv<br/>(hit × order/species contributions)"]
    COMB --> OUT2["strain_target_scores.tsv<br/>(strain × order scores)"]
    COMB --> OUT3["strain_target_species_scores.tsv<br/>(strain × species scores, optional)"]
    COMB --> OUT4["strain_scores.json"]

10. 使用建议

  • 方法学 PPT / 论文方法部分 时:
    • 可直接引用第 36 节的公式,配合 12 个数值小例子;
    • Mermaid 图可以直接贴到 Typora、GitHub 或 Obsidian 中渲染。
  • 非专业听众 讲解时:
    • 重点讲 “像谁 + 那个家族历史上主要打什么虫 + 多条证据用 noisy-OR 合成” 这条主线;
    • 正文公式保留 score 这一条即可。

本文是对 Bttoxin_Shotter v1 实现逻辑的文字化说明,如需与最新代码完全严格对齐,请以代码仓库中的实现为准。