feat: 支持绑定外部 bt_toxin 数据库 (2025-11-04 更新)

- docker_client.py: run_bttoxin_digger() 新增 bttoxin_db_dir 参数，支持挂载外部数据库 - run_single_fna_pipeline.py: 新增 --bttoxin_db_dir 参数，自动检测 external_dbs/bt_toxin - README.md: 添加 bttoxin_db 更新说明和 Docker 绑定文档 - external_dbs/bt_toxin: 添加 2025-11-04 版本数据库文件测试验证: HAN055 样本毒素命名版本号变化 (Cry2Aa9→22, Cry2Ab35→41, Cry1Ia40→42, Vip3Aa7→79)
2026-01-04 14:37:49 +08:00
parent 5883e13c56
commit 1c0e8f90a5
40 changed files with 166422 additions and 194 deletions
--- a/external_dbs/bt_toxin/db/bt_toxin.pdb
+++ b/external_dbs/bt_toxin/db/bt_toxin.pdb
--- a/external_dbs/bt_toxin/db/bt_toxin.phr
+++ b/external_dbs/bt_toxin/db/bt_toxin.phr
--- a/external_dbs/bt_toxin/db/bt_toxin.pin
+++ b/external_dbs/bt_toxin/db/bt_toxin.pin
--- a/external_dbs/bt_toxin/db/bt_toxin.pjs
+++ b/external_dbs/bt_toxin/db/bt_toxin.pjs
@@ -0,0 +1,22 @@
+{
+  "version": "1.2",
+  "dbname": "bt_toxin",
+  "dbtype": "Protein",
+  "db-version": 5,
+  "description": "bt_toxin20251104.fas",
+  "number-of-letters": 996368,
+  "number-of-sequences": 1199,
+  "last-updated": "2025-11-04T15:35:00",
+  "number-of-volumes": 1,
+  "bytes-total": 1149077,
+  "bytes-to-cache": 1007264,
+  "files": [
+    "bt_toxin.pdb",
+    "bt_toxin.phr",
+    "bt_toxin.pin",
+    "bt_toxin.pot",
+    "bt_toxin.psq",
+    "bt_toxin.ptf",
+    "bt_toxin.pto"
+  ]
+}
--- a/external_dbs/bt_toxin/db/bt_toxin.pot
+++ b/external_dbs/bt_toxin/db/bt_toxin.pot
--- a/external_dbs/bt_toxin/db/bt_toxin.psq
+++ b/external_dbs/bt_toxin/db/bt_toxin.psq
--- a/external_dbs/bt_toxin/db/bt_toxin.ptf
+++ b/external_dbs/bt_toxin/db/bt_toxin.ptf
--- a/external_dbs/bt_toxin/db/bt_toxin.pto
+++ b/external_dbs/bt_toxin/db/bt_toxin.pto
--- a/external_dbs/bt_toxin/db/db_update.tar.gz
+++ b/external_dbs/bt_toxin/db/db_update.tar.gz
--- a/external_dbs/bt_toxin/db/old/bt_toxin.phr
+++ b/external_dbs/bt_toxin/db/old/bt_toxin.phr
--- a/external_dbs/bt_toxin/db/old/bt_toxin.pin
+++ b/external_dbs/bt_toxin/db/old/bt_toxin.pin
--- a/external_dbs/bt_toxin/db/old/bt_toxin.psq
+++ b/external_dbs/bt_toxin/db/old/bt_toxin.psq
--- a/external_dbs/bt_toxin/db/old/db_update-20221208.tar.gz
+++ b/external_dbs/bt_toxin/db/old/db_update-20221208.tar.gz
--- a/external_dbs/bt_toxin/seq/Bacterial
+++ b/external_dbs/bt_toxin/seq/Bacterial
--- a/external_dbs/bt_toxin/seq/bt_toxin20200321
+++ b/external_dbs/bt_toxin/seq/bt_toxin20200321
--- a/external_dbs/bt_toxin/seq/bt_toxin20200401
+++ b/external_dbs/bt_toxin/seq/bt_toxin20200401
--- a/external_dbs/bt_toxin/seq/bt_toxin20200730.txt
+++ b/external_dbs/bt_toxin/seq/bt_toxin20200730.txt
--- a/external_dbs/bt_toxin/seq/bt_toxin20210607.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20210607.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20210802.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20210802.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20211011.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20211011.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20211227.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20211227.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20220128.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20220128.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20220609.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20220609.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20221208.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20221208.fas
--- a/external_dbs/bt_toxin/seq/bt_toxin20251104.fas
+++ b/external_dbs/bt_toxin/seq/bt_toxin20251104.fas
--- a/external_dbs/bt_toxin/seq/updateDB.py
+++ b/external_dbs/bt_toxin/seq/updateDB.py
@@ -0,0 +1,36 @@
+def get_unique_headers(file_path):
+    """读取文件中以'>'开头的行，返回'>'后面内容的集合"""
+    headers = set()
+    with open(file_path, 'r') as f:
+        for line in f:
+            line = line.strip()
+            if line.startswith('>'):
+                # 提取'>'后面的内容（包括可能的空格和其他字符）
+                header = line[1:]
+                headers.add(header)
+    return headers
+
+# 输入文件路径
+file1 = 'bt_toxin20251104.fas'
+file2 = 'all_app_cry_cyt_gpp_mcf_mpf_mpp_mtx_pra_prb_spp_tpp_txp_vip_vpa_vpb_xpp_fasta_sequences.txt'
+output_file = 'unique_headers.txt'
+
+# 获取两个文件中的header集合
+headers1 = get_unique_headers(file1)
+headers2 = get_unique_headers(file2)
+
+# 计算各自独有的header
+unique_to_file1 = headers1 - headers2
+unique_to_file2 = headers2 - headers1
+
+# 写入输出文件
+with open(output_file, 'w') as out_f:
+    out_f.write(f"### Unique headers in {file1} ###\n")
+    for header in sorted(unique_to_file1):
+        out_f.write(f">{header}\n")
+    
+    out_f.write(f"\n### Unique headers in {file2} ###\n")
+    for header in sorted(unique_to_file2):
+        out_f.write(f">{header}\n")
+
+print(f"处理完成，结果已保存至 {output_file}")