feat(digger): containerize BtToxin_Digger with v5 database integration

- Added Dockerfile and docker-compose.yml for BtToxin_Digger - Integrated external v5 BLAST database into the container image - Updated main docker-compose.yml to include the digger service - Updated documentation with database update instructions
2026-01-17 12:14:39 +08:00
parent 6f2365981d
commit 700bdb8307
33 changed files with 232973 additions and 75716 deletions
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pdb
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pdb
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.phr
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.phr
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pin
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pin
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pjs
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pjs
@@ -0,0 +1,22 @@
+{
+  "version": "1.2",
+  "dbname": "bt_toxin",
+  "dbtype": "Protein",
+  "db-version": 5,
+  "description": "bt_toxin20251104.fas",
+  "number-of-letters": 996368,
+  "number-of-sequences": 1199,
+  "last-updated": "2025-11-04T15:35:00",
+  "number-of-volumes": 1,
+  "bytes-total": 1149077,
+  "bytes-to-cache": 1007264,
+  "files": [
+    "bt_toxin.pdb",
+    "bt_toxin.phr",
+    "bt_toxin.pin",
+    "bt_toxin.pot",
+    "bt_toxin.psq",
+    "bt_toxin.ptf",
+    "bt_toxin.pto"
+  ]
+}
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pot
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pot
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.psq
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.psq
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.ptf
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.ptf
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pto
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/bt_toxin.pto
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/db_update.tar.gz
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/db_update.tar.gz
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/bt_toxin.phr
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/bt_toxin.phr
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/bt_toxin.pin
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/bt_toxin.pin
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/bt_toxin.psq
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/bt_toxin.psq
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/db_update-20221208.tar.gz
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/db/old/db_update-20221208.tar.gz
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/Bacterial
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/Bacterial
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20200321
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20200321
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20200401
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20200401
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20200730.txt
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20200730.txt
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20210607.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20210607.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20210802.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20210802.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20211011.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20211011.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20211227.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20211227.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20220128.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20220128.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20220609.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20220609.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20221208.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20221208.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20251104.fas
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/bt_toxin20251104.fas
--- a/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/updateDB.py
+++ b/bttoxin_digger_v5_repro/external_dbs/bt_toxin/seq/updateDB.py
@@ -0,0 +1,36 @@
+def get_unique_headers(file_path):
+    """读取文件中以'>'开头的行，返回'>'后面内容的集合"""
+    headers = set()
+    with open(file_path, 'r') as f:
+        for line in f:
+            line = line.strip()
+            if line.startswith('>'):
+                # 提取'>'后面的内容（包括可能的空格和其他字符）
+                header = line[1:]
+                headers.add(header)
+    return headers
+
+# 输入文件路径
+file1 = 'bt_toxin20251104.fas'
+file2 = 'all_app_cry_cyt_gpp_mcf_mpf_mpp_mtx_pra_prb_spp_tpp_txp_vip_vpa_vpb_xpp_fasta_sequences.txt'
+output_file = 'unique_headers.txt'
+
+# 获取两个文件中的header集合
+headers1 = get_unique_headers(file1)
+headers2 = get_unique_headers(file2)
+
+# 计算各自独有的header
+unique_to_file1 = headers1 - headers2
+unique_to_file2 = headers2 - headers1
+
+# 写入输出文件
+with open(output_file, 'w') as out_f:
+    out_f.write(f"### Unique headers in {file1} ###\n")
+    for header in sorted(unique_to_file1):
+        out_f.write(f">{header}\n")
+    
+    out_f.write(f"\n### Unique headers in {file2} ###\n")
+    for header in sorted(unique_to_file2):
+        out_f.write(f">{header}\n")
+
+print(f"处理完成，结果已保存至 {output_file}")