analysis_pdb/README.md

# analysis_pdb


## install environment

```shell
micromamba create -n modeller modeller biopython pymol-open-source biopandas requests ipython ipykernel pydantic -y -c conda-forge -c salilab
# modeller注册码：MODELIRANJE (<conda_env>//lib/modeller-10.4/modlib/modeller/config.py)
```

modeller注册码：`MODELIRANJE``

## test

```shell
cp pdb_test/5isz.pdb pdb_gjm/
gmx_mpi pdb2gmx -f 5isz.pdb -o 5isz.gro -ff amber99sb-ildn -water tip3p -ignh -p topol.top
```

# 利用 modeller进行 融合蛋白多模板建模

单模板建模和多模板建模的异同：

单模板建模是通过序列比对的方法，找到与目标序列相似度最高的一条序列作为模板（序列相似=>结构相似），再在此基础上进行优化。

多模板建模是通过多序列比对，这些序列中的保守区域的结构特征很容易确定，对于差异的片段，在多条序列片段中找到与目标序列片段最主导（Dominant）的结构。然后将这些碎片的结构拼接成一个完整的目标序列结构。

多模板建模更容易选择最佳模板

[参考](https://zhuanlan.zhihu.com/p/127021344)

[参考](https://blog.csdn.net/weixin_40640700/article/details/90711623)

测试所用的脚本路径：`<python path>lib/modeller-10.4/examples/commands`

去 Modeller 下载最新的 [PDB sequences文件](https://salilab.org/modeller/supplemental.html)

Last update: January 4th, 2024.

pdball.pir.gz：包含所有蛋白质数据银行（PDB）序列的文件。这个文件可能非常大，因为它包含了PDB中的每一个序列。

pdb_95.cod.gz：包含在95%身份相似度水平下聚类的代表性PDB代码的文件。这意味着在这个文件中的每个PDB代码代表了一个序列簇，其中的序列彼此间的相似度至少为95%。

pdb_95.grp.gz：包含每个95%身份相似度聚类的所有PDB代码的文件。这有助于了解特定聚类中包含哪些PDB条目。

pdb_95.pir.gz：包含95%身份相似度聚类的代表性序列的文件。每个聚类选取一个代表性序列，这些序列的身份相似度至少为95%。

.cod 文件：通常包含蛋白质数据银行（PDB）中代表性蛋白质结构的PDB代码。在这个上下文中，pdb_95.cod 文件可能包含在95%序列相似度下聚类的代表性PDB结构的PDB代码。

.grp 文件：含有组成特定聚类的所有PDB代码的文件。例如，pdb_95.grp 文件可能列出了在95%序列相似度聚类中的所有PDB代码，展示了属于同一聚类（即序列相似性高）的蛋白质结构。

.pir 文件：是Protein Information Resource格式的文件，常用于蛋白质序列和结构的表示。这种格式特别适合于序列比对和蛋白质建模。在您提到的情况中，pdb_95.pir 可能包含了95%相似度聚类中的代表性蛋白质序列。


使用场景

高相似度（如95%）：用于更精确地找到与目标序列高度相似的模板，通常用于更精细的同源建模。

低相似度（如40%）：用于在较宽的范围内寻找模板，可能在研究更广泛的蛋白质家族或进化关系时有用。


# 记录

`7rtr` 对比序列太长，需要去除尾端

无缺失：1bd2,

`1d9k`

tcr: AB
mhc CD
peptide P

`1kj2` p周围只有三条链

`3C5Z` `3C60` `3O6F` `3PL6` `3RDT` `4MAY` `4P4K` 没有peptide

`3GJF` K、L链 空间位置不正确。

`4z7u` 重叠，缺失链，tcr，hmc只有一半
----
单聚体记录：

`1ao7` E 链 225 THR 是缺失 PDB文件结构也正常 可能是坐标脱离太原导致缺失

`3qiu` `4ozf` 拖尾

`6avf` H 链太长

`6px6` B 链太长

`6py2` B 链太长

`6u3n` B 链111修复失败, pymol 观察缺失，但是MOE，其他软件观察没问题，PDB文件结构也正常。可能是坐标脱离太原导致缺失

`4grl` pymol 观察缺失，但是MOE，其他软件观察没问题，PDB文件结构也正常。可能是坐标脱离太原导致缺失

`7rk7` `7rtr` 拖尾

`6uk4` `6uln` `6vm8` `7l1d` `7rrg` 仅有HMC呈递peptide，没有TCR识别互相作用

`7jwj` A链拖尾太长


tcr: DE
mhc I

peptide Q

`3mv7` `3mv8` `3mv9` D链修复有问题，没有修复成功。

``