Files
analysis_pdb/README.md
2024-01-19 17:57:07 +08:00

116 lines
4.1 KiB
Markdown
Executable File
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# analysis_pdb
## install environment
```shell
micromamba create -n modeller modeller biopython pymol-open-source biopandas requests ipython ipykernel pydantic -y -c conda-forge -c salilab
# modeller注册码MODELIRANJE (<conda_env>//lib/modeller-10.4/modlib/modeller/config.py)
```
modeller注册码`MODELIRANJE``
## test
```shell
cp pdb_test/5isz.pdb pdb_gjm/
gmx_mpi pdb2gmx -f 5isz.pdb -o 5isz.gro -ff amber99sb-ildn -water tip3p -ignh -p topol.top
```
# 利用 modeller进行 融合蛋白多模板建模
单模板建模和多模板建模的异同:
单模板建模是通过序列比对的方法,找到与目标序列相似度最高的一条序列作为模板(序列相似=>结构相似),再在此基础上进行优化。
多模板建模是通过多序列比对这些序列中的保守区域的结构特征很容易确定对于差异的片段在多条序列片段中找到与目标序列片段最主导Dominant的结构。然后将这些碎片的结构拼接成一个完整的目标序列结构。
多模板建模更容易选择最佳模板
[参考](https://zhuanlan.zhihu.com/p/127021344)
[参考](https://blog.csdn.net/weixin_40640700/article/details/90711623)
测试所用的脚本路径:`<python path>lib/modeller-10.4/examples/commands`
去 Modeller 下载最新的 [PDB sequences文件](https://salilab.org/modeller/supplemental.html)
Last update: January 4th, 2024.
pdball.pir.gz包含所有蛋白质数据银行PDB序列的文件。这个文件可能非常大因为它包含了PDB中的每一个序列。
pdb_95.cod.gz包含在95%身份相似度水平下聚类的代表性PDB代码的文件。这意味着在这个文件中的每个PDB代码代表了一个序列簇其中的序列彼此间的相似度至少为95%。
pdb_95.grp.gz包含每个95%身份相似度聚类的所有PDB代码的文件。这有助于了解特定聚类中包含哪些PDB条目。
pdb_95.pir.gz包含95%身份相似度聚类的代表性序列的文件。每个聚类选取一个代表性序列这些序列的身份相似度至少为95%。
.cod 文件通常包含蛋白质数据银行PDB中代表性蛋白质结构的PDB代码。在这个上下文中pdb_95.cod 文件可能包含在95%序列相似度下聚类的代表性PDB结构的PDB代码。
.grp 文件含有组成特定聚类的所有PDB代码的文件。例如pdb_95.grp 文件可能列出了在95%序列相似度聚类中的所有PDB代码展示了属于同一聚类即序列相似性高的蛋白质结构。
.pir 文件是Protein Information Resource格式的文件常用于蛋白质序列和结构的表示。这种格式特别适合于序列比对和蛋白质建模。在您提到的情况中pdb_95.pir 可能包含了95%相似度聚类中的代表性蛋白质序列。
使用场景
高相似度如95%):用于更精确地找到与目标序列高度相似的模板,通常用于更精细的同源建模。
低相似度如40%):用于在较宽的范围内寻找模板,可能在研究更广泛的蛋白质家族或进化关系时有用。
# 记录
`7rtr` 对比序列太长,需要去除尾端
无缺失1bd2,
`1d9k`
tcr: AB
mhc CD
peptide P
`1kj2` p周围只有三条链
`3C5Z` `3C60` `3O6F` `3PL6` `3RDT` `4MAY` `4P4K` 没有peptide
`3GJF` K、L链 空间位置不正确。
`4z7u` 重叠缺失链tcrhmc只有一半
----
单聚体记录:
`1ao7` E 链 225 THR 是缺失 PDB文件结构也正常 可能是坐标脱离太原导致缺失
`3qiu` `4ozf` 拖尾
`6avf` H 链太长
`6px6` B 链太长
`6py2` B 链太长
`6u3n` B 链111修复失败, pymol 观察缺失但是MOE其他软件观察没问题PDB文件结构也正常。可能是坐标脱离太原导致缺失
`4grl` pymol 观察缺失但是MOE其他软件观察没问题PDB文件结构也正常。可能是坐标脱离太原导致缺失
`7rk7` `7rtr` 拖尾
`6uk4` `6uln` `6vm8` `7l1d` `7rrg` 仅有HMC呈递peptide没有TCR识别互相作用
`7jwj` A链拖尾太长
tcr: DE
mhc I
peptide Q
`3mv7` `3mv8` `3mv9` D链修复有问题没有修复成功。
``