lingyuzeng/analysis_pdb

Fork 0

Go to file

lingyuzeng 2649ed9ec6 update

2024-01-25 15:44:35 +08:00

fixed

update to env path

2024-01-03 11:17:37 +08:00

.gitignore

update

2024-01-25 15:44:35 +08:00

analysis_pdb.py

add pymol change_chain_identifier

2024-01-25 10:31:33 +08:00

build_modellel.py

update to env path

2024-01-03 11:17:37 +08:00

build_modeller.py

加入如果两端都没有-对齐时候产生的错误ali文件问题

2024-01-25 15:43:40 +08:00

copyfile.py

add 临时的复制文件脚本

2024-01-18 17:59:52 +08:00

download.ipynb

add download ipynb

2024-01-11 14:37:59 +08:00

gentop.py

update error handle

2024-01-10 09:47:01 +08:00

mainfix.py

change config

2024-01-24 17:14:37 +08:00

md_gromacs.sh

add gpu use

2024-01-15 11:12:56 +08:00

md_gromacs.sh.bak

add

2024-01-05 14:22:17 +08:00

modelbuilder.py

change id

2024-01-25 13:57:37 +08:00

process_trajectory.py

update to env path

2024-01-03 11:17:37 +08:00

process_xtc.sh

upate

2023-12-19 12:58:45 +08:00

README.md

udpate readme

2024-01-25 15:43:52 +08:00

runner.py

加强 log

2024-01-11 11:04:38 +08:00

sequence_base.py

add sequencebaseclass

2024-01-19 14:06:00 +08:00

tcr_pmhc_complexes.py

use sequence_base.py

2024-01-19 16:30:55 +08:00

test.py

update

2024-01-24 17:13:37 +08:00

README.md

analysis_pdb

install environment

micromamba create -n modeller modeller biopython pymol-open-source biopandas requests ipython ipykernel pydantic pyfastx ipython -y -c conda-forge -c salilab -c bioconda
conda create -n pyfastx modeller biopython pymol-open-source biopandas requests ipython ipykernel pydantic pyfastx ipython seaborn -y -c conda-forge -c salilab -c bioconda
# modeller注册码：MODELIRANJE (<conda_env>//lib/modeller-10.4/modlib/modeller/config.py)
# 绘图环境 统计test.py
conda install -c conda-forge seaborn -y

modeller注册码：MODELIRANJE

test

cp pdb_test/5isz.pdb pdb_gjm/
gmx_mpi pdb2gmx -f 5isz.pdb -o 5isz.gro -ff amber99sb-ildn -water tip3p -ignh -p topol.top

利用 modeller进行融合蛋白多模板建模

单模板建模和多模板建模的异同：

单模板建模是通过序列比对的方法，找到与目标序列相似度最高的一条序列作为模板（序列相似=>结构相似），再在此基础上进行优化。

多模板建模是通过多序列比对，这些序列中的保守区域的结构特征很容易确定，对于差异的片段，在多条序列片段中找到与目标序列片段最主导（Dominant）的结构。然后将这些碎片的结构拼接成一个完整的目标序列结构。

多模板建模更容易选择最佳模板

参考

测试所用的脚本路径：<python path>lib/modeller-10.4/examples/commands

去 Modeller 下载最新的 PDB sequences文件

Last update: January 4th, 2024.

pdball.pir.gz：包含所有蛋白质数据银行（PDB）序列的文件。这个文件可能非常大，因为它包含了PDB中的每一个序列。

pdb_95.cod.gz：包含在95%身份相似度水平下聚类的代表性PDB代码的文件。这意味着在这个文件中的每个PDB代码代表了一个序列簇，其中的序列彼此间的相似度至少为95%。

pdb_95.grp.gz：包含每个95%身份相似度聚类的所有PDB代码的文件。这有助于了解特定聚类中包含哪些PDB条目。

pdb_95.pir.gz：包含95%身份相似度聚类的代表性序列的文件。每个聚类选取一个代表性序列，这些序列的身份相似度至少为95%。

.cod 文件：通常包含蛋白质数据银行（PDB）中代表性蛋白质结构的PDB代码。在这个上下文中，pdb_95.cod 文件可能包含在95%序列相似度下聚类的代表性PDB结构的PDB代码。

.grp 文件：含有组成特定聚类的所有PDB代码的文件。例如，pdb_95.grp 文件可能列出了在95%序列相似度聚类中的所有PDB代码，展示了属于同一聚类（即序列相似性高）的蛋白质结构。

.pir 文件：是Protein Information Resource格式的文件，常用于蛋白质序列和结构的表示。这种格式特别适合于序列比对和蛋白质建模。在您提到的情况中，pdb_95.pir 可能包含了95%相似度聚类中的代表性蛋白质序列。

使用场景

高相似度（如95%）：用于更精确地找到与目标序列高度相似的模板，通常用于更精细的同源建模。

低相似度（如40%）：用于在较宽的范围内寻找模板，可能在研究更广泛的蛋白质家族或进化关系时有用。

记录

7rtr 对比序列太长，需要去除尾端

无缺失：1bd2,

1d9k

tcr: AB mhc CD peptide P

1kj2 p周围只有三条链

3C5Z 3C60 3O6F 3PL6 3RDT 4MAY 4P4K 没有peptide

3GJF K、L链空间位置不正确。

`4z7u` 重叠，缺失链，tcr，hmc只有一半

单聚体记录：

1ao7 E 链 221-225 THR 是缺失 PDB文件结构也正常可能是坐标脱离太原导致缺失。经过观察，221和222为的TRP和GLU 肽键的C-N长度为2.0 埃（Å），碳（C）和氮（N）原子之间的典型距离大约是 1.32 埃（Å）。导致动画结构展示不正确，需要手动删除然后，建模修复。这里的221和222就是moderller修复之后的结果，原始的1ao7在216-230都是缺失的。可能moderller修复参数不正确，导致221和222位置修复不合理。这个结果已经交付，说明MD模拟成功，证明这里可以正常跑MD，因此同样问题的6bga应该也能正常进行MD模拟。

3qiu 4ozf 拖尾

6avf H 链太长

6px6 B 链太长

6py2 B 链太长

6u3n B 链111修复失败, pymol 观察缺失，但是MOE，其他软件观察没问题，PDB文件结构也正常。可能是坐标脱离太原导致缺失

4grl pymol 观察缺失，但是MOE，其他软件观察没问题，PDB文件结构也正常。可能是坐标脱离太原导致缺失

7rk7 7rtr 拖尾

6uk4 6uln 6vm8 7l1d 7rrg 仅有HMC呈递peptide，没有TCR识别互相作用

7jwj A链拖尾太长

5ksa peptide （J 链）-1 到1发现缺失（0位缺失），但是实际上需不需要修复的，但是进行了修复，所以这里是peptide编号错误。手动将J链编号-1改为0，重新进行同源建模修复，pdb_test4

6bga B链 138-139 位置不合理缺失，需要手动删除序列位置然后修复，原始的6bga也是可能moderller修复参数不正确，导致 138-139 位置修复不合理。

7rdv C链拖尾太长，修复失败，需要后续检查原因

tcr: DE mhc I

peptide Q

3mv7 3mv8 3mv9 D链修复有问题，没有修复成功。

README.md Unescape Escape

analysis_pdb

install environment

test

利用 modeller进行 融合蛋白多模板建模

记录

4z7u 重叠，缺失链，tcr，hmc只有一半

README.md

利用 modeller进行融合蛋白多模板建模

`4z7u` 重叠，缺失链，tcr，hmc只有一半