diff --git a/README.md b/README.md index 31ec342..8f8a54b 100755 --- a/README.md +++ b/README.md @@ -18,6 +18,48 @@ cp pdb_test/5isz.pdb pdb_gjm/ gmx_mpi pdb2gmx -f 5isz.pdb -o 5isz.gro -ff amber99sb-ildn -water tip3p -ignh -p topol.top ``` +# 利用 modeller进行 融合蛋白多模板建模 + +单模板建模和多模板建模的异同: + +单模板建模是通过序列比对的方法,找到与目标序列相似度最高的一条序列作为模板(序列相似=>结构相似),再在此基础上进行优化。 + +多模板建模是通过多序列比对,这些序列中的保守区域的结构特征很容易确定,对于差异的片段,在多条序列片段中找到与目标序列片段最主导(Dominant)的结构。然后将这些碎片的结构拼接成一个完整的目标序列结构。 + +多模板建模更容易选择最佳模板 + +[参考](https://zhuanlan.zhihu.com/p/127021344) + +[参考](https://blog.csdn.net/weixin_40640700/article/details/90711623) + +测试所用的脚本路径:`lib/modeller-10.4/examples/commands` + +去 Modeller 下载最新的 [PDB sequences文件](https://salilab.org/modeller/supplemental.html) + +Last update: January 4th, 2024. + +pdball.pir.gz:包含所有蛋白质数据银行(PDB)序列的文件。这个文件可能非常大,因为它包含了PDB中的每一个序列。 + +pdb_95.cod.gz:包含在95%身份相似度水平下聚类的代表性PDB代码的文件。这意味着在这个文件中的每个PDB代码代表了一个序列簇,其中的序列彼此间的相似度至少为95%。 + +pdb_95.grp.gz:包含每个95%身份相似度聚类的所有PDB代码的文件。这有助于了解特定聚类中包含哪些PDB条目。 + +pdb_95.pir.gz:包含95%身份相似度聚类的代表性序列的文件。每个聚类选取一个代表性序列,这些序列的身份相似度至少为95%。 + +.cod 文件:通常包含蛋白质数据银行(PDB)中代表性蛋白质结构的PDB代码。在这个上下文中,pdb_95.cod 文件可能包含在95%序列相似度下聚类的代表性PDB结构的PDB代码。 + +.grp 文件:含有组成特定聚类的所有PDB代码的文件。例如,pdb_95.grp 文件可能列出了在95%序列相似度聚类中的所有PDB代码,展示了属于同一聚类(即序列相似性高)的蛋白质结构。 + +.pir 文件:是Protein Information Resource格式的文件,常用于蛋白质序列和结构的表示。这种格式特别适合于序列比对和蛋白质建模。在您提到的情况中,pdb_95.pir 可能包含了95%相似度聚类中的代表性蛋白质序列。 + + +使用场景 + +高相似度(如95%):用于更精确地找到与目标序列高度相似的模板,通常用于更精细的同源建模。 + +低相似度(如40%):用于在较宽的范围内寻找模板,可能在研究更广泛的蛋白质家族或进化关系时有用。 + + # 记录 `7rtr` 对比序列太长,需要去除尾端 @@ -37,14 +79,17 @@ peptide P `3GJF` K、L链 空间位置不正确。 `4z7u` 重叠,缺失链,tcr,hmc只有一半 - +---- +单聚体记录: `6avf` H 链太长 `6px6` B 链太长 `6py2` B 链太长 -`6u3n` B 链111修复失败 +`6u3n` B 链111修复失败, pymol 观察缺失,但是MOE,其他软件观察没问题,PDB文件结构也正常 + +`4grl` pymol 观察缺失,但是MOE,其他软件观察没问题,PDB文件结构也正常 `7rk7` `7rtr` 拖尾