Foldseek
install
# 本地安装
wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz
export PATH=$(pwd)/foldseek/bin/:$PATH
micromamba create -n foldseek -c conda-forge -c bioconda pandas openpyxl python-calamine ipython attrs cattrs -y # 本地安装是最新版的
# or use Conda installer (Linux and macOS)
micromamba create -n foldseek -c conda-forge -c bioconda foldseek pandas openpyxl python-calamine ipython attrs cattrs -y # 本地安装是最新版的
下载完了foldseek 软件之后,我们需要下载目标数据库:即我们想要我们手头的蛋白质进行比对的数据库。这里可以用 foldseek 的database 命令来下载一些经过预处理的数据库比如 PDB数据库和 Alphafold 数据库。目前 foldseek 支持以下 预处理过的数据库下载:Alphafold (UniProt, UniProt50, Proteome, Swiss-Prot), ESMAtlas30, PDB。如果我们下载其中一个数据库可以用以下命令:
foldseek databases PDB pdb tmp
foldseek database 是调用 foldseek 的database 命令,后面三个是输入的参数,PDB 是下载的数据库名称,pdb 是自己定义的下载数据库各种文件的前缀,tmp是自己定义的临时文件夹名称用于存放在跑程序过程中产生的各种文件。跑完该命令后,在你的工作目录下面会出现多个 以 pdb 开头的文件和一个 tmp 文件夹。
运行 foldseek
micromamba run -n foldseek python main.py 1g6r.manualfix.pdb fastrelax -o results -f csv
result.csv 文件
foldseek 运行完成后会在当前目录生成一个 result.csv 文件,该文件包含了所有结构比对结果。该文件包含以下字段:
| 字段 | 描述 |
|---|---|
| query | 我们需要比对的蛋白质结构 |
| target | 数据库中与目标蛋白比对上的蛋白质名称 |
| fident | 结构比对片段的序列相似性 |
| alnlen | 比对片段的长度 |
| mismatch | 比对序列中错配碱基的数目 |
| gapopen | 序列比对产生的 gap 数目 |
| qstart | query蛋白比对的起点位置 |
| qend | query蛋白比对的终点位置 |
| tstart | target 蛋白比对的起点位置 |
| tend | target蛋白比对的终点位置 |
| evalue | 结构比对的显著性 |
| prob | 两个蛋白质结构是相同折叠结构的概率 |
| lddt | 结构比对区间的 lddt (local distance difference test) 打分 |
| alntmscore | 局部结构比对的 TM score |
Reference
van Kempen M, Kim S, Tumescheit C, Mirdita M, Lee J, Gilchrist CLM, Söding J, and Steinegger M. Fast and accurate protein structure search with Foldseek. Nature Biotechnology, 2023.
Description
Languages
Python
100%