2024-03-11 08:19:39 +00:00
2024-03-11 08:15:08 +00:00
2024-03-11 08:15:08 +00:00
add
2024-03-11 08:19:39 +00:00
2024-03-11 08:15:08 +00:00

Foldseek

install

# 本地安装
wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz
export PATH=$(pwd)/foldseek/bin/:$PATH
micromamba create -n foldseek -c conda-forge -c bioconda pandas openpyxl python-calamine ipython attrs cattrs -y # 本地安装是最新版的
# or use Conda installer (Linux and macOS)
micromamba create -n foldseek -c conda-forge -c bioconda foldseek pandas openpyxl python-calamine ipython attrs cattrs -y # 本地安装是最新版的

下载完了foldseek 软件之后,我们需要下载目标数据库:即我们想要我们手头的蛋白质进行比对的数据库。这里可以用 foldseek 的database 命令来下载一些经过预处理的数据库比如 PDB数据库和 Alphafold 数据库。目前 foldseek 支持以下 预处理过的数据库下载Alphafold (UniProt, UniProt50, Proteome, Swiss-Prot), ESMAtlas30, PDB。如果我们下载其中一个数据库可以用以下命令

foldseek databases PDB pdb tmp

foldseek database 是调用 foldseek 的database 命令后面三个是输入的参数PDB 是下载的数据库名称pdb 是自己定义的下载数据库各种文件的前缀tmp是自己定义的临时文件夹名称用于存放在跑程序过程中产生的各种文件。跑完该命令后在你的工作目录下面会出现多个 以 pdb 开头的文件和一个 tmp 文件夹。

运行 foldseek

micromamba run -n foldseek python main.py 1g6r.manualfix.pdb fastrelax -o results -f csv

result.csv 文件

foldseek 运行完成后会在当前目录生成一个 result.csv 文件,该文件包含了所有结构比对结果。该文件包含以下字段:

字段 描述
query 我们需要比对的蛋白质结构
target 数据库中与目标蛋白比对上的蛋白质名称
fident 结构比对片段的序列相似性
alnlen 比对片段的长度
mismatch 比对序列中错配碱基的数目
gapopen 序列比对产生的 gap 数目
qstart query蛋白比对的起点位置
qend query蛋白比对的终点位置
tstart target 蛋白比对的起点位置
tend target蛋白比对的终点位置
evalue 结构比对的显著性
prob 两个蛋白质结构是相同折叠结构的概率
lddt 结构比对区间的 lddt (local distance difference test) 打分
alntmscore 局部结构比对的 TM score

Reference

van Kempen M, Kim S, Tumescheit C, Mirdita M, Lee J, Gilchrist CLM, Söding J, and Steinegger M. Fast and accurate protein structure search with Foldseek. Nature Biotechnology, 2023.

Description
No description provided
Readme 2.5 MiB
Languages
Python 100%