Foldseek

install

# 本地安装
wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz
export PATH=$(pwd)/foldseek/bin/:$PATH
micromamba create -n foldseek -c conda-forge -c bioconda pandas openpyxl python-calamine ipython attrs cattrs -y # 本地安装是最新版的
# or use Conda installer (Linux and macOS)
micromamba create -n foldseek -c conda-forge -c bioconda foldseek pandas openpyxl python-calamine ipython attrs cattrs -y # 本地安装是最新版的

下载完了foldseek 软件之后，我们需要下载目标数据库：即我们想要我们手头的蛋白质进行比对的数据库。这里可以用 foldseek 的database 命令来下载一些经过预处理的数据库比如 PDB数据库和 Alphafold 数据库。目前 foldseek 支持以下预处理过的数据库下载：Alphafold (UniProt, UniProt50, Proteome, Swiss-Prot), ESMAtlas30, PDB。如果我们下载其中一个数据库可以用以下命令：

foldseek databases PDB pdb tmp

foldseek database 是调用 foldseek 的database 命令，后面三个是输入的参数，PDB 是下载的数据库名称，pdb 是自己定义的下载数据库各种文件的前缀，tmp是自己定义的临时文件夹名称用于存放在跑程序过程中产生的各种文件。跑完该命令后，在你的工作目录下面会出现多个以 pdb 开头的文件和一个 tmp 文件夹。

运行 foldseek

micromamba run -n foldseek python main.py 1g6r.manualfix.pdb fastrelax -o results -f csv

result.csv 文件

foldseek 运行完成后会在当前目录生成一个 result.csv 文件，该文件包含了所有结构比对结果。该文件包含以下字段：

字段	描述
query	我们需要比对的蛋白质结构
target	数据库中与目标蛋白比对上的蛋白质名称
fident	结构比对片段的序列相似性
alnlen	比对片段的长度
mismatch	比对序列中错配碱基的数目
gapopen	序列比对产生的 gap 数目
qstart	query蛋白比对的起点位置
qend	query蛋白比对的终点位置
tstart	target 蛋白比对的起点位置
tend	target蛋白比对的终点位置
evalue	结构比对的显著性
prob	两个蛋白质结构是相同折叠结构的概率
lddt	结构比对区间的 lddt (local distance difference test) 打分
alntmscore	局部结构比对的 TM score

Reference

van Kempen M, Kim S, Tumescheit C, Mirdita M, Lee J, Gilchrist CLM, Söding J, and Steinegger M. Fast and accurate protein structure search with Foldseek. Nature Biotechnology, 2023.

README.md Unescape Escape

Foldseek

运行 foldseek

result.csv 文件

Reference

README.md