环境安装
conda create -n chemplot_env -y -c conda-forge chemplot
conda activate chemplot_env
# 失败可以用pip 进行安装尝试 与mordred兼容
pip install "networkx==2.8.8" chemplot pandas matplotlib scikit-learn umap-learn rdkit-pypi
t-SNE 的局限性
假设有三个分子系列 A、B、C,实际空间距离 A↔B 比 A↔C 近:
t-SNE 可能只把 A、B 内部的点聚在一起,但 A↔B vs A↔C 的距离无法反映真实远近关系。
这意味着如果用 t-SNE 后结果做 KMeans,可能出现不合理的簇划分。
UMAP 的优势
在 UMAP 中,A、B、C 的相对距离更接近原始分子指纹空间。
当你在降维后的空间运行 KMeans 或 HDBSCAN 时,聚类结果与真实分子结构差异更一致。
t-SNE 的时间复杂度接近 O(N^2),数据量增加后计算时间会爆炸式增长。 UMAP 在大规模分子库上表现更好,并且支持并行计算。
UMAP 是更合适的选择,因为:
它更好地保留了化学空间的全局结构,确保聚类结果有化学意义。
稳定、可复现,适合后续湿实验追踪和比较。
计算速度更快,支持未来大规模分子库扩展。
在生成交互式 HTML 时,结果更直观、可解释。
功能脚本
chemplot_select_and_mark.py 介绍
Description
Languages
Python
100%