1. 修复了 comparison.py 中 metadata 结构问题,移除了手动添加的 database 字段,让 make_server() 自动处理数据库配置 2. 完善了 README.md 文档,添加了关于工具使用原则、参数说明、高级用法和模型选择的详细说明 3. 添加了首次使用时模型下载失败的解决方案说明
Embedding Atlas 项目说明
环境准备
项目使用 uv 管理依赖,所有必需依赖已经记录在 pyproject.toml 的 [project.dependencies] 中。建议的设置流程如下:
# 可选:配置清华镜像(也可以写入 pyproject.toml 的 [tool.uv.pip])
export UV_PIP_INDEX_URL=https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
# 同步依赖并创建虚拟环境(默认 .venv)
uv lock # 首次或需要更新锁文件时执行
uv sync # 生成或更新虚拟环境
# 进入虚拟环境
source .venv/bin/activate
# 或直接使用 uv run
uv run streamlit run app.py
如需固定镜像源,可在 pyproject.toml 中追加:
[tool.uv.pip]
index-url = "https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"
运行前如果需要离线或国内镜像 Hugging Face,可以设置:
export HF_HUB_OFFLINE=1
export HF_ENDPOINT=https://hf-mirror.com
数据可视化工具
项目包含一个强大的数据可视化工具 comparison.py,可以比较两个 CSV 文件中的数据并在 2D 空间中可视化。
安装和首次使用注意事项
首次运行时,系统需要下载 embedding 模型权重(如 all-MiniLM-L6-v2)。如果下载失败,请设置 Hugging Face 镜像:
export HF_ENDPOINT=https://hf-mirror.com
工具使用原则
在使用该工具时,请遵循以下核心设计原则:
- 让
make_server()自动处理数据库配置 - 使用完整的
props格式提供前端所需的所有信息 - 避免手动添加可能与系统自动添加冲突的配置字段
命令行使用方式
python src/visualization/comparison.py file1.csv file2.csv \
--column1 smiles --column2 smiles \
--label1 "Dataset A" --label2 "Dataset B" \
--interactive --port 5055
参数说明:
file1.csv和file2.csv:要比较的两个 CSV 文件--column1和--column2:分别指定两个文件中用于生成 embedding 的列名--label1和--label2:在可视化中显示的数据集标签--interactive:启动交互式 Web 查看器--port:指定 Web 服务器端口--model:指定要使用的 embedding 模型(默认:all-MiniLM-L6-v2)--batch-size:指定处理数据的批大小(默认:32)--output或-o:指定输出图像文件路径(默认:comparison_visualization.png)--host:指定 Web 服务器主机地址(默认:0.0.0.0)
Python API 调用方式
工具也支持作为 Python 模块直接调用:
from src.visualization.comparison import visualize_csv_comparison
# 基本用法
visualize_csv_comparison(
"file1.csv",
"file2.csv",
column1="smiles",
column2="smiles",
launch_interactive=True,
port=5055
)
# 高级用法 - 自定义模型和参数
visualize_csv_comparison(
"file1.csv",
"file2.csv",
column1="smiles",
column2="smiles",
model="sentence-transformers/all-mpnet-base-v2", # 使用不同的模型
batch_size=16, # 调整批处理大小
output_path="custom_output.png", # 自定义输出路径
launch_interactive=True,
port=8080, # 自定义端口
umap_args={ # 自定义 UMAP 参数
"n_neighbors": 20,
"min_dist": 0.2,
"metric": "cosine"
}
)
# 自定义 embedding 服务
from src.visualization.comparison import create_embedding_service
create_embedding_service(
["text1", "text2", "text3"], # 第一组文本数据
["text4", "text5", "text6"], # 第二组文本数据
labels=("Group A", "Group B"),
model="sentence-transformers/all-mpnet-base-v2", # 指定模型
batch_size=16, # 批处理大小
port=5055
)
支持的模型
工具支持任何兼容 Sentence Transformers 的模型,包括但不限于:
all-MiniLM-L6-v2(默认)all-mpnet-base-v2all-distilroberta-v1paraphrase-multilingual-MiniLM-L12-v2
高级功能
-
自定义 UMAP 参数: 可以通过
umap_args参数调整降维效果:umap_args = { "n_neighbors": 15, # 邻居数量 "min_dist": 0.1, # 最小距离 "metric": "cosine" # 距离度量 } -
批处理优化: 对于大型数据集,可以通过调整
batch_size参数来平衡内存使用和处理速度。
会话编排服务(FastAPI / MCP)
使用 uv run embedding-backend-api 可以启动一个同时兼容 FastAPI 与 FastMCP 的后端服务。该服务监听 /sessions 路径,负责按需拉起 embedding-atlas 容器并在 10 小时后自动清理。
uv run embedding-backend-api
# 或以 MCP 模式启动(stdio)
uv run embedding-backend-mcp
REST API 用法
curl -X POST http://localhost:9000/sessions \
-H 'Content-Type: application/json' \
-d '{
"data_url": "https://example.com/data.csv",
"extra_args": ["--text", "smiles"]
}'
# 关闭会话
curl -X DELETE http://localhost:9000/sessions/<session_id>
# 查看当前会话
curl http://localhost:9000/sessions
请求体支持 session_id、port、auto_remove_seconds、environment 等字段;省略 session_id 时会自动生成并在响应中返回。返回结果包含容器名称与可访问的前端地址,供 FastAPI 或 MCP 客户端转发给前端使用。
如果希望以交互方式测试 API,可在浏览器访问 http://localhost:9000/docs 打开自动生成的 Swagger UI。
请求体字段说明
session_id:可选,自定义的会话 ID;省略时系统自动生成。data_url:必填,指向 CSV/Parquet 的 HTTPS 链接,会被下载到 orchestrator 与 DinD 共享的/sessions/<session_id>/中。input_filename:可选,保存到共享卷时使用的文件名;默认根据 URL 推断。extra_args:可选,附加给embedding-atlasCLI 的参数数组,例如["--text", "smiles"]。environment:可选,注入到容器内的环境变量映射。labels:可选,附加到容器上的 Docker labels(在默认的embedding-backend.*标签之外),便于自定义监控或追踪。image:可选,覆盖默认的embedding-atlas镜像名。host:可选,传递给embedding-atlas --host的值,默认0.0.0.0。port:可选,显式指定宿主机端口;若缺省会自动在配置的区间内分配。auto_remove_seconds:可选,覆盖默认的 10 小时存活时间。
示例请求:
curl -X POST http://localhost:9000/sessions \
-H 'Content-Type: application/json' \
-d '{
"session_id": "demo-session",
"data_url": "https://example.com/data.csv",
"input_filename": "data.csv",
"extra_args": ["--text", "smiles"],
"environment": {"HF_ENDPOINT": "https://hf-mirror.com"},
"labels": {"team": "chem"},
"auto_remove_seconds": 7200
}'
GET /sessions 响应示例
无查询参数,返回当前所有会话的列表:
{
"sessions": [
{
"session_id": "demo-session",
"container_id": "e556c0f1c35b...",
"container_name": "embedding-atlas_demo-session",
"port": 6000,
"host": "0.0.0.0",
"started_at": "2025-09-22T14:37:25.206038Z",
"expires_at": "2025-09-23T00:37:24.416241Z",
"dataset_path": "/sessions/demo-session/data.csv"
}
]
}
sessions数组为空时表示当前没有存活的容器。dataset_path指向共享卷内对应数据集的绝对路径。
MCP 集成
根目录的 fastmcp.json 示例可直接将本项目注册为 MCP 工具:
uv run embedding-backend-mcp
FastMCP 客户端加载该配置后,可用标准 MCP 协议转发同一套 REST 接口,从而与传统后端保持一致的行为。
命令行生成嵌入可视化交互
uv run embedding-atlas data/drugbank_pre_filtered_mordred_qed_id_selfies.csv --text smiles
uv run embedding-atlas data/drugbank_pre_filtered_mordred_qed_id_selfies.csv --export-application data/my_visualization.zip
embedding-atlas 更多用法示例:
# 本地文件
embedding-atlas dataset.parquet
# Hugging Face 数据集
embedding-atlas huggingface_org/dataset_name
# 指定文本列
embedding-atlas dataset.parquet --text text_column
# 使用预计算坐标
embedding-atlas dataset.parquet --x projection_x --y projection_y
CSV文件比较可视化
本项目提供了一个强大的工具用于比较两个CSV文件中的分子数据,并使用Embedding Atlas进行可视化。
Python API使用方法
from script.visualize_csv_comparison import visualize_csv_comparison, create_embedding_service
# 比较两个CSV文件
visualize_csv_comparison(
"file1.csv",
"file2.csv",
column1="smiles",
column2="smiles",
output_path="comparison.png",
label1="Dataset A",
label2="Dataset B",
launch_interactive=True,
port=5055,
model="all-MiniLM-L6-v2"
)
# 直接从文本列表创建可视化服务
texts1 = ["CCO", "CCN", "CCC"]
texts2 = ["c1ccccc1", "CCCN", "CCCO"]
create_embedding_service(
texts1,
texts2,
labels=("Alcohols", "Others"),
port=8080,
model="all-MiniLM-L6-v2",
umap_args={
"n_neighbors": 30,
"min_dist": 0.05,
"metric": "cosine"
}
)
命令行使用方法
# 基本用法
python script/visualize_csv_comparison.py file1.csv file2.csv
# 指定不同的列名
python script/visualize_csv_comparison.py file1.csv file2.csv \
--column1 smiles --column2 SMILES
# 自定义标签和输出文件
python script/visualize_csv_comparison.py file1.csv file2.csv \
--label1 "Dataset A" --label2 "Dataset B" \
--output comparison.png
# 启动交互式查看器
python script/visualize_csv_comparison.py file1.csv file2.csv \
--interactive --port 8080
# 使用自定义模型和参数
python script/visualize_csv_comparison.py file1.csv file2.csv \
--interactive \
--model all-MiniLM-L6-v2 \
--batch-size 64
功能特点
- 双模式支持:既可以生成静态可视化图像,也可以启动交互式查看器
- 数据源区分:在可视化中使用不同颜色区分两个数据源,并在图例中标识
- 自动标注:默认使用文件名作为数据源标签,也支持自定义标签
- 端口配置:可以自定义交互式查看器的端口
- 模型选择:支持指定不同的SentenceTransformer模型
- UMAP参数调优:可以自定义UMAP算法参数以获得更好的可视化效果
- 灵活输入:支持直接从文本列表创建可视化服务,无需CSV文件
划分 MolGen 第一轮微调数据集
uv run python script/split_drugbank.py \
--in-csv data/drugbank_pre_filtered_mordred_qed_id_selfies.csv \
--out-dir splits_v2 --seed 20250922 \
--train-ratio 0.8 --val-ratio 0.1 --test-ratio 0.1 \
--n_qed_bins 5 --n_mw_bins 5 --largest-first
产物:split_train.csv / split_val.csv / split_test.csv
其中 split_val 和 split_test 中的分子不会出现在训练集里,且整体 QED/MW 分布接近训练集,便于后续"用未见参考分子做条件生成并观察邻域覆盖"。
合并分割的数据集进行可视化
合并数据集:
uv run python script/merge_splits.py --input-dir splits_v2/ --output data/drugbank_split_merge.csv
可视化:
uv run embedding-atlas data/drugbank_split_merge.csv --text smiles
容器化部署
项目提供 docker/ 目录用于快速启动后端:
- 先构建可被 orchestrator 复用的
embedding-atlas镜像:docker build -f docker/embedding-atlas.Dockerfile -t embedding-atlas:latest . - 启动 DIND + orchestrator 组合:
docker compose -f docker/docker-compose.yml up --buildengine服务运行docker:dind,对外暴露tcp://localhost:2375供 orchestrator 通过 socket 管理容器;- 两个服务通过
sessions-data卷共享/sessions目录,后端会把下载的数据放到这里; orchestrator服务运行 FastAPI/FastMCP 后端,默认开放http://localhost:9000;- 会话缓存保存在
sessions-data卷,可在容器重启时保留下载的数据集。
如需调整默认镜像或端口,可在 docker/docker-compose.yml 中覆盖 EMBEDDING_* 环境变量,或在部署时通过 .env 文件注入。
注意:由于 orchestrator 运行在容器内并通过 DinD 调度新容器,如需在宿主机直接访问
embedding-atlas的 Web UI,需要确保相应端口从docker_engine_1转发到宿主,可按需求使用podman port或额外的反向代理。