generate_3d_structures

2025-03-11 18:09:30 +08:00
parent e29fc499bf
commit 2041bd4ec3
1 changed files with 339 additions and 0 deletions
--- a/pycomsia/src/balloon_rdkit_pipeline.py
+++ b/pycomsia/src/balloon_rdkit_pipeline.py
@@ -0,0 +1,339 @@
+#!/usr/bin/env python
+"""
+完整训练代码示例
+
+功能：
+1. 从 CSV 文件中读取 SMILES 和目标变量，计算2D描述符（利用 RDKit 与 Mordred），并对描述符进行 SelectKBest 特征选择。
+2. 根据 CSV 文件中的 SMILES 生成分子的3D构象，然后利用 MolecularGridCalculator 与 MolecularFieldCalculator 计算3D‐QSAR场特征，
+   将5个场（steric、electrostatic、hydrophobic、hbond_donor、hbond_acceptor）展平后合并为一个特征向量。
+3. 合并2D与3D特征，并使用随机森林和 XGBoost 进行回归训练，同时支持 Optuna 超参数调优。
+4. 通过命令行传递 CSV 文件路径和目标变量名称，使用 click 库实现，并提供详细帮助信息。
+
+用法示例：
+    python main.py --data-smi data_smi.csv --target MIC_LOG_ATCC25923
+"""
+
+import os
+import numpy as np
+import pandas as pd
+import click
+from rdkit import Chem
+from rdkit.Chem import Descriptors, AllChem
+from mordred import Calculator, descriptors
+from sklearn.feature_selection import SelectKBest, f_regression
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestRegressor
+import xgboost as xgb
+from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
+import optuna
+
+# 导入3D相关模块（请确保 MolecularGridCalculator.py 和 MolecularFieldCalculator.py 在同一目录下）
+from MolecularGridCalculator import MolecularGridCalculator
+from MolecularFieldCalculator import MolecularFieldCalculator
+
+# ------------------------ 辅助函数 ------------------------
+def safe_nunique(series):
+    """安全计算唯一值数量，防止非标量数据出错"""
+    try:
+        return series.nunique(dropna=False)
+    except Exception:
+        return series.apply(lambda x: tuple(x) if isinstance(x, (np.ndarray, list)) and not pd.isnull(x) else x).nunique(dropna=False)
+
+# ------------------------ 2D描述符计算 ------------------------
+def get_rdkit_descriptors(smiles, missingVal=None):
+    """利用 RDKit 计算分子所有描述符"""
+    mol = Chem.MolFromSmiles(smiles)
+    res = {}
+    if mol is None:
+        for nm, _ in Descriptors._descList:
+            res[nm] = missingVal
+        return res
+    for nm, fn in Descriptors._descList:
+        try:
+            res[nm] = fn(mol)
+        except Exception:
+            res[nm] = missingVal
+    return res
+
+def get_mordred_descriptors(smiles):
+    """利用 Mordred 计算分子描述符"""
+    mol = Chem.MolFromSmiles(smiles)
+    if mol is None:
+        return {}
+    calc = Calculator(descriptors)
+    try:
+        result = calc(mol)
+        return result.asdict()
+    except Exception:
+        return {}
+
+def compute_2d_features(csv_file):
+    data = pd.read_csv(csv_file)
+    # RDKit描述符
+    rdkit_desc_list = data["SMILES"].apply(get_rdkit_descriptors)
+    X_df_rdkit = pd.DataFrame(rdkit_desc_list.tolist())
+    # 转换为数值类型并用均值填充（针对数值列）
+    X_df_rdkit = X_df_rdkit.apply(pd.to_numeric, errors='coerce')
+    X_df_rdkit = X_df_rdkit.fillna(X_df_rdkit.mean(numeric_only=True))
+    
+    # Mordred描述符
+    mordred_desc_list = []
+    for smi in data["SMILES"]:
+        mordred_desc_list.append(get_mordred_descriptors(smi))
+    X_df_mordred = pd.DataFrame(mordred_desc_list)
+    X_df_mordred.dropna(axis=1, how='all', inplace=True)
+    invalid_features = [col for col in X_df_mordred.columns if safe_nunique(X_df_mordred[col]) <= 1]
+    if invalid_features:
+        print("Mordred 删除恒定特征:", invalid_features)
+        X_df_mordred.drop(columns=invalid_features, inplace=True)
+    X_df_mordred = X_df_mordred.apply(pd.to_numeric, errors='coerce')
+    X_df_mordred = X_df_mordred.fillna(X_df_mordred.mean(numeric_only=True))
+    
+    # 合并两部分描述符
+    X_df = pd.concat([X_df_rdkit, X_df_mordred], axis=1)
+    X_df = X_df.loc[:, ~X_df.columns.duplicated()]
+    constant_features = [col for col in X_df.columns if safe_nunique(X_df[col]) <= 1]
+    if constant_features:
+        print("Combined 删除恒定特征:", constant_features)
+        X_df.drop(columns=constant_features, inplace=True)
+    
+    # 检查哪些列仍包含非数值数据（即转换时出现了 NaN，但原始数据非空）
+    non_numeric_features = {}
+    for col in X_df.columns:
+        # 尝试将列转换为数值
+        col_numeric = pd.to_numeric(X_df[col], errors='coerce')
+        # 如果原始列中有非空值，但转换后对应位置为NaN，则说明存在非数值数据
+        mask = X_df[col].notna() & col_numeric.isna()
+        if mask.any():
+            unique_vals = set(X_df.loc[mask, col].unique())
+            non_numeric_features[col] = unique_vals
+    if non_numeric_features:
+        print("以下特征包含非数值数据（经过 set 去重）：")
+        for col, uniq in non_numeric_features.items():
+            print(f"{col}: {uniq}")
+    else:
+        print("所有特征均为数值类型。")
+    
+    # 返回处理好的 DataFrame
+    return X_df
+
+def select_2d_features(X_df, y, k=10):
+    """
+    使用 SelectKBest 选择 2D 描述符的前 k 个特征，
+    返回转换后的特征矩阵和选中特征名称。
+    """
+    selector = SelectKBest(score_func=f_regression, k=k)
+    selector.fit(X_df, y)
+    selected_features = X_df.columns[selector.get_support()].tolist()
+    print("SelectKBest 选中的2D特征：", selected_features)
+    X_selected = selector.transform(X_df)
+    return X_selected, selected_features
+
+# ------------------------ 3D-QSAR特征计算（从 CSV 中 SMILES 生成3D构象） ------------------------
+def generate_3d_mols_from_csv(csv_file, mmffVariant='MMFF94'):
+    """
+    从 CSV 文件中读取 SMILES，生成分子的3D构象（添加氢原子、嵌入构象并进行MMFF能量最小化）。
+    针对大环分子，启用了宏环扭转角优化并增大了嵌入尝试次数。
+    
+    mmffVariant：MMFF94或MMFF94S，默认为 MMFF94
+    
+    返回值：分子列表，每个元素为 (mol, True)
+    """
+    import pandas as pd
+    from rdkit import Chem
+    from rdkit.Chem import AllChem
+    
+    data = pd.read_csv(csv_file)
+    mols = []
+    # 距离几何+ETKDG生成3D构象
+    for smi in data["SMILES"]:
+        mol = Chem.MolFromSmiles(smi)
+        if mol is None:
+            print(f"Warning: 无法从 SMILES {smi} 生成分子。")
+            continue
+        m3d = Chem.AddHs(mol)
+        AllChem.EmbedMolecule(m3d, randomSeed=10, useMacrocycleTorsions=True)
+        # MMFF生成3D构象 优化
+        if m3d.GetNumConformers() > 0:
+            AllChem.MMFFOptimizeMolecule(m3d)
+            mols.append(m3d)
+        else:
+            print(f"Warning: 分子 {smi} 未生成构象。")
+
+    aligned_results = [(mol, True) for mol in mols if mol.GetNumConformers() > 0]
+    return aligned_results
+
+
+def compute_3d_features_with_params_from_csv(csv_file, grid_spacing, padding, alpha):
+    """
+    根据 CSV 文件中的 SMILES 生成分子的3D构象后，利用 MolecularGridCalculator 与 MolecularFieldCalculator 计算3D-QSAR场特征，
+    参数 grid_spacing、padding 和 alpha 可调。
+    返回一个 shape=(n_samples, feature_dim) 的特征矩阵。
+    """
+    # 生成3D分子
+    aligned_results = generate_3d_mols_from_csv(csv_file)
+    
+    grid_calc = MolecularGridCalculator()
+    field_calc = MolecularFieldCalculator()
+    
+    grid_spacing_tuple, grid_dimensions, grid_origin = grid_calc.generate_grid(aligned_results, resolution=grid_spacing, padding=padding)
+    # 修改高斯衰减参数 alpha
+    field_calc.ALPHA = alpha
+    fields_dict = field_calc.calc_field(aligned_results, grid_spacing_tuple, grid_dimensions, grid_origin)
+    
+    selected_field_names = ["steric_field", "electrostatic_field", "hydrophobic_field", "hbond_donor_field", "hbond_acceptor_field"]
+    X_3d_list = []
+    n_mols = len(aligned_results)
+    for i in range(n_mols):
+        feat_vec = []
+        for field in selected_field_names:
+            field_vec = fields_dict['train_fields'][field][i]
+            feat_vec.extend(field_vec)
+        X_3d_list.append(feat_vec)
+    X_3d = np.array(X_3d_list)
+    return X_3d
+
+def split_fields_from_X3d(X_3d_all, field_dims):
+    """
+    根据各场的维度将3D特征矩阵 X_3d_all 拆分为列表，
+    field_dims 为各场展平后特征的维度列表。
+    """
+    fields = []
+    start = 0
+    for dim in field_dims:
+        fields.append(X_3d_all[:, start:start+dim])
+        start += dim
+    return fields
+
+# ------------------------ 模型训练与评估 ------------------------
+def evaluate_model(X, y, random_state=42):
+    """
+    将数据划分为80:20，训练随机森林和 XGBoost 回归模型，
+    返回各模型的 R²、RMSE、MAE 指标字典。
+    """
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)
+    
+    models = {
+        "RandomForest": RandomForestRegressor(random_state=random_state),
+        "XGBoost": xgb.XGBRegressor(random_state=random_state, verbosity=0)
+    }
+    
+    results = {}
+    for name, model in models.items():
+        model.fit(X_train, y_train)
+        y_pred = model.predict(X_test)
+        r2 = r2_score(y_test, y_pred)
+        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
+        mae = mean_absolute_error(y_test, y_pred)
+        results[name] = {"R2": r2, "RMSE": rmse, "MAE": mae}
+    return results
+
+# ------------------------ 超参数调优（Optuna） ------------------------
+def objective(trial):
+    # 超参数：选择使用哪些3D场
+    use_steric = trial.suggest_categorical("use_steric", [True, False])
+    use_electrostatic = trial.suggest_categorical("use_electrostatic", [True, False])
+    use_hydrophobic = trial.suggest_categorical("use_hydrophobic", [True, False])
+    use_hbond_donor = trial.suggest_categorical("use_hbond_donor", [True, False])
+    use_hbond_acceptor = trial.suggest_categorical("use_hbond_acceptor", [True, False])
+    
+    # 对每个场设置权重（若未选中则为0）
+    weight_steric = trial.suggest_float("weight_steric", 0.0, 2.0) if use_steric else 0.0
+    weight_electrostatic = trial.suggest_float("weight_electrostatic", 0.0, 2.0) if use_electrostatic else 0.0
+    weight_hydrophobic = trial.suggest_float("weight_hydrophobic", 0.0, 2.0) if use_hydrophobic else 0.0
+    weight_hbond_donor = trial.suggest_float("weight_hbond_donor", 0.0, 2.0) if use_hbond_donor else 0.0
+    weight_hbond_acceptor = trial.suggest_float("weight_hbond_acceptor", 0.0, 2.0) if use_hbond_acceptor else 0.0
+
+    # 网格与衰减参数
+    grid_spacing = trial.suggest_float("grid_spacing", 0.5, 2.0)
+    alpha = trial.suggest_float("alpha", 0.1, 1.0)
+    
+    # 随机森林超参数
+    n_estimators = trial.suggest_int("n_estimators", 50, 300)
+    max_depth = trial.suggest_int("max_depth", 3, 15)
+    
+    # 计算3D特征（从 CSV 中生成3D构象）
+    csv_file = click.get_current_context().params.get("data_smi")
+    X_3d_all = compute_3d_features_with_params_from_csv(csv_file, grid_spacing=grid_spacing, padding=3, alpha=alpha)
+    # 假设每个场展平后的维度为 total_dim/5
+    dim_per_field = X_3d_all.shape[1] // 5
+    field_dims = [dim_per_field] * 5
+    X_3d_fields = split_fields_from_X3d(X_3d_all, field_dims)
+    
+    # 根据选择情况与权重组合3D特征
+    selected_fields = []
+    for flag, weight, field in zip(
+            [use_steric, use_electrostatic, use_hydrophobic, use_hbond_donor, use_hbond_acceptor],
+            [weight_steric, weight_electrostatic, weight_hydrophobic, weight_hbond_donor, weight_hbond_acceptor],
+            X_3d_fields):
+        if flag:
+            selected_fields.append(field * weight)
+    if selected_fields:
+        X_3d_selected = np.hstack(selected_fields)
+    else:
+        X_3d_selected = np.zeros((X_3d_all.shape[0], 1))
+    
+    # 读取2D特征（SelectKBest后的结果）
+    data = pd.read_csv(csv_file)
+    target = click.get_current_context().params.get("target")
+    y = data[target].values
+    X_df = compute_2d_features(csv_file)
+    X_2d_selected, _ = select_2d_features(X_df, y, k=10)
+    
+    # 合并2D与3D特征
+    X_combined = np.hstack((X_2d_selected, X_3d_selected))
+    
+    # 划分训练/验证集并评估模型
+    X_train, X_val, y_train, y_val = train_test_split(X_combined, y, test_size=0.2, random_state=42)
+    model = RandomForestRegressor(n_estimators=n_estimators, max_depth=max_depth, random_state=42)
+    model.fit(X_train, y_train)
+    y_pred = model.predict(X_val)
+    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
+    return rmse
+
+# ------------------------ 主程序入口（Click命令行） ------------------------
+@click.command()
+@click.option('--data-smi', required=True, type=click.Path(exists=True),
+              help="包含 SMILES 和目标变量的 CSV 文件路径。")
+@click.option('--target', default="MIC_LOG_ATCC25923",
+              help="目标变量列名，默认：MIC_LOG_ATCC25923。")
+def cli(data_smi, target):
+    """
+    通过命令行启动QSAR模型训练和超参数调优流程。
+
+    示例：
+        python main.py --data-smi data_smi.csv --target MIC_LOG_ATCC25923
+    """
+    ctx = click.get_current_context()
+    ctx.params["data_smi"] = data_smi
+    ctx.params["target"] = target
+
+    # 计算2D描述符和SelectKBest特征
+    data = pd.read_csv(data_smi)
+    y = data[target].values
+    X_df = compute_2d_features(data_smi)
+    X_2d_selected, selected_feats = select_2d_features(X_df, y, k=10)
+    click.echo("2D特征选择完毕：{}".format(selected_feats))
+    
+    # 计算3D特征（从 CSV 中 SMILES生成3D构象）
+    X_3d = compute_3d_features_with_params_from_csv(data_smi, grid_spacing=1.0, padding=3, alpha=0.3)
+    click.echo("3D特征计算完毕。")
+    
+    # 合并2D与3D特征
+    X_combined = np.hstack((X_2d_selected, X_3d))
+    
+    click.echo("开始初步模型训练评估（不调超参）...")
+    results_2d = evaluate_model(X_2d_selected, y)
+    results_combined = evaluate_model(X_combined, y)
+    click.echo("仅2D描述符模型结果：{}".format(results_2d))
+    click.echo("2D + 3D描述符模型结果：{}".format(results_combined))
+    
+    click.echo("开始使用Optuna进行超参数调优...")
+    study = optuna.create_study(direction="minimize")
+    study.optimize(objective, n_trials=50)
+    click.echo("Optuna最佳试验结果：")
+    click.echo(study.best_trial)
+
+if __name__ == "__main__":
+    cli()
+# python main.py --data-smi /root/project/qsar/1d-qsar/data_smi.csv --target MIC_LOG_ATCC25923