chore(validation-output): add gt3 fragment export

Track refreshed validation outputs and add a filtered fragment library export that retains only side-chain fragments with more than 3 heavy atoms.
feat(validation): enforce single-anchor fragments
2026-03-19 21:20:56 +08:00 · 2026-03-19 14:20:32 +08:00 · 2026-03-19 12:20:12 +08:00 · 2026-03-19 11:45:02 +08:00 · 2026-03-19 11:44:56 +08:00
17 changed files with 17928 additions and 31 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -68,3 +68,4 @@ data/
 output/
 site/
 # docs/ source files should be tracked, only ignore generated site/
 validation_output/
--- a/README.md
+++ b/README.md
@@ -62,6 +62,96 @@ pixi run macro-lactone-toolkit fragment \
 默认读取 `smiles` 列；若存在 `id` 列则将其作为 `parent_id`，否则自动生成 `row_<index>`。
 ## MacrolactoneDB 验证模块
 用于对 MacrolactoneDB 数据库进行抽样验证、分类、侧链断裂和数据库存储。
 ### 验证脚本使用
 ```bash
 # 基本使用（10% 分层抽样）
 pixi run python scripts/validate_macrolactone_db.py \
  --input data/MacrolactoneDB/ring12_20/temp.csv \
  --output validation_output \
  --sample-ratio 0.1
 # 处理全量数据
 pixi run python scripts/validate_macrolactone_db.py \
  --input data/MacrolactoneDB/ring12_20/temp.csv \
  --output validation_output \
  --sample-ratio 1.0
 # 指定列名（如果 CSV 列名不同）
 pixi run python scripts/validate_macrolactone_db.py \
  --input data.csv \
  --output validation_output \
  --id-col ml_id \
  --chembl-id-col IDs \
  --smiles-col smiles
 ```
 ### 输出结构
 ```
 validation_output/
 ├── README.md                    # 目录说明
 ├── fragments.db                 # SQLite 数据库
 ├── fragment_library.csv         # 最终片段库导出（含 has_dummy_atom / splice_ready）
 ├── summary.csv                  # 汇总表（含 ml_id, chembl_id）
 ├── summary_statistics.json      # 统计信息
 ├── ring_size_12/                # 按环大小组织
 ├── ring_size_13/
 ...
 └── ring_size_20/
    ├── standard/
    │   ├── numbered/            # 带编号的环图（文件名使用 ml_id）
    │   │   └── {ml_id}_numbered.png
    │   └── sidechains/          # 片段图
    │       └── {ml_id}/
    │           └── {ml_id}_frag_{n}_pos{pos}.png
    ├── non_standard/original/
    └── rejected/original/
 ```
 ### 数据库查询示例
 ```bash
 # 查看表结构
 sqlite3 validation_output/fragments.db ".tables"
 # 查询标准大环内酯
 sqlite3 validation_output/fragments.db \
  "SELECT ml_id, chembl_id, ring_size, num_sidechains \
   FROM parent_molecules \
   WHERE classification='standard_macrolactone' LIMIT 5;"
 # 查询最终片段库
 sqlite3 validation_output/fragments.db \
  "SELECT source_type, source_parent_ml_id, cleavage_position, has_dummy_atom, splice_ready \
   FROM fragment_library_entries LIMIT 10;"
 # 查询片段
 sqlite3 validation_output/fragments.db \
  "SELECT fragment_id, cleavage_position, dummy_isotope, has_dummy_atom, dummy_atom_count \
   FROM side_chain_fragments LIMIT 10;"
 # 按环大小统计
 sqlite3 validation_output/fragments.db \
  "SELECT ring_size, COUNT(*) FROM parent_molecules GROUP BY ring_size;"
 ```
 ### 关键字段说明
 | 字段 | 说明 |
 |------|------|
 | `ml_id` | MacrolactoneDB 唯一 ID（如 ML00000001），用于文件命名 |
 | `chembl_id` | 原始 CHEMBL ID（如 CHEMBL94657），可能为空 |
 | `classification` | standard_macrolactone / non_standard_macrocycle / not_macrolactone |
 | `dummy_isotope` | 裂解位置编号，用于片段重建 |
 | `cleavage_position` | 环上的断裂位置 |
 | `has_dummy_atom` | 该片段是否带 dummy 原子，可用于区分可直接拼接片段 |
 | `splice_ready` | 是否与当前单锚点拼接流程直接兼容 |
 ## Legacy Scripts
 `scripts/` 目录保留为薄封装或迁移提示，不再承载核心实现。正式接口以 `macro_lactone_toolkit.*` 与 `macro-lactone-toolkit` CLI 为准。
--- a/scripts/validate_macrolactone_db.py
+++ b/scripts/validate_macrolactone_db.py
@@ -50,8 +50,14 @@ def main():
    parser.add_argument(
        "--id-col",
        type=str,
        default="ml_id",
        help="ID column name (default: ml_id)",
    )
    parser.add_argument(
        "--chembl-id-col",
        type=str,
        default="IDs",
-        help="ID column name",
+        help="CHEMBL ID column name (default: IDs)",
    )
    args = parser.parse_args()
@@ -69,6 +75,7 @@ def main():
        sample_ratio=args.sample_ratio,
        smiles_col=args.smiles_col,
        id_col=args.id_col,
        chembl_id_col=args.chembl_id_col,
    )
    results = validator.run(args.input)
--- a/src/macro_lactone_toolkit/_core.py
+++ b/src/macro_lactone_toolkit/_core.py
@@ -272,6 +272,44 @@ def collect_side_chain_atoms(
    return side_chain_atoms
 def find_side_chain_ring_connections(
    mol: Chem.Mol,
    side_chain_atoms: Iterable[int],
    ring_atom_indices: Iterable[int],
 ) -> list[tuple[int, int]]:
    ring_atom_set = set(ring_atom_indices)
    connections: set[tuple[int, int]] = set()
    for atom_idx in side_chain_atoms:
        atom = mol.GetAtomWithIdx(atom_idx)
        for neighbor in atom.GetNeighbors():
            neighbor_idx = neighbor.GetIdx()
            if neighbor_idx in ring_atom_set:
                connections.add((atom_idx, neighbor_idx))
    return sorted(connections, key=lambda connection: (connection[1], connection[0]))
 def collect_fragmentable_side_chain_atoms(
    mol: Chem.Mol,
    start_atom_idx: int,
    ring_atom_indices: Iterable[int],
    ring_atom_idx: int | None = None,
 ) -> list[int] | None:
    side_chain_atoms = collect_side_chain_atoms(mol, start_atom_idx, ring_atom_indices)
    if not side_chain_atoms:
        return None
    ring_connections = find_side_chain_ring_connections(mol, side_chain_atoms, ring_atom_indices)
    if len(ring_connections) != 1:
        return None
    if ring_atom_idx is not None and ring_connections[0][1] != ring_atom_idx:
        return None
    return side_chain_atoms
 def is_intrinsic_lactone_neighbor(
    mol: Chem.Mol,
    candidate: DetectedMacrolactone,
--- a/src/macro_lactone_toolkit/fragmenter.py
+++ b/src/macro_lactone_toolkit/fragmenter.py
@@ -6,7 +6,7 @@ from rdkit.Chem import Descriptors
 from ._core import (
    build_fragment_smiles,
    build_numbering_result,
-    collect_side_chain_atoms,
+    collect_fragmentable_side_chain_atoms,
    ensure_mol,
    find_macrolactone_candidates,
    is_intrinsic_lactone_neighbor,
@@ -44,6 +44,8 @@ class MacrolactoneFragmenter:
        fragments: list[SideChainFragment] = []
        for position, ring_atom_idx in numbering.position_to_atom.items():
            if int(position) <= 2:
                continue
            ring_atom = mol.GetAtomWithIdx(ring_atom_idx)
            for neighbor in ring_atom.GetNeighbors():
                neighbor_idx = neighbor.GetIdx()
@@ -52,8 +54,13 @@ class MacrolactoneFragmenter:
                if is_intrinsic_lactone_neighbor(mol, candidate, ring_atom_idx, neighbor_idx):
                    continue
-                side_chain_atoms = collect_side_chain_atoms(mol, neighbor_idx, ring_atom_set)
+                side_chain_atoms = collect_fragmentable_side_chain_atoms(
-                if not side_chain_atoms:
+                    mol=mol,
                    start_atom_idx=neighbor_idx,
                    ring_atom_indices=ring_atom_set,
                    ring_atom_idx=ring_atom_idx,
                )
                if side_chain_atoms is None:
                    continue
                try:
--- a/src/macro_lactone_toolkit/splicing/scaffold_prep.py
+++ b/src/macro_lactone_toolkit/splicing/scaffold_prep.py
@@ -4,7 +4,7 @@ from typing import Iterable
 from rdkit import Chem
-from .._core import collect_side_chain_atoms, ensure_mol, find_macrolactone_candidates, is_intrinsic_lactone_neighbor
+from .._core import collect_fragmentable_side_chain_atoms, ensure_mol, find_macrolactone_candidates, is_intrinsic_lactone_neighbor
 from ..fragmenter import MacrolactoneFragmenter
@@ -26,22 +26,36 @@ def prepare_macrolactone_scaffold(
    for position in positions:
        if position not in numbering.position_to_atom:
            raise ValueError(f"Position {position} not found in ring numbering.")
        if position <= 2:
            raise ValueError(f"Position {position} does not contain a single-anchor fragmentable side chain")
        ring_atom_idx = numbering.position_to_atom[position]
        ring_atom = mol.GetAtomWithIdx(ring_atom_idx)
        position_dummy_specs: list[tuple[int, int, Chem.BondType]] = []
        for neighbor in ring_atom.GetNeighbors():
            neighbor_idx = neighbor.GetIdx()
            if neighbor_idx in ring_atom_set:
                continue
            if is_intrinsic_lactone_neighbor(mol, candidate, ring_atom_idx, neighbor_idx):
                continue
-            side_chain_atoms = collect_side_chain_atoms(mol, neighbor_idx, ring_atom_set)
+            side_chain_atoms = collect_fragmentable_side_chain_atoms(
                mol=mol,
                start_atom_idx=neighbor_idx,
                ring_atom_indices=ring_atom_set,
                ring_atom_idx=ring_atom_idx,
            )
            if side_chain_atoms is None:
                continue
            atoms_to_remove.update(side_chain_atoms)
            bond = mol.GetBondBetweenAtoms(ring_atom_idx, neighbor_idx)
            if bond is not None:
-                dummy_specs.append((ring_atom_idx, position, bond.GetBondType()))
+                position_dummy_specs.append((ring_atom_idx, position, bond.GetBondType()))
-        if not any(spec_position == position for _, spec_position, _ in dummy_specs):
+        if not position_dummy_specs:
-            dummy_specs.append((ring_atom_idx, position, Chem.BondType.SINGLE))
+            raise ValueError(f"Position {position} does not contain a single-anchor fragmentable side chain")
        if len(position_dummy_specs) > 1:
            raise ValueError(f"Position {position} contains multiple fragmentable side chains")
        dummy_specs.extend(position_dummy_specs)
    rwmol = Chem.RWMol(mol)
    for ring_atom_idx, position, bond_type in dummy_specs:
--- a/src/macro_lactone_toolkit/validation/models.py
+++ b/src/macro_lactone_toolkit/validation/models.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
-from datetime import datetime
+from datetime import UTC, datetime
 from typing import List, Optional
 from sqlalchemy.orm import Mapped, mapped_column, relationship
@@ -27,7 +27,8 @@ class ParentMolecule(SQLModel, table=True):
    __tablename__ = "parent_molecules"
    id: Optional[int] = Field(default=None, primary_key=True)
-    source_id: str = Field(index=True)
+    ml_id: str = Field(index=True)  # MacrolactoneDB unique ID (e.g., ML00000001)
    chembl_id: Optional[str] = Field(default=None, index=True)  # Original CHEMBL ID
    molecule_name: Optional[str] = None
    smiles: str = Field(index=True)
    classification: str = Field(index=True)
@@ -39,7 +40,7 @@ class ParentMolecule(SQLModel, table=True):
    num_sidechains: Optional[int] = None
    cleavage_positions: Optional[str] = None
    numbered_image_path: Optional[str] = None
-    created_at: datetime = Field(default_factory=datetime.utcnow)
+    created_at: datetime = Field(default_factory=lambda: datetime.now(UTC))
    processed_at: Optional[datetime] = None
@@ -71,6 +72,8 @@ class SideChainFragment(SQLModel, table=True):
    fragment_smiles_labeled: str
    fragment_smiles_plain: str
    dummy_isotope: int
    has_dummy_atom: bool = Field(default=True)
    dummy_atom_count: int = Field(default=1)
    atom_count: int
    heavy_atom_count: int
    molecular_weight: float
@@ -78,6 +81,26 @@ class SideChainFragment(SQLModel, table=True):
    image_path: Optional[str] = None
 class FragmentLibraryEntry(SQLModel, table=True):
    """Unified fragment library entries."""
    __tablename__ = "fragment_library_entries"
    id: Optional[int] = Field(default=None, primary_key=True)
    source_type: str = Field(index=True)
    source_fragment_id: Optional[str] = Field(default=None, index=True)
    source_parent_ml_id: Optional[str] = Field(default=None, index=True)
    source_parent_chembl_id: Optional[str] = Field(default=None, index=True)
    cleavage_position: Optional[int] = Field(default=None, index=True)
    fragment_smiles_labeled: Optional[str] = None
    fragment_smiles_plain: str
    has_dummy_atom: bool = Field(default=False)
    dummy_atom_count: int = Field(default=0)
    splice_ready: bool = Field(default=False, index=True)
    original_bond_type: Optional[str] = None
    created_at: datetime = Field(default_factory=lambda: datetime.now(UTC))
 class ValidationResult(SQLModel, table=True):
    """Manual validation records."""
--- a/src/macro_lactone_toolkit/validation/validator.py
+++ b/src/macro_lactone_toolkit/validation/validator.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 import json
-from datetime import datetime
+from datetime import UTC, datetime
 from pathlib import Path
 import pandas as pd
@@ -12,7 +12,7 @@ from sqlmodel import select
 from macro_lactone_toolkit import MacroLactoneAnalyzer
 from macro_lactone_toolkit._core import (
    build_numbering_result,
-    collect_side_chain_atoms,
+    collect_fragmentable_side_chain_atoms,
    find_macrolactone_candidates,
    is_intrinsic_lactone_neighbor,
 )
@@ -20,6 +20,7 @@ from macro_lactone_toolkit.validation.database import get_engine, get_session, i
 from macro_lactone_toolkit.validation.isotope_utils import build_fragment_with_isotope
 from macro_lactone_toolkit.validation.models import (
    ClassificationType,
    FragmentLibraryEntry,
    ParentMolecule,
    ProcessingStatus,
    RingNumbering,
@@ -41,12 +42,14 @@ class MacrolactoneValidator:
        output_dir: str | Path,
        sample_ratio: float = 0.1,
        smiles_col: str = "smiles",
-        id_col: str = "IDs",
+        id_col: str = "ml_id",
        chembl_id_col: str = "IDs",
    ):
        self.output_dir = Path(output_dir)
        self.sample_ratio = sample_ratio
        self.smiles_col = smiles_col
        self.id_col = id_col
        self.chembl_id_col = chembl_id_col
        self.analyzer = MacroLactoneAnalyzer()
@@ -78,12 +81,14 @@ class MacrolactoneValidator:
        # Generate outputs
        self._generate_readme()
        self._generate_summary()
        self._generate_fragment_library()
        return results
    def _process_molecule(self, row: pd.Series) -> str:
        """Process a single molecule. Returns status."""
-        source_id = str(row[self.id_col])
+        ml_id = str(row[self.id_col])
        chembl_id = str(row[self.chembl_id_col]) if self.chembl_id_col in row and pd.notna(row[self.chembl_id_col]) else None
        smiles = row[self.smiles_col]
        name = row.get("molecule_pref_name", None)
@@ -105,7 +110,8 @@ class MacrolactoneValidator:
        # Create parent record
        parent = ParentMolecule(
-            source_id=source_id,
+            ml_id=ml_id,
            chembl_id=chembl_id,
            molecule_name=name,
            smiles=smiles,
            classification=classification,
@@ -124,7 +130,7 @@ class MacrolactoneValidator:
                parent.processing_status = ProcessingStatus.SKIPPED
                session.add(parent)
                session.commit()
-                self._save_original_image(smiles, source_id, ring_size, classification)
+                self._save_original_image(smiles, ml_id, ring_size, classification)
                return "skipped"
            # Process standard macrolactone
@@ -134,7 +140,7 @@ class MacrolactoneValidator:
            except Exception as e:
                parent.processing_status = ProcessingStatus.FAILED
                parent.error_message = str(e)
-                parent.processed_at = datetime.utcnow()
+                parent.processed_at = datetime.now(UTC)
                session.add(parent)
                session.commit()
                return "failed"
@@ -172,7 +178,7 @@ class MacrolactoneValidator:
        # Save numbered image
        paths = get_output_paths(
-            self.output_dir, parent.source_id, parent.ring_size, "standard_macrolactone"
+            self.output_dir, parent.ml_id, parent.ring_size, "standard_macrolactone"
        )
        image_path = save_numbered_molecule(smiles, paths["numbered_image"], parent.ring_size)
        if image_path:
@@ -184,6 +190,8 @@ class MacrolactoneValidator:
        fragment_idx = 0
        for position, ring_atom_idx in numbering.position_to_atom.items():
            if int(position) <= 2:
                continue
            ring_atom = mol.GetAtomWithIdx(ring_atom_idx)
            for neighbor in ring_atom.GetNeighbors():
@@ -196,8 +204,13 @@ class MacrolactoneValidator:
                    continue
                # Collect side chain atoms
-                side_chain_atoms = collect_side_chain_atoms(mol, neighbor_idx, ring_atom_set)
+                side_chain_atoms = collect_fragmentable_side_chain_atoms(
-                if not side_chain_atoms:
+                    mol=mol,
                    start_atom_idx=neighbor_idx,
                    ring_atom_indices=ring_atom_set,
                    ring_atom_idx=ring_atom_idx,
                )
                if side_chain_atoms is None:
                    continue
                # Build fragment with isotope tagging
@@ -217,13 +230,15 @@ class MacrolactoneValidator:
                # Create fragment record
                fragment = SideChainFragment(
                    parent_id=parent.id,
-                    fragment_id=f"{parent.source_id}_frag_{fragment_idx}",
+                    fragment_id=f"{parent.ml_id}_frag_{fragment_idx}",
                    cleavage_position=int(position),
                    attachment_atom_idx=ring_atom_idx,
                    attachment_atom_symbol=ring_atom.GetSymbol(),
                    fragment_smiles_labeled=labeled_smiles,
                    fragment_smiles_plain=plain_smiles,
                    dummy_isotope=int(position),
                    has_dummy_atom=True,
                    dummy_atom_count=1,
                    atom_count=atom_count,
                    heavy_atom_count=heavy_atom_count,
                    molecular_weight=round(mw, 4),
@@ -231,11 +246,26 @@ class MacrolactoneValidator:
                )
                session.add(fragment)
                fragments.append(fragment)
                session.add(
                    FragmentLibraryEntry(
                        source_type="validation_extract",
                        source_fragment_id=fragment.fragment_id,
                        source_parent_ml_id=parent.ml_id,
                        source_parent_chembl_id=parent.chembl_id,
                        cleavage_position=int(position),
                        fragment_smiles_labeled=labeled_smiles,
                        fragment_smiles_plain=plain_smiles,
                        has_dummy_atom=True,
                        dummy_atom_count=1,
                        splice_ready=True,
                        original_bond_type=bond_type,
                    )
                )
                fragment_idx += 1
        # Save fragment images
        if fragments and paths["sidechains_dir"]:
-            image_paths = save_fragment_images(fragments, paths["sidechains_dir"], parent.source_id)
+            image_paths = save_fragment_images(fragments, paths["sidechains_dir"], parent.ml_id)
            for frag, img_path in zip(fragments, image_paths):
                frag.image_path = img_path
                session.add(frag)
@@ -244,13 +274,13 @@ class MacrolactoneValidator:
        parent.processing_status = ProcessingStatus.SUCCESS
        parent.num_sidechains = len(fragments)
        parent.cleavage_positions = json.dumps([f.cleavage_position for f in fragments])
-        parent.processed_at = datetime.utcnow()
+        parent.processed_at = datetime.now(UTC)
        session.add(parent)
        session.commit()
-    def _save_original_image(self, smiles: str, source_id: str, ring_size: int, classification: str):
+    def _save_original_image(self, smiles: str, ml_id: str, ring_size: int, classification: str):
        """Save original image for non-standard molecules."""
-        paths = get_output_paths(self.output_dir, source_id, ring_size, classification)
+        paths = get_output_paths(self.output_dir, ml_id, ring_size, classification)
        try:
            from rdkit.Chem import Draw
@@ -272,6 +302,7 @@ This directory contains validation results for MacrolactoneDB 12-20 membered rin
 validation_output/
 ├── README.md                    # This file
 ├── fragments.db                 # SQLite database with all data
 ├── fragment_library.csv         # Unified fragment library export
 ├── summary.csv                  # Summary of all processed molecules
 ├── summary_statistics.json      # Statistical summary
 │
@@ -301,6 +332,7 @@ validation_output/
 - **parent_molecules**: Original molecule information
 - **ring_numberings**: Ring atom numbering details
 - **side_chain_fragments**: Fragmentation results with isotope tags
 - **fragment_library_entries**: Unified fragment library rows for downstream design
 - **validation_results**: Manual validation records
 ### Key Fields
@@ -308,6 +340,8 @@ validation_output/
 - `classification`: standard_macrolactone | non_standard_macrocycle | not_macrolactone
 - `dummy_isotope`: Cleavage position stored as isotope value for reconstruction
 - `cleavage_position`: Position on ring where side chain was attached
 - `has_dummy_atom`: Whether the fragment contains a dummy atom for splicing
 - `dummy_atom_count`: Number of dummy atoms in the fragment
 ## Ring Numbering Convention
@@ -325,13 +359,21 @@ Fragments use isotope values to mark cleavage position:
 ### summary.csv
- `source_id`: Original molecule ID from MacrolactoneDB
+- `ml_id`: MacrolactoneDB unique ID (e.g., ML00000001)
 - `chembl_id`: Original CHEMBL ID (if available)
 - `classification`: Classification result
 - `ring_size`: Detected ring size (12-20)
 - `num_sidechains`: Number of side chains detected
 - `cleavage_positions`: JSON array of cleavage positions
 - `processing_status`: pending | success | failed | skipped
 ### fragment_library.csv
 - `source_type`: validation_extract | supplemental (reserved)
 - `has_dummy_atom`: Whether the fragment contains a dummy atom
 - `dummy_atom_count`: Number of dummy atoms
 - `splice_ready`: Whether the fragment is directly compatible with single-anchor splicing
 ## Querying the Database
 ```bash
@@ -363,7 +405,8 @@ sqlite3 fragments.db "SELECT ring_size, COUNT(*) FROM parent_molecules GROUP BY
            for p in parents:
                data.append({
                    "id": p.id,
-                    "source_id": p.source_id,
+                    "ml_id": p.ml_id,
                    "chembl_id": p.chembl_id,
                    "molecule_name": p.molecule_name,
                    "smiles": p.smiles,
                    "classification": p.classification,
@@ -395,6 +438,47 @@ sqlite3 fragments.db "SELECT ring_size, COUNT(*) FROM parent_molecules GROUP BY
            print(f"\nSummary saved to {self.output_dir / 'summary.csv'}")
            print(f"Statistics: {stats}")
    def _generate_fragment_library(self):
        """Generate unified fragment library CSV."""
        columns = [
            "id",
            "source_type",
            "source_fragment_id",
            "source_parent_ml_id",
            "source_parent_chembl_id",
            "cleavage_position",
            "fragment_smiles_labeled",
            "fragment_smiles_plain",
            "has_dummy_atom",
            "dummy_atom_count",
            "splice_ready",
            "original_bond_type",
            "created_at",
        ]
        with get_session(self.engine) as session:
            entries = session.exec(select(FragmentLibraryEntry)).all()
            data = [
                {
                    "id": entry.id,
                    "source_type": entry.source_type,
                    "source_fragment_id": entry.source_fragment_id,
                    "source_parent_ml_id": entry.source_parent_ml_id,
                    "source_parent_chembl_id": entry.source_parent_chembl_id,
                    "cleavage_position": entry.cleavage_position,
                    "fragment_smiles_labeled": entry.fragment_smiles_labeled,
                    "fragment_smiles_plain": entry.fragment_smiles_plain,
                    "has_dummy_atom": entry.has_dummy_atom,
                    "dummy_atom_count": entry.dummy_atom_count,
                    "splice_ready": entry.splice_ready,
                    "original_bond_type": entry.original_bond_type,
                    "created_at": entry.created_at,
                }
                for entry in entries
            ]
        pd.DataFrame(data, columns=columns).to_csv(self.output_dir / "fragment_library.csv", index=False)
 class MacrolactoneDetectionError(Exception):
    """Raised when macrolactone detection fails."""
--- a/tests/helpers.py
+++ b/tests/helpers.py
@@ -78,6 +78,108 @@ def build_non_standard_ring_atom_macrolactone(
    )
 def build_macrolactone_with_fused_side_ring(
    ring_size: int = 16,
    fused_positions: tuple[int, int] = (5, 6),
    side_chains: Mapping[int, str] | None = None,
 ) -> BuiltMacrolactone:
    base = build_macrolactone(ring_size=ring_size, side_chains=side_chains)
    position_a, position_b = fused_positions
    rwmol = Chem.RWMol(Chem.Mol(base.mol))
    atom_x = rwmol.AddAtom(Chem.Atom("C"))
    atom_y = rwmol.AddAtom(Chem.Atom("C"))
    rwmol.AddBond(base.position_to_atom[position_a], atom_x, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_x, atom_y, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_y, base.position_to_atom[position_b], Chem.BondType.SINGLE)
    mol = rwmol.GetMol()
    Chem.SanitizeMol(mol)
    return BuiltMacrolactone(
        mol=mol,
        smiles=Chem.MolToSmiles(mol, isomericSmiles=True),
        position_to_atom=base.position_to_atom,
    )
 def build_macrolactone_with_bridge_side_chain(
    ring_size: int = 16,
    bridge_positions: tuple[int, int] = (5, 8),
    side_chains: Mapping[int, str] | None = None,
 ) -> BuiltMacrolactone:
    base = build_macrolactone(ring_size=ring_size, side_chains=side_chains)
    position_a, position_b = bridge_positions
    rwmol = Chem.RWMol(Chem.Mol(base.mol))
    atom_x = rwmol.AddAtom(Chem.Atom("C"))
    atom_y = rwmol.AddAtom(Chem.Atom("C"))
    rwmol.AddBond(base.position_to_atom[position_a], atom_x, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_x, atom_y, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_y, base.position_to_atom[position_b], Chem.BondType.SINGLE)
    mol = rwmol.GetMol()
    Chem.SanitizeMol(mol)
    return BuiltMacrolactone(
        mol=mol,
        smiles=Chem.MolToSmiles(mol, isomericSmiles=True),
        position_to_atom=base.position_to_atom,
    )
 def build_macrolactone_with_shared_atom_side_ring(
    ring_size: int = 16,
    position: int = 5,
    side_chains: Mapping[int, str] | None = None,
 ) -> BuiltMacrolactone:
    base = build_macrolactone(ring_size=ring_size, side_chains=side_chains)
    rwmol = Chem.RWMol(Chem.Mol(base.mol))
    atom_x = rwmol.AddAtom(Chem.Atom("C"))
    atom_y = rwmol.AddAtom(Chem.Atom("C"))
    atom_z = rwmol.AddAtom(Chem.Atom("C"))
    ring_atom_idx = base.position_to_atom[position]
    rwmol.AddBond(ring_atom_idx, atom_x, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_x, atom_y, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_y, atom_z, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_z, ring_atom_idx, Chem.BondType.SINGLE)
    mol = rwmol.GetMol()
    Chem.SanitizeMol(mol)
    return BuiltMacrolactone(
        mol=mol,
        smiles=Chem.MolToSmiles(mol, isomericSmiles=True),
        position_to_atom=base.position_to_atom,
    )
 def build_macrolactone_with_single_anchor_side_ring(
    ring_size: int = 16,
    position: int = 5,
    side_chains: Mapping[int, str] | None = None,
 ) -> BuiltMacrolactone:
    base = build_macrolactone(ring_size=ring_size, side_chains=side_chains)
    rwmol = Chem.RWMol(Chem.Mol(base.mol))
    atom_x = rwmol.AddAtom(Chem.Atom("C"))
    atom_y = rwmol.AddAtom(Chem.Atom("C"))
    atom_z = rwmol.AddAtom(Chem.Atom("C"))
    ring_atom_idx = base.position_to_atom[position]
    rwmol.AddBond(ring_atom_idx, atom_x, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_x, atom_y, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_y, atom_z, Chem.BondType.SINGLE)
    rwmol.AddBond(atom_z, atom_x, Chem.BondType.SINGLE)
    mol = rwmol.GetMol()
    Chem.SanitizeMol(mol)
    return BuiltMacrolactone(
        mol=mol,
        smiles=Chem.MolToSmiles(mol, isomericSmiles=True),
        position_to_atom=base.position_to_atom,
    )
 def build_overlapping_candidate_macrolactone() -> BuiltMacrolactone:
    rwmol = Chem.RWMol()
--- a/tests/test_fragmentation.py
+++ b/tests/test_fragmentation.py
@@ -2,7 +2,12 @@ from rdkit import Chem
 from macro_lactone_toolkit import MacrolactoneFragmenter
-from .helpers import build_macrolactone
+from .helpers import (
    build_macrolactone,
    build_macrolactone_with_fused_side_ring,
    build_macrolactone_with_shared_atom_side_ring,
    build_macrolactone_with_single_anchor_side_ring,
 )
 def test_fragmentation_returns_empty_list_without_sidechains():
@@ -51,3 +56,24 @@ def test_fragmentation_preserves_attachment_bond_type():
        neighbor = dummy_atom.GetNeighbors()[0]
        bond = mol.GetBondBetweenAtoms(dummy_atom.GetIdx(), neighbor.GetIdx())
        assert bond.GetBondType() == Chem.BondType.DOUBLE
 def test_fragmentation_skips_fused_side_ring_but_keeps_single_anchor_sidechains():
    built = build_macrolactone_with_fused_side_ring(side_chains={10: "methyl"})
    result = MacrolactoneFragmenter().fragment_molecule(built.smiles, parent_id="fused")
    assert {fragment.cleavage_position for fragment in result.fragments} == {10}
 def test_fragmentation_skips_shared_atom_multi_anchor_component():
    built = build_macrolactone_with_shared_atom_side_ring(side_chains={11: "ethyl"})
    result = MacrolactoneFragmenter().fragment_molecule(built.smiles, parent_id="shared_atom")
    assert {fragment.cleavage_position for fragment in result.fragments} == {11}
 def test_fragmentation_allows_single_anchor_side_ring():
    built = build_macrolactone_with_single_anchor_side_ring()
    result = MacrolactoneFragmenter().fragment_molecule(built.smiles, parent_id="single_anchor_ring")
    assert {fragment.cleavage_position for fragment in result.fragments} == {5}
--- a/tests/test_splicing_engine.py
+++ b/tests/test_splicing_engine.py
@@ -5,7 +5,7 @@ from macro_lactone_toolkit import MacrolactoneFragmenter
 from macro_lactone_toolkit.splicing.engine import splice_molecule
 from macro_lactone_toolkit.splicing.scaffold_prep import prepare_macrolactone_scaffold
-from .helpers import build_macrolactone, canonicalize
+from .helpers import build_macrolactone, build_macrolactone_with_fused_side_ring, canonicalize
 def test_splice_benzene_methyl():
@@ -49,3 +49,14 @@ def test_prepare_scaffold_and_reassemble_fragment():
    product = splice_molecule(scaffold, Chem.MolFromSmiles(fragment.fragment_smiles_labeled), position=5)
    assert canonicalize(product) == canonicalize(built.mol)
 def test_prepare_scaffold_rejects_position_without_single_anchor_fragment():
    built = build_macrolactone_with_fused_side_ring(side_chains={10: "methyl"})
    with pytest.raises(ValueError, match="Position 5 does not contain a single-anchor fragmentable side chain"):
        prepare_macrolactone_scaffold(
            built.smiles,
            positions=[5],
            ring_size=16,
        )
--- a/tests/validation/test_validator.py
+++ b/tests/validation/test_validator.py
@@ -0,0 +1,57 @@
 from __future__ import annotations
 import json
 import sqlite3
 import pandas as pd
 from macro_lactone_toolkit.validation.validator import MacrolactoneValidator
 from ..helpers import build_macrolactone_with_fused_side_ring
 def test_validator_exports_only_single_anchor_fragments_and_fragment_library(tmp_path):
    built = build_macrolactone_with_fused_side_ring(side_chains={10: "methyl"})
    input_path = tmp_path / "input.csv"
    output_dir = tmp_path / "validation_output"
    pd.DataFrame(
        [
            {
                "ml_id": "ML00000001",
                "IDs": "CHEMBL0001",
                "smiles": built.smiles,
            }
        ]
    ).to_csv(input_path, index=False)
    validator = MacrolactoneValidator(output_dir=output_dir, sample_ratio=1.0)
    results = validator.run(input_path)
    assert results == {"total": 1, "success": 1, "failed": 0, "skipped": 0}
    with sqlite3.connect(output_dir / "fragments.db") as connection:
        fragments = connection.execute(
            "SELECT cleavage_position, has_dummy_atom, dummy_atom_count FROM side_chain_fragments"
        ).fetchall()
        library_entries = connection.execute(
            """
            SELECT source_type, source_parent_ml_id, source_parent_chembl_id,
                   cleavage_position, has_dummy_atom, dummy_atom_count, splice_ready
            FROM fragment_library_entries
            """
        ).fetchall()
    assert fragments == [(10, 1, 1)]
    assert library_entries == [("validation_extract", "ML00000001", "CHEMBL0001", 10, 1, 1, 1)]
    summary = pd.read_csv(output_dir / "summary.csv")
    assert summary.loc[0, "num_sidechains"] == 1
    assert json.loads(summary.loc[0, "cleavage_positions"]) == [10]
    fragment_library = pd.read_csv(output_dir / "fragment_library.csv")
    assert fragment_library.loc[0, "source_type"] == "validation_extract"
    assert int(fragment_library.loc[0, "cleavage_position"]) == 10
    assert bool(fragment_library.loc[0, "has_dummy_atom"]) is True
    assert int(fragment_library.loc[0, "dummy_atom_count"]) == 1
    assert bool(fragment_library.loc[0, "splice_ready"]) is True
--- a/validation_output/README.md
+++ b/validation_output/README.md
@@ -0,0 +1,97 @@
 # MacrolactoneDB Validation Output
 This directory contains validation results for MacrolactoneDB 12-20 membered rings.
 ## Directory Structure
 ```
 validation_output/
 ├── README.md                    # This file
 ├── fragments.db                 # SQLite database with all data
 ├── fragment_library.csv         # Unified fragment library export
 ├── summary.csv                  # Summary of all processed molecules
 ├── summary_statistics.json      # Statistical summary
 │
 ├── ring_size_12/                # 12-membered rings
 ├── ring_size_13/                # 13-membered rings
 ...
 └── ring_size_20/                # 20-membered rings
    ├── molecules.csv            # Molecules in this ring size
    ├── standard/                # Standard macrolactones
    │   ├── numbered/            # Numbered ring images
    │   │   └── {id}_numbered.png
    │   └── sidechains/          # Fragment images
    │       └── {id}/
    │           └── {id}_frag_{n}_pos{pos}.png
    ├── non_standard/            # Non-standard macrocycles
    │   └── original/
    │       └── {id}_original.png
    └── rejected/                # Not macrolactones
        └── original/
            └── {id}_original.png
 ```
 ## Database Schema
 ### Tables
 - **parent_molecules**: Original molecule information
 - **ring_numberings**: Ring atom numbering details
 - **side_chain_fragments**: Fragmentation results with isotope tags
 - **fragment_library_entries**: Unified fragment library rows for downstream design
 - **validation_results**: Manual validation records
 ### Key Fields
 - `classification`: standard_macrolactone | non_standard_macrocycle | not_macrolactone
 - `dummy_isotope`: Cleavage position stored as isotope value for reconstruction
 - `cleavage_position`: Position on ring where side chain was attached
 - `has_dummy_atom`: Whether the fragment contains a dummy atom for splicing
 - `dummy_atom_count`: Number of dummy atoms in the fragment
 ## Ring Numbering Convention
 1. Position 1 = Lactone carbonyl carbon (C=O)
 2. Position 2 = Ester oxygen (-O-)
 3. Positions 3-N = Sequential around ring
 ## Isotope Tagging
 Fragments use isotope values to mark cleavage position:
 - `[5*]CCO` = Fragment from position 5, dummy atom has isotope=5
 - This enables precise reconstruction during reassembly
 ## CSV Columns
 ### summary.csv
 - `ml_id`: MacrolactoneDB unique ID (e.g., ML00000001)
 - `chembl_id`: Original CHEMBL ID (if available)
 - `classification`: Classification result
 - `ring_size`: Detected ring size (12-20)
 - `num_sidechains`: Number of side chains detected
 - `cleavage_positions`: JSON array of cleavage positions
 - `processing_status`: pending | success | failed | skipped
 ### fragment_library.csv
 - `source_type`: validation_extract | supplemental (reserved)
 - `has_dummy_atom`: Whether the fragment contains a dummy atom
 - `dummy_atom_count`: Number of dummy atoms
 - `splice_ready`: Whether the fragment is directly compatible with single-anchor splicing
 ## Querying the Database
 ```bash
 # List tables
 sqlite3 fragments.db ".tables"
 # Get standard macrolactones with fragments
 sqlite3 fragments.db "SELECT * FROM parent_molecules WHERE classification='standard_macrolactone' LIMIT 5;"
 # Get fragments for a specific molecule
 sqlite3 fragments.db "SELECT * FROM side_chain_fragments WHERE parent_id=1;"
 # Count by ring size
 sqlite3 fragments.db "SELECT ring_size, COUNT(*) FROM parent_molecules GROUP BY ring_size;"
 ```
--- a/validation_output/fragment_library_filter_gt3.csv
+++ b/validation_output/fragment_library_filter_gt3.csv
--- a/validation_output/fragments.db
+++ b/validation_output/fragments.db
--- a/validation_output/summary.csv
+++ b/validation_output/summary.csv
--- a/validation_output/summary_statistics.json
+++ b/validation_output/summary_statistics.json
@@ -0,0 +1,23 @@
 {
  "total_molecules": 11036,
  "by_classification": {
    "non_standard_macrocycle": 6336,
    "standard_macrolactone": 4482,
    "not_macrolactone": 218
  },
  "by_ring_size": {
    "14.0": 3017,
    "16.0": 1879,
    "15.0": 1613,
    "12.0": 1419,
    "19.0": 855,
    "18.0": 809,
    "13.0": 679,
    "20.0": 243,
    "17.0": 196
  },
  "by_status": {
    "skipped": 6554,
    "success": 4482
  }
 }
Author	SHA1	Message	Date
lingyuzeng	f6bf9e85a3	chore(validation-output): add gt3 fragment export Track refreshed validation outputs and add a filtered fragment library export that retains only side-chain fragments with more than 3 heavy atoms.	2026-03-19 21:20:56 +08:00
lingyuzeng	46a438dd36	feat(validation): enforce single-anchor fragments - skip fused/shared/multi-anchor side systems during extraction - add fragment library schema and fragment_library.csv export - make scaffold prep strict for non-spliceable positions	2026-03-19 14:20:32 +08:00
lingyuzeng	07ba27be2b	docs: add MacrolactoneDB validation module usage to README	2026-03-19 12:20:12 +08:00
lingyuzeng	f43f0520ce	chore: remove validation_output and add to gitignore	2026-03-19 11:45:02 +08:00
lingyuzeng	bb42044faf	refactor(validation): use ml_id as primary ID, add chembl_id field	2026-03-19 11:44:56 +08:00