模板库总览¶
该目录旨在提供"复制即改"的实验模板。 每条需求都应该在下表找到可直接起步的模板。
| 模板路径 | 场景标题 | 适用说明 |
|---|---|---|
analysis/cleanup_policy.py |
清理策略模板 | 按状态和指标组合清理历史结果目录。 |
analysis/dataframe_csv_export.py |
DataFrame + CSV 导出 | 将 run 目录聚合为表格并导出 CSV。 |
analysis/leaderboard_comparison.py |
排行榜对比模板 | 快速生成 Top-K 配置列表,便于版本评审。 |
analysis/pivot_excel_report.py |
透视表 Excel 报告 | 按模型/超参数维度输出可读的透视表报告。 |
basics/exp_fn_contract_matrix.py |
exp_fn 契约矩阵模板 |
一次性演示返回 dict / 返回 None / SkipRun / 异常失败四类结果与产物差异。 |
basics/grid_and_variants.py |
网格搜索 + 变体实验 | 同时遍历超参数网格和架构变体,适合 ablation 初期。 |
basics/manager_runner_split.py |
管理器与执行器解耦 | 当你需要先构建配置再交给不同 runner 时使用。 |
basics/minimal_pipeline.py |
最小可运行实验 | 用于快速验证环境、目录协议和基础执行链路。 |
basics/multi_seed_repro.py |
多种子复现实验 | 同一配置下重复多 seed,统计均值与波动,评估稳定性。 |
llm/prompt_eval.py |
Prompt 模板评测 | 不同提示词模板对回答质量的影响评估。 |
llm/rag_eval.py |
RAG 检索增强评测 | 不同检索策略/检索深度下的答案质量对比。 |
llm/safety_eval.py |
LLM 安全评测模板 | 越狱/有害请求防护能力评估。 |
llm/serving_benchmark.py |
LLM 服务压测模板 | 不同并发、batch 规模下的吞吐与延迟对比。 |
llm/tool_use_eval.py |
Tool Use/Agent 调用评测 | 评估工具调用成功率、步骤数与响应时延。 |
ml/anomaly_detection.py |
异常检测模板 | 无监督异常检测,记录 AUC/召回。 |
ml/recommendation_ranking.py |
推荐排序模板 | CTR/排序任务,记录 NDCG/Recall@K。 |
ml/tabular_classification.py |
表格分类模板 | 二分类/多分类任务的训练与验证骨架。 |
ml/tabular_regression.py |
表格回归模板 | 回归任务的 RMSE/MAE 指标记录骨架。 |
ml/time_series_forecasting.py |
时间序列预测模板 | 多 horizon 的预测实验,记录 MAPE/SMAPE。 |
ops/ablation_study.py |
消融实验模板 | 对组件开关进行系统消融,定位有效贡献。 |
ops/budget_limited_search.py |
预算受限搜索模板 | 在固定预算内运行最有价值的一批配置。 |
ops/dataset_versioning.py |
数据版本对比模板 | 同一模型在不同数据版本上的回归验证。 |
ops/reproducibility_audit.py |
可复现性审计模板 | 检查同配置多次运行的一致性和漂移幅度。 |
ops/resume_from_checkpoint.py |
断点恢复模板 | 从历史 checkpoint 恢复训练并继续记录结果。 |
parallel/dynamic_cpu_guard.py |
Dynamic CPU 阈值调度 | 机器负载波动较大时,按 CPU 阈值动态提交任务。 |
parallel/joblib_cpu_heavy.py |
Joblib 并行模板 | 需要 joblib 生态兼容时使用。 |
parallel/process_pool_high_throughput.py |
ProcessPool 高吞吐并行 | CPU 密集型/可多进程任务,追求吞吐。 |
parallel/skip_invalid_configs.py |
非法配置自动跳过 | 参数空间中存在业务非法组合时,使用 SkipRun 非失败跳过。 |