跳转至

模板库总览

该目录旨在提供"复制即改"的实验模板。 每条需求都应该在下表找到可直接起步的模板。

模板路径 场景标题 适用说明
analysis/cleanup_policy.py 清理策略模板 按状态和指标组合清理历史结果目录。
analysis/dataframe_csv_export.py DataFrame + CSV 导出 将 run 目录聚合为表格并导出 CSV。
analysis/leaderboard_comparison.py 排行榜对比模板 快速生成 Top-K 配置列表,便于版本评审。
analysis/pivot_excel_report.py 透视表 Excel 报告 按模型/超参数维度输出可读的透视表报告。
basics/exp_fn_contract_matrix.py exp_fn 契约矩阵模板 一次性演示返回 dict / 返回 None / SkipRun / 异常失败四类结果与产物差异。
basics/grid_and_variants.py 网格搜索 + 变体实验 同时遍历超参数网格和架构变体,适合 ablation 初期。
basics/manager_runner_split.py 管理器与执行器解耦 当你需要先构建配置再交给不同 runner 时使用。
basics/minimal_pipeline.py 最小可运行实验 用于快速验证环境、目录协议和基础执行链路。
basics/multi_seed_repro.py 多种子复现实验 同一配置下重复多 seed,统计均值与波动,评估稳定性。
llm/prompt_eval.py Prompt 模板评测 不同提示词模板对回答质量的影响评估。
llm/rag_eval.py RAG 检索增强评测 不同检索策略/检索深度下的答案质量对比。
llm/safety_eval.py LLM 安全评测模板 越狱/有害请求防护能力评估。
llm/serving_benchmark.py LLM 服务压测模板 不同并发、batch 规模下的吞吐与延迟对比。
llm/tool_use_eval.py Tool Use/Agent 调用评测 评估工具调用成功率、步骤数与响应时延。
ml/anomaly_detection.py 异常检测模板 无监督异常检测,记录 AUC/召回。
ml/recommendation_ranking.py 推荐排序模板 CTR/排序任务,记录 NDCG/Recall@K。
ml/tabular_classification.py 表格分类模板 二分类/多分类任务的训练与验证骨架。
ml/tabular_regression.py 表格回归模板 回归任务的 RMSE/MAE 指标记录骨架。
ml/time_series_forecasting.py 时间序列预测模板 多 horizon 的预测实验,记录 MAPE/SMAPE。
ops/ablation_study.py 消融实验模板 对组件开关进行系统消融,定位有效贡献。
ops/budget_limited_search.py 预算受限搜索模板 在固定预算内运行最有价值的一批配置。
ops/dataset_versioning.py 数据版本对比模板 同一模型在不同数据版本上的回归验证。
ops/reproducibility_audit.py 可复现性审计模板 检查同配置多次运行的一致性和漂移幅度。
ops/resume_from_checkpoint.py 断点恢复模板 从历史 checkpoint 恢复训练并继续记录结果。
parallel/dynamic_cpu_guard.py Dynamic CPU 阈值调度 机器负载波动较大时,按 CPU 阈值动态提交任务。
parallel/joblib_cpu_heavy.py Joblib 并行模板 需要 joblib 生态兼容时使用。
parallel/process_pool_high_throughput.py ProcessPool 高吞吐并行 CPU 密集型/可多进程任务,追求吞吐。
parallel/skip_invalid_configs.py 非法配置自动跳过 参数空间中存在业务非法组合时,使用 SkipRun 非失败跳过。