旧理解
Why:为什么做
What:发现什么
How:怎么做
关键问题
它没有区分“结果好”“方法讲清”“原理讲透”三个不同等级。
新修正
What 是结果是否超越 baseline;How 是怎么做到;Why 是为什么这样做合理。
核心修订:从 WWH 的读文献框架,升级为真实论文生产闭环:找 baseline 缺陷 → 验证 What → 描述 How → 深思 Why → 凝练 Ideas。
Why:为什么做
What:发现什么
How:怎么做
它没有区分“结果好”“方法讲清”“原理讲透”三个不同等级。
What 是结果是否超越 baseline;How 是怎么做到;Why 是为什么这样做合理。
| 层级 | 核心问题 | 论文形态 | 常见风险 | 可能级别 |
|---|---|---|---|---|
| 只有 What | 结果是否更好? | 性能报告 / 刷榜 | 像调参,贡献弱 | 三四区 / 弱会 |
| What + How | 怎么做到更好? | 方法改进论文 | 机制不足,像拼模块 | 二区 / 一般一区 |
| What + How + Why | 为什么这样做合理? | 机制驱动论文 | 论证要求高 | 一区 / 顶会潜力 |
| Why 驱动 How,How 支撑 What | 从问题结构推出方法 | 高质量研究论文 | 难度最高 | 高水平一区 / 顶会 |
是否在公开数据集、标准 benchmark、强 baseline 上取得可验证提升。
是否能讲清方法结构、模块作用、训练策略、优化路径和复现流程。
是否能解释 baseline 失败原因,以及你的方法为什么正好解决它。
轻微扰动后性能明显下降。
跨域、跨数据集、跨时间失效。
离线表现好,在线变化下差。
生成结果/决策结果不满足规则。
性能提升依赖高算力或高标注成本。
只优化 accuracy,忽略风险/成本。
整体分数高,少数类别很差。
无法表达置信度和风险边界。
只相关不解释,证据结构不强。
对缺失、异常、攻击、扰动脆弱。
指标不能覆盖真实应用。
代码、配置、随机种子不完整。
| 证据类型 | 要做什么 | 产物 |
|---|---|---|
| 错误样本分析 | 收集失败案例,按类型聚类 | failure taxonomy |
| 分组指标 | 按类别、长度、场景、难度、时间分组 | slice performance table |
| 鲁棒性测试 | 加入噪声、缺失、扰动、分布漂移 | robustness curve |
| 成本分析 | 比较算力、时间、标注、调用成本 | cost-performance curve |
| 约束检查 | 统计 violation rate / invalid rate | constraint table |
| 可复现检查 | 记录环境、随机种子、结果波动 | reproduction log |
Baseline Defect Card 1. 母文 / baseline:________ 2. 数据集 / benchmark:________ 3. 复现结果:原文 ____,复现 ____,差距 ____ 4. 观察到的失败:________ 5. 失败出现在哪些数据切片:________ 6. 失败是否稳定复现:是 / 否 7. 可能原因 R:________ 8. 可针对的技术入口 M:________ 9. 预期指标变化:________ 10. 是否值得进入 What 验证:是 / 否
不是一次偶然现象。
能提出初步原因假设。
能找到方法入口。
问题有领域价值。
accuracy / F1 / MAE / reward / success rate 等。
invalid rate、violation rate、hallucination rate、failure rate 下降。
更低成本、更少标注、更快推理、更少调用。
| 结果类型 | 意义 | 实验形式 |
|---|---|---|
| 主结果 | 证明比 baseline 好 | 主表 + 强对比 |
| 消融结果 | 证明不是偶然拼接 | remove each module |
| 鲁棒结果 | 证明在困难场景更有价值 | noise / drift / OOD / stress test |
| 效率结果 | 证明方法具有现实可用性 | cost / latency / memory / annotation |
| 失败边界 | 证明作者理解方法限制 | case study / error taxonomy |
只改一个关键点,验证缺陷是否可被改善。
主结果、消融、鲁棒、跨数据集、多指标一起形成证据链。
| 缺陷假设 | 应该出现的 What | 实验设计 |
|---|---|---|
| 噪声敏感 | 噪声越强,本文优势越明显 | noise level curve |
| 泛化不足 | 跨域或新 split 上提升更明显 | cross-domain test |
| 约束违反 | violation rate 显著下降 | constraint checker |
| 成本过高 | 同等效果下成本更低 | budget-performance curve |
| 在线适应差 | 时间切分/流式测试更稳 | online evaluation |
| 多目标冲突 | Pareto 前沿更优 | multi-objective evaluation |
改数据、挑结果、隐藏失败、伪造图表。
换指标、换切片、换场景、加约束、重新定义任务边界。
把失败变成边界分析,形成方法适用条件。
至少在核心指标上稳定超过。
多随机种子或置信区间。
提升发生在目标失败切片。
有进入 How / Why 的线索。
模块如何连接?输入输出是什么?
每个模块解决哪个缺陷?
别人按步骤能不能跑出来?
| 模块 | 对应缺陷 | 预期效果 | 验证实验 |
|---|---|---|---|
| A:基础模型 | 解决主任务 | 建立可比性能 | main baseline |
| B:约束/风险模块 | 减少违规或失败 | violation rate 下降 | ablation -B |
| C:预算/调度模块 | 降低成本 | cost-performance 更优 | budget curve |
| D:鲁棒训练/评测 | 抵抗噪声或漂移 | stress test 更稳 | noise/OOD test |
本文提出 A、B、C 三个模块。A 用于……B 用于……C 用于……
问题:像堆模块。
baseline 的失败来自 R1/R2/R3。为分别处理这些原因,本文设计 A/B/C,并形成统一框架。
优点:方法由问题推出。
Method Card 1. 方法名称:________ 2. 输入 / 输出:________ 3. 目标 baseline 缺陷:________ 4. 模块 A:解决 ________ 5. 模块 B:解决 ________ 6. 模块 C:解决 ________ 7. 训练 / 优化流程:________ 8. 推理 / 决策流程:________ 9. 复杂度 / 成本:________ 10. 预期消融结果:________
从 baseline 缺陷进入,而不是从模型名字进入。
每个模块旁边标注解决的问题。
图中显示最终对应哪个指标改善。
输入、输出、流程完整。
模块对应 baseline 缺陷。
消融能证明模块有效。
代码和配置可复现。
“因为我们试了有效”。
“baseline 失败来自 R,本文方法改变了 R 对结果的影响路径”。
让审稿人相信提升不是偶然。
| Why 类型 | 说明 | 适用论文 |
|---|---|---|
| 理论证明 | 收敛性、边界、复杂度、近似比 | 优化 / 算法 / 理论型 |
| 机制解释 | 方法改变了错误来源或决策路径 | 工程 AI / 应用 AI |
| 任务结构 | 方法符合数据分布、约束、因果链 | 公开数据集 / benchmark |
| 误差分解 | 把整体误差拆成可解释部分 | 预测 / 估计 / 生成 |
| 诊断实验 | 证明提升集中在理论预期场景 | 大多数实验论文 |
| 反事实/对照 | 换条件后优势消失或减弱 | 强解释性论文 |
本文方法在高噪声样本上提升最大。
方法降低了对局部异常特征的依赖。
本文方法 violation rate 明显下降,但 accuracy 提升不大。
方法主要贡献是约束满足,而非判别性能。
本文方法在跨时间 split 更稳。
方法缓解了分布漂移下的历史模式过拟合。
预算较低时本文优势更明显。
方法改进了验证资源分配效率。
Why Hypothesis 我们观察到 baseline 在 P 场景下失败。 该失败可能来自原因 R:________。 因此,如果 R 是主要原因,那么引入方法 M 后,应该出现结果 W:________。 实验 E1/E2/E3 验证了 W,并且消融实验显示去掉 M 后 W 消失或明显减弱。 因此,本文认为 M 的有效性来自于对 R 的缓解,而不是偶然调参。
| 目标 | Why 要求 | 实验/论证要求 |
|---|---|---|
| 三区/四区 | 能说明基本合理性 | 主结果 + 简单消融 |
| 二区 | 方法动机清楚 | 主结果 + 消融 + 对比 |
| 一般一区 | 有机制解释或充分诊断 | 多数据集 + 鲁棒 + 失败分析 |
| 高水平一区/顶会 | Why 驱动方法设计 | 理论/机制/诊断/泛化完整闭环 |
baseline 为什么失败。
方法为什么能缓解失败。
提升发生在预期场景。
不是无法证伪的空话。
| 四新 | 对应论文贡献 | 典型表达 |
|---|---|---|
| 新问题 | 新任务 / 新 benchmark / 新约束 | 首次系统研究 ________ |
| 新解决路径 | 从分类到决策,从离线到在线 | 将问题重构为 ________ |
| 新方法技术 | 新算法 / 新框架 / 新评测器 | 提出 ________ 框架以解决 ________ |
| 新奇有趣 | 反直觉发现 / 新失败模式 / 新规律 | 揭示了 ________ 条件下的 ________ 现象 |
对核心概念给出奠基定义。赢点:细分、修正、扩展。
给出强结论。赢点:限定条件、例外、边界。
形成主流证据链。赢点:更强数据、更强方法、更强评测。
对手认为:________。 我的赢点是:________。 我推进一步的证据是:What + How + Why。
某某任务中的深度学习方法研究
问题:没有对象、没有赢点、没有贡献。
Beyond Offline Accuracy: Budget-Aware Verification Orchestration for Compliance-Critical Report Generation
优点:有对象、有场景、有方法、有价值。
特殊场景更容易形成清晰对手句、可验证缺陷和高价值 Why。
| 检查项 | 合格标准 | 不合格处理 |
|---|---|---|
| 发表位置 | 顶刊/顶会/目标期刊近年论文 | 降低优先级 |
| 数据 | 公开、可下载、许可证清楚 | 放弃或换数据 |
| 代码 | 能安装、能运行、指标接近 | 最多花 2–3 天排查 |
| 缺陷 | 能找到可验证失败场景 | 只可作为参考文献 |
| 出口 | 与目标期刊近两年风格一致 | 换投稿方向 |
| 复现任务 | 最低要求 | 产物 |
|---|---|---|
| 环境 | 记录 OS/CUDA/Python/依赖版本 | environment.yml |
| 数据 | 下载、预处理、split 与原文一致 | data README |
| 训练 | 参数、随机种子、日志完整 | train logs |
| 评测 | 指标脚本与原文一致 | eval script |
| 结果 | 与原文差距可解释 | reproduction table |
| 实验 | 回答问题 | 对应层级 |
|---|---|---|
| 主对比实验 | 本文是否比 baseline 好? | What |
| 消融实验 | 提升来自哪个模块? | How |
| 参数敏感性 | 方法是否稳定? | How/Why |
| 鲁棒性测试 | 是否解决目标缺陷? | What/Why |
| 失败案例分析 | 方法边界在哪里? | Why |
| 复杂度/成本分析 | 是否可用? | What/How |
缺陷 → What → How → Why → Ideas
强调效率和确定性。
Why → Problem → How → What → Contribution
强调逻辑和说服力。
| 段落 | 内容 | 目标 |
|---|---|---|
| P1 | 大背景:这个领域为什么重要 | 建立必要性 |
| P2 | 具体任务:公开数据集和评价场景 | 收窄问题 |
| P3 | 主流 baseline:已有方法解决了什么 | 承认前人 |
| P4 | 关键缺陷:仍然存在什么失败机制 | 提出对手句 |
| P5 | 本文方案:How + What + Why 简述 | 展示贡献 |
说明问题如何被提出,本文如何重构。
说明 baseline 属于哪条路线,缺陷在哪里。
说明现有 benchmark 不能覆盖什么。
| 图表 | 作用 | 对应层级 |
|---|---|---|
| Fig. 1 问题与缺陷示意图 | 让审稿人看到 baseline 失败在哪里 | Why |
| Fig. 2 方法框架图 | 展示缺陷到模块的映射 | How |
| Table 1 数据集统计 | 说明数据与任务 | Problem |
| Table 2 主结果 | 证明超过 baseline | What |
| Table 3 消融 | 证明模块必要性 | How |
| Fig. 3 鲁棒/成本曲线 | 证明困难场景优势 | What/Why |
| Fig. 4 失败案例 | 说明边界与机制 | Why |
release-package/
README.md # 任务说明与快速开始
LICENSE # 数据/代码许可
CITATION.cff # 引用方式
data_card.md # 数据来源、统计、风险、限制
model_card.md # 模型设置与适用边界
environment.yml # 复现环境
scripts/
reproduce_main.sh
reproduce_ablation.sh
reproduce_robustness.sh
src/
datasets/ models/ evaluation/
results/
raw_logs/ tables/ figures/
| Gate | 通过标准 | 不通过处理 |
|---|---|---|
| G0 立项 | 母文、数据、代码、目标出口齐全 | 换题 |
| G1 复现 | baseline 指标接近原文 | 换实现或换母文 |
| G2 缺陷 | 发现可复现失败机制 | 换切片或换问题 |
| G3 What | 核心结果稳定提升 | 换场景/指标/方法 |
| G4 How | 方法讲得清且可消融 | 删模块或重构方法 |
| G5 Why | 机制解释和实验闭环成立 | 补诊断实验 |
| G6 投稿 | 图表、引用、开源、伦理完成 | 延期投稿 |
| 周次 | 目标 | 交付物 |
|---|---|---|
| 第 1 周 | 母文与数据集筛选 | 10 张论文卡 + 3 张数据卡 |
| 第 2 周 | baseline 复现 | 环境、日志、复现表 |
| 第 3 周 | 缺陷诊断 | Defect Card + 错误分析 |
| 第 4 周 | What 最小验证 | 核心结果初版 |
| 第 5 周 | How 方法整理 | 方法图 + 消融设计 |
| 第 6 周 | Why 诊断实验 | 鲁棒、切片、案例 |
| 第 7 周 | 论文初稿 | 图表齐全,正文 70% |
| 第 8 周 | 内部评审与投稿准备 | 修改清单 + release 包 |
baseline 跑不通还继续做。
没有缺陷,只是堆模块。
只看平均指标,不看切片失败。
What 有了,但 How 讲不清。
How 有了,但 Why 只是口号。
写作时暴露出“先试出来”的痕迹。
| 可以用 AI | 不能用 AI |
|---|---|
| 总结文献、生成论文卡片初稿 | 编造不存在的文献 |
| 辅助代码、排错、生成脚本 | 伪造实验结果 |
| 润色语言、压缩摘要 | 替代作者判断贡献 |
| 生成图表草稿 | 篡改真实图像或数据 |
| 生成 checklist | 决定是否隐瞒失败结果 |
每天 5–10 分钟,恢复注意力和判断力。
选好书、新领域、根本性理论、传记。
把研究过程变成论文素材库。
每周 2–3 次,每次 30 分钟以上。
1. 模糊主题:________ 2. 母文 / baseline:________ 3. 公开数据集:________ 4. baseline 复现状态:________ 5. baseline 缺陷:________ 6. What:预期在哪些指标/场景提升?________ 7. How:用什么方法做到?________ 8. Why:为什么这个方法合理?________ 9. Ideas:形成哪类四新贡献?________ 10. 目标期刊/会议:________ 11. 实验矩阵:________ 12. release 包计划:________
母文足够强吗?
数据集公开合法吗?
baseline 复现了吗?
缺陷可复现吗?
What 稳定提升吗?
How 不是拼盘吗?
Why 讲得透吗?
消融完整吗?
鲁棒/泛化有吗?
失败边界写了吗?
代码 release 了吗?
贡献句尖锐吗?