内部学术成果 SOP · v2.0 修订版

公开数据集型科研成果生产流程 SOP

核心修订：从 WWH 的读文献框架，升级为真实论文生产闭环：找 baseline 缺陷 → 验证 What → 描述 How → 深思 Why → 凝练 Ideas。

Public Dataset Research Pipeline · HTML PPT

01 / 56

本次更新

02 / 56

为什么必须重写 WWH → Ideas

原来的 WWH 适合“读文献理解论文”；但用于“生产论文”时，必须区分 What、How、Why 的层级。

旧理解

Why：为什么做
What：发现什么
How：怎么做

关键问题

它没有区分“结果好”“方法讲清”“原理讲透”三个不同等级。

新修正

What 是结果是否超越 baseline；How 是怎么做到；Why 是为什么这样做合理。

总公式

03 / 56

真实科研生产顺序：从缺陷出发，而不是从口号出发

找 baseline 缺陷验证 What描述 How深思 Why凝练 Ideas

做研究时：先看到可验证的失败和改进，再追问方法与原理。写论文时：必须反过来呈现成“问题结构自然推出方法”。

双顺序

04 / 56

研究生产顺序 ≠ 论文呈现顺序

研究生产顺序

找 baseline 缺陷
验证 What：结果是否更好
描述 How：怎么做到
深思 Why：为什么合理
凝练 Ideas：形成贡献

论文呈现顺序

Why：问题重要且现有方法不足
Problem：明确任务和挑战
How：提出方法
What：实验验证
Contribution：总结学术推进

工程上允许“先跑出来”；论文中必须写成“由问题自然推出”。

论文分级

05 / 56

What / How / Why 决定论文级别

层级	核心问题	论文形态	常见风险	可能级别
只有 What	结果是否更好？	性能报告 / 刷榜	像调参，贡献弱	三四区 / 弱会
What + How	怎么做到更好？	方法改进论文	机制不足，像拼模块	二区 / 一般一区
What + How + Why	为什么这样做合理？	机制驱动论文	论证要求高	一区 / 顶会潜力
Why 驱动 How，How 支撑 What	从问题结构推出方法	高质量研究论文	难度最高	高水平一区 / 顶会

核心金句

06 / 56

What 决定有没有结果，How 决定有没有方法，Why 决定有没有高度

What

是否在公开数据集、标准 benchmark、强 baseline 上取得可验证提升。

How

是否能讲清方法结构、模块作用、训练策略、优化路径和复现流程。

Why

是否能解释 baseline 失败原因，以及你的方法为什么正好解决它。

没有 What，论文没有结果；没有 How，论文没有方法；没有 Why，论文没有学术高度。

Step 1

07 / 56

找 baseline 缺陷：不是找缺点，而是找可验证的失败机制

要找的不是

“它没有用我的方法”
“它指标还可以再高一点”
“它没有考虑某个很小因素”
“我想换个模块试试”

真正要找的是

在哪类样本上稳定失败？
哪个指标暴露了结构性短板？
哪个任务假设不成立？
哪种现实约束被忽略？

baseline 缺陷 = 可复现失败 + 有普遍性 + 能被方法针对 + 能被实验验证。

Baseline 缺陷类型

08 / 56

公开数据集研究最常见的 12 类 baseline 缺陷

噪声敏感

轻微扰动后性能明显下降。

泛化不足

跨域、跨数据集、跨时间失效。

在线适应差

离线表现好，在线变化下差。

约束违反

生成结果/决策结果不满足规则。

成本过高

性能提升依赖高算力或高标注成本。

多目标冲突

只优化 accuracy，忽略风险/成本。

长尾失败

整体分数高，少数类别很差。

不确定性缺失

无法表达置信度和风险边界。

因果链弱

只相关不解释，证据结构不强。

鲁棒性弱

对缺失、异常、攻击、扰动脆弱。

评测不充分

指标不能覆盖真实应用。

不可复现

代码、配置、随机种子不完整。

缺陷证据

09 / 56

baseline 缺陷必须用证据抓住

证据类型	要做什么	产物
错误样本分析	收集失败案例，按类型聚类	failure taxonomy
分组指标	按类别、长度、场景、难度、时间分组	slice performance table
鲁棒性测试	加入噪声、缺失、扰动、分布漂移	robustness curve
成本分析	比较算力、时间、标注、调用成本	cost-performance curve
约束检查	统计 violation rate / invalid rate	constraint table
可复现检查	记录环境、随机种子、结果波动	reproduction log

缺陷卡片

10 / 56

每个选题先写一张 Baseline Defect Card

Baseline Defect Card
1. 母文 / baseline：________
2. 数据集 / benchmark：________
3. 复现结果：原文 ____，复现 ____，差距 ____
4. 观察到的失败：________
5. 失败出现在哪些数据切片：________
6. 失败是否稳定复现：是 / 否
7. 可能原因 R：________
8. 可针对的技术入口 M：________
9. 预期指标变化：________
10. 是否值得进入 What 验证：是 / 否

Gate 1

11 / 56

缺陷进入下一步的四个标准

可复现

不是一次偶然现象。

可解释

能提出初步原因假设。

可干预

能找到方法入口。

可发表

问题有领域价值。

如果缺陷只存在于极少数样本、不可复现、没有领域意义，立即换题。

Step 2

12 / 56

验证 What：先证明结果能不能站住

What = 我的方案是否在公开数据集、标准 benchmark 或强 baseline 上带来可验证提升。

性能提升

accuracy / F1 / MAE / reward / success rate 等。

质量提升

invalid rate、violation rate、hallucination rate、failure rate 下降。

效率提升

更低成本、更少标注、更快推理、更少调用。

What 不等于一个数字

13 / 56

公开数据集论文的 What 至少要覆盖四类结果

结果类型	意义	实验形式
主结果	证明比 baseline 好	主表 + 强对比
消融结果	证明不是偶然拼接	remove each module
鲁棒结果	证明在困难场景更有价值	noise / drift / OOD / stress test
效率结果	证明方法具有现实可用性	cost / latency / memory / annotation
失败边界	证明作者理解方法限制	case study / error taxonomy

What 验证顺序

14 / 56

不要一上来大规模跑，先做最小可行实验

复现 baseline最小改动小样本验证完整主实验消融鲁棒性多种子

最小可行实验

只改一个关键点，验证缺陷是否可被改善。

完整实验证明

主结果、消融、鲁棒、跨数据集、多指标一起形成证据链。

What 的实验矩阵

15 / 56

实验不是越多越好，而是要对应缺陷假设

缺陷假设	应该出现的 What	实验设计
噪声敏感	噪声越强，本文优势越明显	noise level curve
泛化不足	跨域或新 split 上提升更明显	cross-domain test
约束违反	violation rate 显著下降	constraint checker
成本过高	同等效果下成本更低	budget-performance curve
在线适应差	时间切分/流式测试更稳	online evaluation
多目标冲突	Pareto 前沿更优	multi-objective evaluation

What 的失败处理

16 / 56

结果不够好时，不要硬写，先判断能否换场景

不能做

改数据、挑结果、隐藏失败、伪造图表。

可以做

换指标、换切片、换场景、加约束、重新定义任务边界。

更高级

把失败变成边界分析，形成方法适用条件。

性能不好不一定换题；没有可解释失败机制才应该换题。

Gate 2

17 / 56

What 通过的最低标准

超过 baseline

至少在核心指标上稳定超过。

不是偶然

多随机种子或置信区间。

对准缺陷

提升发生在目标失败切片。

可解释

有进入 How / Why 的线索。

Step 3

18 / 56

描述 How：把有效改动组织成可复现方法

How = 我通过什么结构、算法、训练策略、数据设计或优化机制取得了 What。

结构

模块如何连接？输入输出是什么？

机制

每个模块解决哪个缺陷？

复现

别人按步骤能不能跑出来？

How 不是 A+B+C 拼盘

19 / 56

每个模块必须对应 baseline 的具体缺陷

模块	对应缺陷	预期效果	验证实验
A：基础模型	解决主任务	建立可比性能	main baseline
B：约束/风险模块	减少违规或失败	violation rate 下降	ablation -B
C：预算/调度模块	降低成本	cost-performance 更优	budget curve
D：鲁棒训练/评测	抵抗噪声或漂移	stress test 更稳	noise/OOD test

没有对应缺陷的模块，宁愿删掉；删掉后论文更清楚。

How 的写法

20 / 56

方法章节要让审稿人看见“自然性”

坏写法

本文提出 A、B、C 三个模块。A 用于……B 用于……C 用于……

问题：像堆模块。

好写法

baseline 的失败来自 R1/R2/R3。为分别处理这些原因，本文设计 A/B/C，并形成统一框架。

优点：方法由问题推出。

Method Card

21 / 56

写方法前先填 Method Card

Method Card
1. 方法名称：________
2. 输入 / 输出：________
3. 目标 baseline 缺陷：________
4. 模块 A：解决 ________
5. 模块 B：解决 ________
6. 模块 C：解决 ________
7. 训练 / 优化流程：________
8. 推理 / 决策流程：________
9. 复杂度 / 成本：________
10. 预期消融结果：________

How 的图表

22 / 56

方法框架图必须展示逻辑，而不是只画模块框

问题入口

从 baseline 缺陷进入，而不是从模型名字进入。

模块对应

每个模块旁边标注解决的问题。

输出验证

图中显示最终对应哪个指标改善。

好图 = 缺陷 → 模块 → 指标；坏图 = 方框 → 箭头 → 更多方框。

Gate 3

23 / 56

How 通过的最低标准

讲得清

输入、输出、流程完整。

对得上

模块对应 baseline 缺陷。

拆得开

消融能证明模块有效。

跑得出

代码和配置可复现。

Step 4

24 / 56

深思 Why：论文高度来自原因解释

Why = 为什么这个方法设计是合理的，为什么它正好解决 baseline 的核心失败机制。

不是

“因为我们试了有效”。

而是

“baseline 失败来自 R，本文方法改变了 R 对结果的影响路径”。

最终

让审稿人相信提升不是偶然。

Why 的证据类型

25 / 56

Why 可以来自理论、机制、诊断和实验闭环

Why 类型	说明	适用论文
理论证明	收敛性、边界、复杂度、近似比	优化 / 算法 / 理论型
机制解释	方法改变了错误来源或决策路径	工程 AI / 应用 AI
任务结构	方法符合数据分布、约束、因果链	公开数据集 / benchmark
误差分解	把整体误差拆成可解释部分	预测 / 估计 / 生成
诊断实验	证明提升集中在理论预期场景	大多数实验论文
反事实/对照	换条件后优势消失或减弱	强解释性论文

从 What 反推 Why

26 / 56

结果出现在哪里，原因就要解释到哪里

观察

本文方法在高噪声样本上提升最大。

Why

方法降低了对局部异常特征的依赖。

观察

本文方法 violation rate 明显下降，但 accuracy 提升不大。

Why

方法主要贡献是约束满足，而非判别性能。

观察

本文方法在跨时间 split 更稳。

Why

方法缓解了分布漂移下的历史模式过拟合。

观察

预算较低时本文优势更明显。

Why

方法改进了验证资源分配效率。

Why 的写作模板

27 / 56

把 Why 写成可以被反驳、也可以被验证的假设

Why Hypothesis
我们观察到 baseline 在 P 场景下失败。
该失败可能来自原因 R：________。
因此，如果 R 是主要原因，那么引入方法 M 后，应该出现结果 W：________。
实验 E1/E2/E3 验证了 W，并且消融实验显示去掉 M 后 W 消失或明显减弱。
因此，本文认为 M 的有效性来自于对 R 的缓解，而不是偶然调参。

Why 与目标期刊

28 / 56

不同出口对 Why 的要求不同

目标	Why 要求	实验/论证要求
三区/四区	能说明基本合理性	主结果 + 简单消融
二区	方法动机清楚	主结果 + 消融 + 对比
一般一区	有机制解释或充分诊断	多数据集 + 鲁棒 + 失败分析
高水平一区/顶会	Why 驱动方法设计	理论/机制/诊断/泛化完整闭环

Gate 4

29 / 56

Why 通过的最低标准

原因清楚

baseline 为什么失败。

方法对因

方法为什么能缓解失败。

实验闭环

提升发生在预期场景。

可被反驳

不是无法证伪的空话。

Step 5

30 / 56

凝练 Ideas：把结果、方法和原因变成学术贡献

Ideas 不是“我提出一个新方法”，而是“我在某个已有研究障碍上推进了一步”。

现有 baseline 在 P 问题上存在 D 缺陷。本文通过 H 方法解决该缺陷，并在公开数据集上验证了 W 结果。进一步分析表明，该提升来自 Y 机制。因此，本文在 I 方向上推进了已有研究。

Ideas 与四新

31 / 56

最终贡献要落到“四新”中的至少一项

四新	对应论文贡献	典型表达
新问题	新任务 / 新 benchmark / 新约束	首次系统研究 ________
新解决路径	从分类到决策，从离线到在线	将问题重构为 ________
新方法技术	新算法 / 新框架 / 新评测器	提出 ________ 框架以解决 ________
新奇有趣	反直觉发现 / 新失败模式 / 新规律	揭示了 ________ 条件下的 ________ 现象

对手句

32 / 56

没有对手句，就没有清晰贡献

定义型对手

对核心概念给出奠基定义。赢点：细分、修正、扩展。

结论型对手

给出强结论。赢点：限定条件、例外、边界。

方法/证据型对手

形成主流证据链。赢点：更强数据、更强方法、更强评测。

对手认为：________。
我的赢点是：________。
我推进一步的证据是：What + How + Why。

从 Ideas 到标题

33 / 56

标题要把对手和赢点压缩成一句话

模糊标题

某某任务中的深度学习方法研究

问题：没有对象、没有赢点、没有贡献。

精准标题

Beyond Offline Accuracy: Budget-Aware Verification Orchestration for Compliance-Critical Report Generation

优点：有对象、有场景、有方法、有价值。

题目不是宣传语，而是审稿人第一眼看到的贡献压缩包。

总流程图

34 / 56

v2.0 完整 SOP：从公开数据集到论文资产

方向筛选母文捕捉数据集审查baseline 复现缺陷卡片What 验证How 整理Why 解释Ideas 凝练论文写作开源发布

这不是线性一次完成，而是循环迭代：What 不稳回到缺陷；How 讲不清回到方法；Why 不够强回到诊断实验。

方向筛选

35 / 56

不要做一般性问题，要做特殊场景、特殊约束、特殊数据

避免

大模型通用能力
扩散模型通用生成
通用目标检测/分割
大厂大团队主导赛道

优先

离线转在线
确定转不确定
干净数据转噪声数据
单目标转多目标

原因

特殊场景更容易形成清晰对手句、可验证缺陷和高价值 Why。

母文选择

36 / 56

母文必须同时满足学术强度和复现可行性

检查项	合格标准	不合格处理
发表位置	顶刊/顶会/目标期刊近年论文	降低优先级
数据	公开、可下载、许可证清楚	放弃或换数据
代码	能安装、能运行、指标接近	最多花 2–3 天排查
缺陷	能找到可验证失败场景	只可作为参考文献
出口	与目标期刊近两年风格一致	换投稿方向

数据集审查

37 / 56

公开数据集不是能下载就能用

数据质量

规模与类别分布
缺失、噪声、异常
标注一致性
split 是否合理

合法与伦理

许可证是否允许研究使用
是否含个人隐私
是否可再发布
是否需要脱敏

数据集论文尤其要防止：数据泄漏、重复样本、标签泄漏、时间泄漏、主体泄漏。

baseline 复现

38 / 56

复现不是准备工作，而是研究地基

复现任务	最低要求	产物
环境	记录 OS/CUDA/Python/依赖版本	environment.yml
数据	下载、预处理、split 与原文一致	data README
训练	参数、随机种子、日志完整	train logs
评测	指标脚本与原文一致	eval script
结果	与原文差距可解释	reproduction table

实验矩阵

39 / 56

所有实验都要服务于 What/How/Why

实验	回答问题	对应层级
主对比实验	本文是否比 baseline 好？	What
消融实验	提升来自哪个模块？	How
参数敏感性	方法是否稳定？	How/Why
鲁棒性测试	是否解决目标缺陷？	What/Why
失败案例分析	方法边界在哪里？	Why
复杂度/成本分析	是否可用？	What/How

论文写作

40 / 56

做研究的顺序和写论文的顺序要刻意反转

做的时候

缺陷 → What → How → Why → Ideas

强调效率和确定性。

写的时候

Why → Problem → How → What → Contribution

强调逻辑和说服力。

真正的写作能力，是把“实验试出来的东西”重构成“问题自然推出的方案”。

Introduction

41 / 56

引言要先铺 Why，再引出 baseline 缺陷

段落	内容	目标
P1	大背景：这个领域为什么重要	建立必要性
P2	具体任务：公开数据集和评价场景	收窄问题
P3	主流 baseline：已有方法解决了什么	承认前人
P4	关键缺陷：仍然存在什么失败机制	提出对手句
P5	本文方案：How + What + Why 简述	展示贡献

Related Work

42 / 56

方法章节必须同时承担 How 和 Why

How 内容

符号定义
总体框架
模块细节
训练/推理算法
复杂度分析

Why 内容

设计动机
对应缺陷
任务结构适配
理论或机制解释
预期实验现象

Results & Discussion

44 / 56

结果部分不是贴表，而是完成 What→How→Why 的闭环

主结果证明 What消融解释 How诊断支撑 Why案例展示边界讨论形成 Ideas

每张图表四句话：这是什么 → 有什么趋势 → 为什么这样 → 对本文贡献意味着什么。

图表清单

45 / 56

v2.0 论文图表最小集合

图表	作用	对应层级
Fig. 1 问题与缺陷示意图	让审稿人看到 baseline 失败在哪里	Why
Fig. 2 方法框架图	展示缺陷到模块的映射	How
Table 1 数据集统计	说明数据与任务	Problem
Table 2 主结果	证明超过 baseline	What
Table 3 消融	证明模块必要性	How
Fig. 3 鲁棒/成本曲线	证明困难场景优势	What/Why
Fig. 4 失败案例	说明边界与机制	Why

公开发布

46 / 56

公开数据集型成果必须沉淀为 release 包

release-package/
  README.md                  # 任务说明与快速开始
  LICENSE                    # 数据/代码许可
  CITATION.cff               # 引用方式
  data_card.md               # 数据来源、统计、风险、限制
  model_card.md              # 模型设置与适用边界
  environment.yml            # 复现环境
  scripts/
    reproduce_main.sh
    reproduce_ablation.sh
    reproduce_robustness.sh
  src/
    datasets/ models/ evaluation/
  results/
    raw_logs/ tables/ figures/

项目管理

47 / 56

每个阶段必须有 Gate，而不是无限试错

Gate	通过标准	不通过处理
G0 立项	母文、数据、代码、目标出口齐全	换题
G1 复现	baseline 指标接近原文	换实现或换母文
G2 缺陷	发现可复现失败机制	换切片或换问题
G3 What	核心结果稳定提升	换场景/指标/方法
G4 How	方法讲得清且可消融	删模块或重构方法
G5 Why	机制解释和实验闭环成立	补诊断实验
G6 投稿	图表、引用、开源、伦理完成	延期投稿

时间表

48 / 56

8 周形成高质量初稿的推荐节奏

周次	目标	交付物
第 1 周	母文与数据集筛选	10 张论文卡 + 3 张数据卡
第 2 周	baseline 复现	环境、日志、复现表
第 3 周	缺陷诊断	Defect Card + 错误分析
第 4 周	What 最小验证	核心结果初版
第 5 周	How 方法整理	方法图 + 消融设计
第 6 周	Why 诊断实验	鲁棒、切片、案例
第 7 周	论文初稿	图表齐全，正文 70%
第 8 周	内部评审与投稿准备	修改清单 + release 包

风险控制

49 / 56

最常见的失败不是方法不强，而是流程失控

风险 1

baseline 跑不通还继续做。

风险 2

没有缺陷，只是堆模块。

风险 3

只看平均指标，不看切片失败。

风险 4

What 有了，但 How 讲不清。

风险 5

How 有了，但 Why 只是口号。

风险 6

写作时暴露出“先试出来”的痕迹。

学术诚信

50 / 56

高确定性产出不等于突破学术红线

绝对禁止

伪造/篡改数据
选择性隐藏关键失败
图片重复使用或 PS
伪造引用和实验设置
无授权发布数据

鼓励做到

完整记录实验日志
报告失败边界
公开代码与配置
保留随机种子和原始结果
清楚写明数据许可

AI 协作

51 / 56

AI 可以做加速器，不能做责任主体

可以用 AI	不能用 AI
总结文献、生成论文卡片初稿	编造不存在的文献
辅助代码、排错、生成脚本	伪造实验结果
润色语言、压缩摘要	替代作者判断贡献
生成图表草稿	篡改真实图像或数据
生成 checklist	决定是否隐瞒失败结果

研究日志

52 / 56

Obsidian / 周记是 Why 的孵化器

每日记录

今天跑了什么？
结果支持了哪个 What？
暴露了哪个缺陷？
How 是否需要重构？
可能的 Why 是什么？

每周复盘

本周最大有效发现
本周最大失败
下周要验证的 Why 假设
可以写进论文的句子
是否通过当前 Gate

四个长期习惯

53 / 56

稳定产出论文，首先要稳定认知系统

冥想

每天 5–10 分钟，恢复注意力和判断力。

读书

选好书、新领域、根本性理论、传记。

日志/周记

把研究过程变成论文素材库。

有氧运动

每周 2–3 次，每次 30 分钟以上。

身体和情绪不稳定，研究判断就会不稳定。

一页纸立项模板

54 / 56

所有公开数据集论文开题前必须填完

1. 模糊主题：________
2. 母文 / baseline：________
3. 公开数据集：________
4. baseline 复现状态：________
5. baseline 缺陷：________
6. What：预期在哪些指标/场景提升？________
7. How：用什么方法做到？________
8. Why：为什么这个方法合理？________
9. Ideas：形成哪类四新贡献？________
10. 目标期刊/会议：________
11. 实验矩阵：________
12. release 包计划：________

最终检查清单

55 / 56

投稿前用 12 个问题自查

母文足够强吗？

数据集公开合法吗？

baseline 复现了吗？

缺陷可复现吗？

What 稳定提升吗？

How 不是拼盘吗？

Why 讲得透吗？

消融完整吗？

鲁棒/泛化有吗？

失败边界写了吗？

代码 release 了吗？

贡献句尖锐吗？

结语

56 / 56

从论文速成，升级到高质量论文生产

公开数据集型科研的高确定性，不来自“随便改一点刷分”，而来自一条闭环：找到 baseline 的结构性缺陷，用 What 验证结果，用 How 组织方法，用 Why 解释机制，最后凝练成可被审稿人认可的 Ideas。

最终目标：不是“我做了一个新方法”，而是“我在已有研究的关键障碍上，完成了一次可验证、可解释、可复现的推进”。

← / → 翻页 · Print 可导出 PDF