体检报告 AI 流水线案例：智能推项、矛盾识别与边界控制

这类项目最难的地方，不是让模型把一句话写出来，而是别让一段“看起来合理”的话直接进入体检报告。

体检机构 AI 报告流水线产品概览：手机端患者助手与四个核心能力 — 对外展示用的产品概览物料：手机端是脱敏后的患者助手 UI（保留中文界面），右侧三条英文要点对应风险分层、本院库反查和合规性输出。本案例文中只展开已确认可公开的工程边界，不延伸到海报上的对外说法。

背景

这套系统服务于某年服务数十万体检场次的连锁体检机构客户，场景不是通用问答，而是体检报告流水线里的四类生成任务：体检前的智能推项，报告阶段的科普、主检建议，以及报告内部自洽性的矛盾识别。

上一代基本没有成型的规则系统。“科普 + 建议”过去需要医生人工撰写，单份大约 3 分钟。规模一上来，问题就不只是人手够不够，还包括不同医生写法不一致、机构对外文书风格不统一、模型措辞越界，以及幻觉内容进入报告后的责任边界。

真正麻烦的地方

这四个场景表面上都在“生成内容”，但麻烦完全不同。

智能推项不能只给出像样的项目名。客户要的是本院真实可挂、可计费、可展示的项目。如果模型编出了不存在的 projectId、编码或价格，问题会直接传到前端或报告里。

科普也不能只是“说得通”。像那种过于肯定、带安抚意味的表述，即使模型主观上是在帮用户放松，也会把机构文书边界带偏。

建议生成的难点更像写作规范控制。内容大致正确还不够，句式要像机构医生写在体检报告里的建议，而不是像聊天机器人临时组织的一段话。

矛盾识别则是另一种麻烦。很多体检报告里的“冲突”并不是真冲突，而是模板差异、医学可共存表述，或者业务规则导致的正常写法。比如血压原始值异常，但只要一次复测正常，业务上就可以写“血压正常”。如果模型只盯着单个数值，很容易报出假问题。

我负责的部分

在这套系统里，我的角色更接近参与和持续维护部分关键链路，而不是把整套系统写成“我从 0 到 1 主导”。

我参与了智能推项链路的工程拆分，把它拆成思考、抽取、检索、映射、质检几段，再把模型产出的项目字段拿回本院项目库做反查。对不上的内容直接清空关键字段，宁可少展示，也不让模型编出的项目编码和价格继续透传。

推项链路本院库反查示意图：RAG 映射 + 校验三步流程 — 推项链路的对外说明物料：左侧手机端展示脱敏后的“推荐项目”列表（保留中文项目名和价格），右侧三步对应文中描述的“模型提候选 → RAG 映射本院 SKU → 反查后清空”。海报里的“Zero hallucinated SKUs”是营销口径，落到工程内部就是 `quality_control` 对不上字段直接清空。

在科普和建议侧，我参与整理和维护 prompt 规则，把一些实际会出边界问题的表达做成硬约束。科普侧固化了 5 条强禁词；建议侧把“三选一”“一条建议一个科室”“排除急诊科”“复查时间用阿拉伯数字”等规则压进输出口径里，目标不是让句子更花，而是让机构文书更稳。

患者指导和体检前提示文案的输出示意图 — 患者侧科普/建议输出的对外物料：右侧手机端展示脱敏后的中文体检前提示气泡，左侧三条英文要点对应文中描述的“贴合个人病史”“接近机构文书口径”“医生可改可签发”。底部小字“AI output reviewed by licensed physicians prior to delivery”对应内部的科普禁词和建议侧文书规则。

在矛盾识别侧，我参与维护过四路并发和三段式 LLM 链：先做自然语言分析，再抽成结构化 JSON，最后做二次审核和豁免。针对真实遇到的误报，规则里沉淀了 13 个具名假矛盾豁免案例，也把血压复测这类高频边界反复写进 prompt 和审核逻辑里。

风险分层与多 Agent 推理示意图：覆盖二十余类专项筛查 — 对外侧把推项链路里那段“思考、抽取、检索、映射、质检”包装成了风险分层 + 多 Agent 推理的物料。左侧手机里是脱敏后的“已深度思考”分析气泡，右下底栏对应推项侧维护的二十余类专项筛查。海报上的 22 是市场口径，文中口径仍是“二十余类”。

方案与取舍

这套流水线的核心思路，不是用一个大模型把四个场景一次性包掉，而是把每个场景收回到不同的约束方式里。

智能推项链路里，模型只能负责提出候选，不能负责定义“本院到底有什么项目”。项目映射后还要再经过 quality_control 反查，对不上就清空。这个做法会牺牲一部分表面覆盖率，但它换来的是更清楚的责任边界。

矛盾识别链路里，项目没有停在“让模型判断有没有矛盾”这一步，而是拆成分析、结构化和复审三段。结构化输出最多重试 5 次，并把上轮输出带回上下文，目的是减少模型一次没按 JSON 规范输出就把整条链路打断的情况。

另一个比较实际的取舍发生在工作流平台上。项目早期尝试过用 Coze 承担更完整的编排，后来退回到“主推理走 vLLM，Coze 只承接检索类子任务”的组合。原因不是平台不能用，而是这类业务的复杂度主要在规则约束、误报处理和输出边界上。如果把这些都堆进工作流节点里，编排本身会变成新的复杂度。后续客户内网部署时，Coze 代码节点沙盒冷启动约 3 秒/次，也让这个取舍更明确了。

最后一个取舍是，有些能力可以做，但不值得在这个阶段做重。比如历史矛盾分支后来被注释禁用，就是因为它会把更长的历史数据带进上下文，放大注意力稀释和幻觉风险。这里选择先收缩边界，而不是为了“功能更全”硬保留。

多 Agent LLM 流水线架构示意图 — 对外说明用的整体架构图：把上文展开过的“画像/病史/问卷 → 风险分层 → 推项 → RAG 映射本院库 → 校验 → 输出”串成五步流水线，下方两个输出对应实际产物——可落库的体检方案，和需要医生复核的患者沟通文案。流水线层之外的真正复杂度仍然落在四个生成链路各自的规则集和豁免清单里。

结果与边界

最终形成的是一套覆盖智能推项、科普、建议、矛盾识别 4 个场景的报告流水线 AI 方案。和上一代“无规则系统 + 医生人工撰写”相比，这套系统至少把四类任务都收回到了可工程化约束的链路里。

已经确认能公开的结果主要有几类。第一，智能推项链路加入了本院库反查，对不上的项目字段会被清空，不让不存在的项目编码、名称和价格继续透传。第二，矛盾识别沉淀了 13 个具名假矛盾豁免案例，并对血压复测、参考区间边界等场景加入了特殊规则。第三，科普和建议侧分别固化了强禁词、建议类型和文书风格约束。

这类案例我不会把它写成“AI 已经完全替代医生写报告”。当前可公开信息没有确认生产覆盖率、误报率、漏报率和节省人力数字，所以这里也不拿未经确认的数据去包装结果。更准确的说法是：我参与并维护的这部分工作，把原本容易漂移的生成任务，收回到了更适合医疗文书场景的规则边界内。

对外侧“从 10 分钟到几秒”的产品定位示意图 — 对外侧用来呈现产品价值的 before / after 物料。上一代单份“科普 + 建议”由医生手工写、约 3 分钟，是文中可公开的客观事实；海报上的“10 分钟到几秒”是面向客户的市场表达，最终输出仍然要走文中描述的本院库反查、禁词规则和二次审核才能发回报告。

如果你在做医疗文书生成、审核链路或高风险场景下的 Agent 工作流，可以通过页面下方微信二维码或邮件沟通，邮箱：contact@aildnc.com。

讨论类似项目

如果你正在评估类似的文档解析、企业 RAG、知识库或 AI 工作流，可以先发问题背景。微信沟通优先，邮箱也可以：contact@aildnc.com。

扫码加微信沟通

体检报告 AI 流水线：把生成链路收回到规则边界内

背景

真正麻烦的地方

我负责的部分

方案与取舍

结果与边界

相关链接

讨论类似项目