翻了24篇论文之后,把2023到2026年的进展捋了一遍。
写给也在琢磨这事儿的人。
先说个背景。2023年初的时候,GPT-4已经能写出挺不错的短故事了。几百字,有起承转合,语言也流畅。但你要是让它写一本小说——哪怕只是几万字——马上就露馅了。角色前后对不上,情节突然断裂,写着写着自己都忘了前面说过什么。
过去三年,做这个方向的研究者基本都在回答同一个问题:怎么让AI写得更长但不变烂?
我把找到的论文按问题演化串了六条线。前五条是学术脉络,第六条是工程实现。如果你也在做相关的工具,希望这个整理能帮你少走弯路。
2023 2024 2025 2026 | | | | | --- 怎么规划故事 ------------------------------------------------------- | DOC(详细大纲) | DHO(动态大纲) StoryWriter | | Outline-Guide (事件大纲) | | | | | --- 怎么写得够长 ------------------------------------------------------- | RecurrentGPT | LongWriter Ultra-Long | (自然语言记忆) | (万字输出) (百万字理论) | | | | | --- 怎么多人协作 ------------------------------------------------------- | Dramatron CritiCS Agents' Room | | (层级剧本) (集体批评) (叙事理论) | | | StoryWriter(三Agent) | | | CharSim(角色扮演) | | | | | | --- 怎么不出错 --------------------------------------------------------- | | SCORE Lost in Stories | | (状态追踪) (错误诊断) | | KG-Story(知识图谱) | | | | | | --- 怎么评好坏 --------------------------------------------------------- | Good Story? Learning to Reason | | (评估维度) (RL训练推理) | | | | | | --- 怎么搭系统 ----[ 工程线 ]------------------------------------------- | Weaver RaPID(RAG+大纲) HAWK(工作流) | (模型家族) StoryWeaver Can LLMs? | CharImagine (世界模型) (混合规划) | | | |
这篇之前最好的系统叫Re3,只用三句话来指导一整篇几千字的故事。你想想,三句话——"主角去城堡、遇到龙、打败它"——然后让AI自由发挥写三千字。能不跑题才怪。
DOC做了两件事:一是把粗大纲展开成三层深度的树状结构,每个节点多个子事件,还做了过滤和排序;二是写的时候有个"监工"实时检查有没有偏离大纲。把创意决策提前到规划阶段去了。
结果不错,连贯性提升了 22.5%,趣味性也涨了 20.7%。
但有个数字值得注意:大纲最细那一层的实际执行率只有 58.5%。也就是说,大纲写得越细,AI反而越不听话。另外大纲一旦生成就不能改,这在实际写作中很不方便——谁写小说不是写着写着想法就变了?
既然静态大纲不好使,那就别一次写死。这篇的做法是写一段、更新一次大纲。大纲跟着故事走,写到中途发现某个角色特别出彩,就调整大纲给ta加戏。
听起来很自然,代价是计算开销变大了,而且"什么时候该调、调多少"靠的还是人拍脑袋的规则。
三层大纲是底线(梗概-章节-段落)。大纲必须能改。DOC那个58.5%的数字说明大纲不能太细——写得太具体AI反而放不开。粗细的平衡点是你产品设计里绕不过去的决策。
这篇的想法特别巧妙。Transformer有上下文窗口限制,写长了就看不见前面的内容。怎么办?用自然语言来模拟LSTM的循环记忆。
说人话就是搞两套笔记:一套短期笔记放在prompt里(最近几段在说什么),一套长期笔记存硬盘上(之前所有段落的摘要),需要的时候用语义搜索把相关内容找出来。因为笔记是文字写的,用户能直接看到甚至修改AI的"记忆"——这一点在做产品时特别值钱。
不过实际用起来,长期记忆的检索精度会随着文本变长而下降。到了第100章,搜出来的"相关记忆"可能已经不太靠谱了。
现在的LLM能读10万字的输入,却写不出超过2000字的输出。为啥?不是模型架构不行,是训练数据里就没有长输出的样本。模型不是"不能"写长文,是"没见过"长文该怎么写。
解决方法也很直接:先用Agent方式(写大纲然后分段写)让GPT-4o从2000字扩展到2万字,再用这些输出造了6000条训练数据,拿去微调一个9B模型。结果这个小模型在长文写作上直接超过了更大的商业模型。
这篇论文的意义在于,它把"AI写不长"这个问题从玄学拉回到了工程:不是能力问题,是数据问题。
所有层级生成系统都在做"压缩-展开"(从大纲写到正文),但没人量化过这个过程中信息到底丢了多少。这篇用信息论建模,在40部百万字中文小说上做实验,给出了一个具体数字:最优压缩展开比是R=0.01。翻译成人话就是:10万字的小说,大纲在1000字左右最合适。
不过要注意,这篇做的是"重建"不是"生成"——它告诉你什么比例信息丢得最少,但不直接解决怎么从零开始编一个好故事。
RecurrentGPT的双记忆架构直接拿来用。LongWriter的发现意味着你可以通过微调而不是换架构来解决长度问题。大纲量控制在正文的1%左右。
Google的人做了一个剧本写作工具。从一句话的核心冲突出发,一步步生成标题、角色表、情节节拍、场景描述、对话。每一步只把精炼摘要传给下一步,不让上下文膨胀。
请了15位行业专家来评——84%说有帮助,92%觉得输出有惊喜。但只有46%对最终剧本感到自豪。对话被集体吐槽"太表面了,没有潜台词"。不过有一位编剧真的把4部合作剧本搬上了舞台。
还暴露了一个风险:系统有时会原封不动地输出训练数据里的片段,作者建议使用者对输出做子串搜索。
这篇论文关注的点跟之前都不一样。之前大家都在想怎么写得"连贯",这篇第一次认真问了一个问题:写得连贯但无聊,算好吗?
做法是请三个"评论家"来审稿。有意思的是评论家的身份根据故事内容动态分配——你写反乌托邦就派社会学家、心理学家、未来学家来。一个"主编"从三人的建议里选最好的。来回三轮。
创造性从57%拉到84%,效果显著。但同时发现一个重要规律:改的轮次越多,创造力越高,连贯性越低。这俩是跷跷板,你按下这头那头就翘起来。
第一次有人用正经叙事学理论来设计Agent分工。参照Freytag叙事金字塔搞了9个Agent:4个负责规划(冲突、人物、场景、情节),5个负责写作(铺垫、上升、高潮、下降、结局)。大家通过一个共享笔记本交流。还找了28位专业作家来造了一个高质量数据集。
写出来的东西在情节、创造力、人物、语言四个维度都获得了专家偏好。不过语言多样性上还是跟人类有明显差距——三元组重复率更高,用词更单调。而且是线性流水线,Agent之间没法互相修改。
Agents' Room只能写3000字左右,StoryWriter直接拉到了8000+。三个Agent各管一摊:大纲Agent生成事件元组(每个事件标注时间、空间、角色、因果关系);规划Agent把事件分配到章节里,而且支持闪回和闪前;写作Agent在写每一章时会动态压缩前面的上下文,写完还有个协调器检查质量,不行就重写。
这是目前我看到的最成熟的多Agent写作架构。他们还用这套系统造了一个6000篇、平均8000字的故事数据集。
前面所有方案都是功能性分工——规划Agent、写作Agent、评审Agent。这篇换了个思路:让Agent扮演故事里的角色,先即兴表演,再把表演记录改写成小说。角色的一致性和深度自然就有了,因为每个Agent"住在"自己的角色里。
StoryWriter的三Agent架构(大纲-规划-写作)可以直接参考。CritiCS发现的创造力和连贯性跷跷板是产品决策——你得让用户能调这个平衡。角色模拟的思路(先演再写)是差异化机会,用户感知度高。
AI小说里最让读者出戏的就是这类bug——死了的人又活过来,被摧毁的东西下一章完好无损。不是故事反转,就是纯粹的遗忘。
SCORE用了三板斧来治这个病。第一,状态追踪——给每个物品和角色记一个状态标签(存在/丢失/毁坏),用逻辑规则约束("毁坏"不能变回"存在")。第二,分层摘要——随时知道谁在哪、做了什么、现在什么心情。第三,混合检索——写新段落时自动找出相关的历史片段。
一致性提升了 23.6%,幻觉减少了 41.8%,物品状态追踪准确率 98%。不过三态系统(存在/丢失/毁坏)有点粗糙——"部分损坏"这种中间状态就没法表达。
这篇做了一件很扎实的事:在2000篇8000到10000字的AI小说上做全面体检,整理出5大类19种一致性错误——时间线矛盾(6种)、角色性格突变(4种)、世界观冲突(3种)、命名混乱(3种)、视角跳跃(3种)。
几个发现特别有意思:
他们做了个自动检测工具,召回率55%——听起来不高,但人类专家只有17%。对AI的错误,AI自己反而更能发现。
不过这篇只做了诊断没做治疗,而且分不清"故意的叙事模糊"(悬疑伏笔)和真正的错误。
既然错误集中在40-60%处,你的工具应该在故事写到中段时主动跳出来做一致性检查,别等写完。19种错误的清单直接当QA检查表用。SCORE的架构(状态追踪+分层摘要+混合检索)就是你一致性引擎的设计蓝图。优先解决角色命名一致性和时间线矛盾,这两类用户最容易感知。
这篇综述梳理了13个评估维度:连贯性、角色发展、趣味性、共情、惊喜感、风格... 结论挺残酷的:目前没有任何自动化指标能捕捉"读到这里你会不会起鸡皮疙瘩"。感动、紧张、惊喜这些东西,只能靠人来评。BLEU和ROUGE本来就是给翻译任务设计的,拿来评小说完全牛头不对马嘴。
之前让AI"像作家一样思考"全靠prompt工程师手写指令,效果取决于人的水平。这篇想让模型自己学会这件事。
做法是给模型一堆上下文(故事梗概、已写内容摘要、角色表、前一章全文、下一章概要),让它先推理出一个写作计划,再写。用RL训练,奖励信号很聪明——衡量的是"有了推理之后,写出来的东西有没有更接近真实的下一章"。不需要人工标注数据。
RL训练的模型对阵基座模型胜率 76.5%,对阵SFT模型胜率 90%。对,你没看错,SFT在这个任务上被打了个落花流水,还出现了严重的重复退化。科幻和奇幻体裁改善最明显。
全景综述,提出了一个六维度的自动评估体系(ASE)。领域共识三条:层级规划是基本功,多Agent是趋势,评估方法是最大瓶颈。
"先想再写"比"直接写"的胜率差了90%——这个数字说明如果你有微调能力,这是最值得投入的方向。科幻和奇幻是AI最擅长的体裁,可以主打。评估体系本身是差异化机会——做出靠谱的"AI小说质量分"就是壁垒。
这个团队的路径值得单独讲。2023年发了RecurrentGPT(学术论文),2024年做了Weaver(创意写作专用模型家族,从1.8B到34B四个档位),然后基于Weaver上线了WawaWriter商业平台。论文到产品,一条线走通了。
工程上最有意思的决策是搞了一个动态路由Agent——根据任务复杂度自动选模型。简单的扩写用1.8B的Mini跑,省钱;复杂的大纲规划用34B的Ultra,保质量。这意味着他们的成本比所有用通用大模型API的竞品都低。
核心判断:专门为写作训练的小模型,在写作任务上可以超过通用大模型,而且便宜得多。
最工程化的RAG+写作方案。三个模块:从260万Wikipedia大纲里检索相关结构来辅助生成大纲;用约束搜索找相关信息;基于DAG结构的写作计划指导生成。260万大纲语料库是开源的,如果你的工具需要"给个主题就能自动找参考再写",这就是现成的蓝图。
用知识图谱来管理故事世界——角色属性、关系网络、心理状态全部结构化存储。写新段落前先查图谱确认"当前谁和谁是什么关系"。矛盾减少了40%以上。如果你做工具,"角色关系图"可能比"角色描述卡"更管用。
写故事之前先用文生图生成角色的具体形象,然后基于视觉化的角色来写。还能切换不同的"作者人格",让AI从不同视角写同一个故事。人类评估偏好率 79.5%。
把角色属性、人物关系、世界规则整合到一个"世界模型"里,写故事时自动保证角色行为符合设定。可以理解为小说版的"游戏世界状态机"。
不是专门做故事的,但对搭多Agent系统很有参考价值。定义了四层架构(用户端 -> 调度 -> 执行 -> 资源管理)和16个标准化接口。如果你从零搭多Agent写作工具,这是现成的脚手架。
从规划理论角度审视LLM写故事的能力,核心结论就一句话:混合方案(符号规划保结构 + 神经网络保流畅)胜过任何一种单打独斗。纯LLM结构散,纯规划太死板。
开源项目:AutoNovel(NousResearch,从概念到ePub全流水线)、LibriScribe(多Agent书籍生成)、StoryCraftr(CLI写作工具)
商业参考:Sudowrite(多模型路由+自研Muse模型)、阅文妙笔(DeepSeek-R1驱动,有角色属性系统)
基准测试:LongGenBench(arXiv 2024)如果你想对比自己的系统跟别人差多少
你需要什么 看哪些论文 记住的数字
----------- ---------- ----------
1. 大纲系统 DOC + DHO + StoryWriter 大纲 = 正文的1%
叶节点执行率58%
2. 记忆管理 RecurrentGPT + SCORE 物品追踪98%
+ KG-Storytelling 矛盾减少40%+
3. 写作引擎 LongWriter + Weaver 9B能超大模型
+ Learning to Reason RL比SFT胜率90%
4. 多Agent StoryWriter + Agents' Room 三Agent 平均8081字
+ HAWK(工作流框架)
5. 角色系统 CharSim + CharImagine 偏好率79.5%
+ StoryWeaver(世界模型)
6. 一致性检查 SCORE + Lost in Stories 错误集中在40-60%
+ KG-Story 19类错误清单
7. 质量评估 Good Story Survey 13个评估维度
+ CritiCS 创造力vs连贯性
2023年大家还在讨论"怎么让模型更聪明"。到2025年,话题已经变成了"怎么搭一个系统让多个模型协作"。壁垒不在模型本身——你用Claude用GPT都行——壁垒在大纲怎么拆、记忆怎么管、一致性怎么查、质量怎么评。这些都是系统设计和工程能力的问题。
CritiCS量化了这个权衡,Lost in Stories证明了错误随长度线性增长。你不能同时把两个都拉满。比较务实的方案可能是:先放开了写(高创造力模式),写完再系统性地检查修复(高一致性模式)。产品上做成两步走,让用户自己选侧重。
Dramatron的46%自豪度是所有论文里最高的了。语言多样性、叙事张力、人物深度——这些"文学性"的东西仍然是短板。这意味着产品方向应该是人机协作,不是全自动。AI负责扩写、检查、提供选项;人来选择、打磨、注入灵魂。
三个方向正在汇聚:角色模拟(先"演"再"写"),RL训练推理能力(让模型学会"像作家一样想"),实时一致性引擎(写一段查一段)。把这三件事整合成一个系统,大概就是下一代工具的样子。
从RecurrentGPT到Weaver到WawaWriter,这是目前唯一走通了论文到产品全链路的团队。他们押注的是"写作专用小模型+动态路由",跟Sudowrite的"通用大模型API+轻量自研模型"是两条路。两种都走得通,但团队配置和资金需求完全不同。
| 论文 | 出处 | 一句话 | 方向 |
|---|---|---|---|
| DOC | ACL 2023 | 详细层级大纲控制 | 规划 |
| RecurrentGPT | arXiv 2023 | 自然语言记忆写无限长文本 | 长度 |
| Dramatron | CHI 2023 | 层级剧本生成,46%自豪度 | 协作 |
| CritiCS | EMNLP 2024 | 三评论家提升创造力到84% | 协作 |
| Good Story | arXiv 2024 | 13维评估,没有指标能测感动 | 评估 |
| Weaver | arXiv 2024 | 写作专用模型家族+动态路由 | 工程 |
| CharImagine | arXiv 2024 | 先画角色再写故事 | 工程 |
| StoryWeaver | arXiv 2024 | 统一世界模型管角色一致性 | 工程 |
| Outline-Guide | arXiv 2024 | 大纲引导的可控生成 | 规划 |
| LongGenBench | arXiv 2024 | 长文本生成基准测试 | 评估 |
| LongWriter | ICLR 2025 | 9B模型单次写万字 | 长度 |
| Agents' Room | ICLR 2025 | 叙事金字塔分工的9个Agent | 协作 |
| StoryWriter | CIKM 2025 | 三Agent平均写8081字 | 协作 |
| Dynamic-HO | NAACL 2025 | 写一段调一次大纲 | 规划 |
| CharSim | In2Writing 2025 | 先扮演角色再写成小说 | 协作 |
| Learning to Reason | arXiv 2025 | RL训练,对SFT胜率90% | 评估 |
| SCORE | arXiv 2025 | 状态追踪+检索,物品准确率98% | 一致性 |
| Ultra-Long | arXiv 2025 | 大纲=正文1%是最优比 | 长度 |
| KG-Story | TOCHI 2025 | 知识图谱管角色关系减40%矛盾 | 工程 |
| RaPID | ACL 2025 | RAG+260万大纲语料库 | 工程 |
| Can LLMs? | arXiv 2025 | 符号规划+神经网络混合最优 | 工程 |
| HAWK | arXiv 2025 | 多Agent四层架构+16个接口 | 工程 |
| LLM Story Survey | EMNLP 2025 | 全景综述,评估是最大瓶颈 | 评估 |
| Lost in Stories | arXiv 2026 | 19类错误,集中在40-60%处 | 一致性 |
2026-04-03 · 24篇论文 · 6条演化线