AI写小说：2023-2026论文演化脉络

先说个背景。2023年初的时候，GPT-4已经能写出挺不错的短故事了。几百字，有起承转合，语言也流畅。但你要是让它写一本小说——哪怕只是几万字——马上就露馅了。角色前后对不上，情节突然断裂，写着写着自己都忘了前面说过什么。

过去三年，做这个方向的研究者基本都在回答同一个问题：怎么让AI写得更长但不变烂？

我把找到的论文按问题演化串了六条线。前五条是学术脉络，第六条是工程实现。如果你也在做相关的工具，希望这个整理能帮你少走弯路。

全景地图

2023                    2024                    2025                    2026
 |                       |                       |                       |
 |  --- 怎么规划故事 -------------------------------------------------------
 |  DOC(详细大纲)          |                   DHO(动态大纲)          StoryWriter
 |                       |                   Outline-Guide          (事件大纲)
 |                       |                       |                       |
 |  --- 怎么写得够长 -------------------------------------------------------
 | RecurrentGPT           |                   LongWriter          Ultra-Long
 | (自然语言记忆)           |                  (万字输出)            (百万字理论)
 |                       |                       |                       |
 |  --- 怎么多人协作 -------------------------------------------------------
 | Dramatron            CritiCS              Agents' Room               |
 | (层级剧本)           (集体批评)            (叙事理论)                  |
 |                       |                StoryWriter(三Agent)          |
 |                       |                CharSim(角色扮演)             |
 |                       |                       |                       |
 |  --- 怎么不出错 ---------------------------------------------------------
 |                       |                   SCORE                Lost in Stories
 |                       |                (状态追踪)              (错误诊断)
 |                       |                KG-Story(知识图谱)           |
 |                       |                       |                       |
 |  --- 怎么评好坏 ---------------------------------------------------------
 |                  Good Story?           Learning to Reason            |
 |                  (评估维度)             (RL训练推理)                  |
 |                       |                       |                       |
 |  --- 怎么搭系统 ----[ 工程线 ]-------------------------------------------
 |                   Weaver              RaPID(RAG+大纲)          HAWK(工作流)
 |                  (模型家族)            StoryWeaver               Can LLMs?
 |                  CharImagine          (世界模型)              (混合规划)
 |                       |                       |                       |

怎么规划故事

没有大纲的AI写长篇，就像没有地图的出租车司机

DOC: Improving Long Story Coherence With Detailed Outline Control

ACL 2023

Kevin Yang, Dan Klein, Nanyun Peng, Yuandong Tian — UC Berkeley / Meta AI

这篇之前最好的系统叫Re3，只用三句话来指导一整篇几千字的故事。你想想，三句话——"主角去城堡、遇到龙、打败它"——然后让AI自由发挥写三千字。能不跑题才怪。

DOC做了两件事：一是把粗大纲展开成三层深度的树状结构，每个节点多个子事件，还做了过滤和排序；二是写的时候有个"监工"实时检查有没有偏离大纲。把创意决策提前到规划阶段去了。

结果不错，连贯性提升了 22.5%，趣味性也涨了 20.7%。

但有个数字值得注意：大纲最细那一层的实际执行率只有 58.5%。也就是说，大纲写得越细，AI反而越不听话。另外大纲一旦生成就不能改，这在实际写作中很不方便——谁写小说不是写着写着想法就变了？

然后到了2025年，有人想到——

Dynamic Hierarchical Outlining with Memory-Enhancement

NAACL 2025

既然静态大纲不好使，那就别一次写死。这篇的做法是写一段、更新一次大纲。大纲跟着故事走，写到中途发现某个角色特别出彩，就调整大纲给ta加戏。

听起来很自然，代价是计算开销变大了，而且"什么时候该调、调多少"靠的还是人拍脑袋的规则。

做工具的话

三层大纲是底线（梗概-章节-段落）。大纲必须能改。DOC那个58.5%的数字说明大纲不能太细——写得太具体AI反而放不开。粗细的平衡点是你产品设计里绕不过去的决策。

怎么写得够长

写到第十章，模型连第一章说了啥都不记得了

RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text

arXiv 2023

Wangchunshu Zhou 等 — 后来创办了AIWaves，做了Weaver

这篇的想法特别巧妙。Transformer有上下文窗口限制，写长了就看不见前面的内容。怎么办？用自然语言来模拟LSTM的循环记忆。

说人话就是搞两套笔记：一套短期笔记放在prompt里（最近几段在说什么），一套长期笔记存硬盘上（之前所有段落的摘要），需要的时候用语义搜索把相关内容找出来。因为笔记是文字写的，用户能直接看到甚至修改AI的"记忆"——这一点在做产品时特别值钱。

不过实际用起来，长期记忆的检索精度会随着文本变长而下降。到了第100章，搜出来的"相关记忆"可能已经不太靠谱了。

两年后，清华THUDM发现了一个让人哭笑不得的真相——

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

ICLR 2025

清华 THUDM — Yushi Bai 等

现在的LLM能读10万字的输入，却写不出超过2000字的输出。为啥？不是模型架构不行，是训练数据里就没有长输出的样本。模型不是"不能"写长文，是"没见过"长文该怎么写。

解决方法也很直接：先用Agent方式（写大纲然后分段写）让GPT-4o从2000字扩展到2万字，再用这些输出造了6000条训练数据，拿去微调一个9B模型。结果这个小模型在长文写作上直接超过了更大的商业模型。

这篇论文的意义在于，它把"AI写不长"这个问题从玄学拉回到了工程：不是能力问题，是数据问题。

那如果要写百万字级别的呢？

Ultra-Long Novel Generation: The Optimal Expansion Ratio

arXiv 2025

Hanwen Shen, Ting Ying

所有层级生成系统都在做"压缩-展开"（从大纲写到正文），但没人量化过这个过程中信息到底丢了多少。这篇用信息论建模，在40部百万字中文小说上做实验，给出了一个具体数字：最优压缩展开比是R=0.01。翻译成人话就是：10万字的小说，大纲在1000字左右最合适。

不过要注意，这篇做的是"重建"不是"生成"——它告诉你什么比例信息丢得最少，但不直接解决怎么从零开始编一个好故事。

做工具的话

RecurrentGPT的双记忆架构直接拿来用。LongWriter的发现意味着你可以通过微调而不是换架构来解决长度问题。大纲量控制在正文的1%左右。

怎么多人协作

与其让一个人身兼数职，不如分成一个团队

Dramatron: Co-Writing Screenplays and Theatre Scripts with Language Models

CHI 2023

Piotr Mirowski 等 — Google DeepMind

Google的人做了一个剧本写作工具。从一句话的核心冲突出发，一步步生成标题、角色表、情节节拍、场景描述、对话。每一步只把精炼摘要传给下一步，不让上下文膨胀。

请了15位行业专家来评——84%说有帮助，92%觉得输出有惊喜。但只有46%对最终剧本感到自豪。对话被集体吐槽"太表面了，没有潜台词"。不过有一位编剧真的把4部合作剧本搬上了舞台。

还暴露了一个风险：系统有时会原封不动地输出训练数据里的片段，作者建议使用者对输出做子串搜索。

Dramatron是一个人干所有事。有人开始想，要不拆成一个团队？

CritiCS: Collective Critics for Creative Story Generation

EMNLP 2024

Minwook Bae, Hyounghun Kim

这篇论文关注的点跟之前都不一样。之前大家都在想怎么写得"连贯"，这篇第一次认真问了一个问题：写得连贯但无聊，算好吗？

做法是请三个"评论家"来审稿。有意思的是评论家的身份根据故事内容动态分配——你写反乌托邦就派社会学家、心理学家、未来学家来。一个"主编"从三人的建议里选最好的。来回三轮。

创造性从57%拉到84%，效果显著。但同时发现一个重要规律：改的轮次越多，创造力越高，连贯性越低。这俩是跷跷板，你按下这头那头就翘起来。

既然要拆成团队，怎么分工才合理？

Agents' Room: Narrative Generation through Multi-step Collaboration

ICLR 2025

Fantine Huot 等 — Google DeepMind

第一次有人用正经叙事学理论来设计Agent分工。参照Freytag叙事金字塔搞了9个Agent：4个负责规划（冲突、人物、场景、情节），5个负责写作（铺垫、上升、高潮、下降、结局）。大家通过一个共享笔记本交流。还找了28位专业作家来造了一个高质量数据集。

写出来的东西在情节、创造力、人物、语言四个维度都获得了专家偏好。不过语言多样性上还是跟人类有明显差距——三元组重复率更高，用词更单调。而且是线性流水线，Agent之间没法互相修改。

能不能写更长、更复杂的？

StoryWriter: A Multi-Agent Framework for Long Story Generation

CIKM 2025

清华 KEG — Haotian Xia 等

Agents' Room只能写3000字左右，StoryWriter直接拉到了8000+。三个Agent各管一摊：大纲Agent生成事件元组（每个事件标注时间、空间、角色、因果关系）；规划Agent把事件分配到章节里，而且支持闪回和闪前；写作Agent在写每一章时会动态压缩前面的上下文，写完还有个协调器检查质量，不行就重写。

这是目前我看到的最成熟的多Agent写作架构。他们还用这套系统造了一个6000篇、平均8000字的故事数据集。

还有一个完全不同的路子——

Multi-Agent Character Simulation for Story Writing

In2Writing 2025

前面所有方案都是功能性分工——规划Agent、写作Agent、评审Agent。这篇换了个思路：让Agent扮演故事里的角色，先即兴表演，再把表演记录改写成小说。角色的一致性和深度自然就有了，因为每个Agent"住在"自己的角色里。

做工具的话

StoryWriter的三Agent架构（大纲-规划-写作）可以直接参考。CritiCS发现的创造力和连贯性跷跷板是产品决策——你得让用户能调这个平衡。角色模拟的思路（先演再写）是差异化机会，用户感知度高。

怎么不出错

被砸碎的花瓶下一章又完好如初地出现在桌上

SCORE: Story Coherence and Retrieval Enhancement

arXiv 2025

Qiang Yi 等

AI小说里最让读者出戏的就是这类bug——死了的人又活过来，被摧毁的东西下一章完好无损。不是故事反转，就是纯粹的遗忘。

SCORE用了三板斧来治这个病。第一，状态追踪——给每个物品和角色记一个状态标签（存在/丢失/毁坏），用逻辑规则约束（"毁坏"不能变回"存在"）。第二，分层摘要——随时知道谁在哪、做了什么、现在什么心情。第三，混合检索——写新段落时自动找出相关的历史片段。

一致性提升了 23.6%，幻觉减少了 41.8%，物品状态追踪准确率 98%。不过三态系统（存在/丢失/毁坏）有点粗糙——"部分损坏"这种中间状态就没法表达。

知道怎么修了，但到底哪些地方容易出错？

Lost in Stories: Consistency Bugs in Long Story Generation

arXiv 2026

Junjie Li 等 — Microsoft Research 相关

这篇做了一件很扎实的事：在2000篇8000到10000字的AI小说上做全面体检，整理出5大类19种一致性错误——时间线矛盾（6种）、角色性格突变（4种）、世界观冲突（3种）、命名混乱（3种）、视角跳跃（3种）。

几个发现特别有意思：

错误集中出现在故事的40%到60%处，不是开头也不是结尾，是中后段
错误数量和故事长度线性相关——长一倍，错一倍
模型越"自由发挥"的段落（高信息熵），出错概率越高
GPT-5推理模式的错误密度最低（0.113/万字），LongWriter较高（0.669）

他们做了个自动检测工具，召回率55%——听起来不高，但人类专家只有17%。对AI的错误，AI自己反而更能发现。

不过这篇只做了诊断没做治疗，而且分不清"故意的叙事模糊"（悬疑伏笔）和真正的错误。

做工具的话

既然错误集中在40-60%处，你的工具应该在故事写到中段时主动跳出来做一致性检查，别等写完。19种错误的清单直接当QA检查表用。SCORE的架构（状态追踪+分层摘要+混合检索）就是你一致性引擎的设计蓝图。优先解决角色命名一致性和时间线矛盾，这两类用户最容易感知。

怎么评好坏

写完了，怎么知道写得好不好？

What Makes a Good Story and How Can We Measure It?

arXiv 2024

这篇综述梳理了13个评估维度：连贯性、角色发展、趣味性、共情、惊喜感、风格... 结论挺残酷的：目前没有任何自动化指标能捕捉"读到这里你会不会起鸡皮疙瘩"。感动、紧张、惊喜这些东西，只能靠人来评。BLEU和ROUGE本来就是给翻译任务设计的，拿来评小说完全牛头不对马嘴。

那能不能让AI自己学会判断"什么样的下一章才算好"？

Learning to Reason for Long-Form Story Generation

arXiv 2025

Alexander Gurung, Mirella Lapata — 爱丁堡大学

之前让AI"像作家一样思考"全靠prompt工程师手写指令，效果取决于人的水平。这篇想让模型自己学会这件事。

做法是给模型一堆上下文（故事梗概、已写内容摘要、角色表、前一章全文、下一章概要），让它先推理出一个写作计划，再写。用RL训练，奖励信号很聪明——衡量的是"有了推理之后，写出来的东西有没有更接近真实的下一章"。不需要人工标注数据。

RL训练的模型对阵基座模型胜率 76.5%，对阵SFT模型胜率 90%。对，你没看错，SFT在这个任务上被打了个落花流水，还出现了严重的重复退化。科幻和奇幻体裁改善最明显。

A Survey on LLMs for Story Generation

EMNLP 2025

全景综述，提出了一个六维度的自动评估体系（ASE）。领域共识三条：层级规划是基本功，多Agent是趋势，评估方法是最大瓶颈。

做工具的话

"先想再写"比"直接写"的胜率差了90%——这个数字说明如果你有微调能力，这是最值得投入的方向。科幻和奇幻是AI最擅长的体裁，可以主打。评估体系本身是差异化机会——做出靠谱的"AI小说质量分"就是壁垒。

怎么搭系统

论文讲的是"能不能做到"，这条线讲的是"怎么做出来"

Weaver: Foundation Models for Creative Writing

arXiv 2024

Tiannan Wang 等 — AIWaves（RecurrentGPT原班人马）

这个团队的路径值得单独讲。2023年发了RecurrentGPT（学术论文），2024年做了Weaver（创意写作专用模型家族，从1.8B到34B四个档位），然后基于Weaver上线了WawaWriter商业平台。论文到产品，一条线走通了。

工程上最有意思的决策是搞了一个动态路由Agent——根据任务复杂度自动选模型。简单的扩写用1.8B的Mini跑，省钱；复杂的大纲规划用34B的Ultra，保质量。这意味着他们的成本比所有用通用大模型API的竞品都低。

核心判断：专门为写作训练的小模型，在写作任务上可以超过通用大模型，而且便宜得多。

RaPID: Retrieval-Augmented Long Text Generation with Writing Planning

ACL 2025

中科大 StarTeam

最工程化的RAG+写作方案。三个模块：从260万Wikipedia大纲里检索相关结构来辅助生成大纲；用约束搜索找相关信息；基于DAG结构的写作计划指导生成。260万大纲语料库是开源的，如果你的工具需要"给个主题就能自动找参考再写"，这就是现成的蓝图。

Guiding Generative Storytelling with Knowledge Graphs

ACM TOCHI 2025

用知识图谱来管理故事世界——角色属性、关系网络、心理状态全部结构化存储。写新段落前先查图谱确认"当前谁和谁是什么关系"。矛盾减少了40%以上。如果你做工具，"角色关系图"可能比"角色描述卡"更管用。

Character-Centric Creative Story Generation via Imagination

arXiv 2024

写故事之前先用文生图生成角色的具体形象，然后基于视觉化的角色来写。还能切换不同的"作者人格"，让AI从不同视角写同一个故事。人类评估偏好率 79.5%。

StoryWeaver: A Unified World Model for Character Customization

arXiv 2024

把角色属性、人物关系、世界规则整合到一个"世界模型"里，写故事时自动保证角色行为符合设定。可以理解为小说版的"游戏世界状态机"。

HAWK: A Hierarchical Workflow Framework for Multi-Agent Systems

arXiv 2025

不是专门做故事的，但对搭多Agent系统很有参考价值。定义了四层架构（用户端 -> 调度 -> 执行 -> 资源管理）和16个标准化接口。如果你从零搭多Agent写作工具，这是现成的脚手架。

Can LLMs Generate Good Stories? A Narrative Planning Perspective

arXiv 2025

从规划理论角度审视LLM写故事的能力，核心结论就一句话：混合方案（符号规划保结构 + 神经网络保流畅）胜过任何一种单打独斗。纯LLM结构散，纯规划太死板。

其他值得看的

开源项目：AutoNovel（NousResearch，从概念到ePub全流水线）、LibriScribe（多Agent书籍生成）、StoryCraftr（CLI写作工具）

商业参考：Sudowrite（多模型路由+自研Muse模型）、阅文妙笔（DeepSeek-R1驱动，有角色属性系统）

基准测试：LongGenBench（arXiv 2024）如果你想对比自己的系统跟别人差多少

按"搭工具"的顺序来看

你需要什么              看哪些论文                     记住的数字
-----------           ----------                    ----------

1. 大纲系统            DOC + DHO + StoryWriter        大纲 = 正文的1%
                                                     叶节点执行率58%

2. 记忆管理            RecurrentGPT + SCORE           物品追踪98%
                      + KG-Storytelling              矛盾减少40%+

3. 写作引擎            LongWriter + Weaver            9B能超大模型
                      + Learning to Reason           RL比SFT胜率90%

4. 多Agent             StoryWriter + Agents' Room     三Agent 平均8081字
                      + HAWK(工作流框架)

5. 角色系统            CharSim + CharImagine          偏好率79.5%
                      + StoryWeaver(世界模型)

6. 一致性检查          SCORE + Lost in Stories         错误集中在40-60%
                      + KG-Story                     19类错误清单

7. 质量评估            Good Story Survey              13个评估维度
                      + CritiCS                      创造力vs连贯性

读完之后的几个想法

这已经不是模型问题了

2023年大家还在讨论"怎么让模型更聪明"。到2025年，话题已经变成了"怎么搭一个系统让多个模型协作"。壁垒不在模型本身——你用Claude用GPT都行——壁垒在大纲怎么拆、记忆怎么管、一致性怎么查、质量怎么评。这些都是系统设计和工程能力的问题。

创造力和不出错没法同时要

CritiCS量化了这个权衡，Lost in Stories证明了错误随长度线性增长。你不能同时把两个都拉满。比较务实的方案可能是：先放开了写（高创造力模式），写完再系统性地检查修复（高一致性模式）。产品上做成两步走，让用户自己选侧重。

到目前为止，没有一篇论文的产出让专业作家真正满意

Dramatron的46%自豪度是所有论文里最高的了。语言多样性、叙事张力、人物深度——这些"文学性"的东西仍然是短板。这意味着产品方向应该是人机协作，不是全自动。AI负责扩写、检查、提供选项；人来选择、打磨、注入灵魂。

接下来最可能长出来的东西

三个方向正在汇聚：角色模拟（先"演"再"写"），RL训练推理能力（让模型学会"像作家一样想"），实时一致性引擎（写一段查一段）。把这三件事整合成一个系统，大概就是下一代工具的样子。

Weaver团队的路径值得研究

从RecurrentGPT到Weaver到WawaWriter，这是目前唯一走通了论文到产品全链路的团队。他们押注的是"写作专用小模型+动态路由"，跟Sudowrite的"通用大模型API+轻量自研模型"是两条路。两种都走得通，但团队配置和资金需求完全不同。

全部24篇速查表

论文	出处	一句话	方向
DOC	ACL 2023	详细层级大纲控制	规划
RecurrentGPT	arXiv 2023	自然语言记忆写无限长文本	长度
Dramatron	CHI 2023	层级剧本生成，46%自豪度	协作
CritiCS	EMNLP 2024	三评论家提升创造力到84%	协作
Good Story	arXiv 2024	13维评估，没有指标能测感动	评估
Weaver	arXiv 2024	写作专用模型家族+动态路由	工程
CharImagine	arXiv 2024	先画角色再写故事	工程
StoryWeaver	arXiv 2024	统一世界模型管角色一致性	工程
Outline-Guide	arXiv 2024	大纲引导的可控生成	规划
LongGenBench	arXiv 2024	长文本生成基准测试	评估
LongWriter	ICLR 2025	9B模型单次写万字	长度
Agents' Room	ICLR 2025	叙事金字塔分工的9个Agent	协作
StoryWriter	CIKM 2025	三Agent平均写8081字	协作
Dynamic-HO	NAACL 2025	写一段调一次大纲	规划
CharSim	In2Writing 2025	先扮演角色再写成小说	协作
Learning to Reason	arXiv 2025	RL训练，对SFT胜率90%	评估
SCORE	arXiv 2025	状态追踪+检索，物品准确率98%	一致性
Ultra-Long	arXiv 2025	大纲=正文1%是最优比	长度
KG-Story	TOCHI 2025	知识图谱管角色关系减40%矛盾	工程
RaPID	ACL 2025	RAG+260万大纲语料库	工程
Can LLMs?	arXiv 2025	符号规划+神经网络混合最优	工程
HAWK	arXiv 2025	多Agent四层架构+16个接口	工程
LLM Story Survey	EMNLP 2025	全景综述，评估是最大瓶颈	评估
Lost in Stories	arXiv 2026	19类错误，集中在40-60%处	一致性

2026-04-03 · 24篇论文 · 6条演化线

AI写小说这件事，走到哪了？

全景地图

怎么规划故事

做工具的话

怎么写得够长

做工具的话

怎么多人协作

做工具的话

怎么不出错

做工具的话

怎么评好坏

做工具的话

怎么搭系统

其他值得看的

按"搭工具"的顺序来看

读完之后的几个想法

这已经不是模型问题了

创造力和不出错没法同时要

到目前为止，没有一篇论文的产出让专业作家真正满意

接下来最可能长出来的东西

Weaver团队的路径值得研究

全部24篇速查表