AI写小说这件事,走到哪了?

翻了24篇论文之后,把2023到2026年的进展捋了一遍。
写给也在琢磨这事儿的人。

2026-04-03 | ACL, EMNLP, ICLR, CHI, CIKM, NAACL 等

先说个背景。2023年初的时候,GPT-4已经能写出挺不错的短故事了。几百字,有起承转合,语言也流畅。但你要是让它写一本小说——哪怕只是几万字——马上就露馅了。角色前后对不上,情节突然断裂,写着写着自己都忘了前面说过什么。

过去三年,做这个方向的研究者基本都在回答同一个问题:怎么让AI写得更长但不变烂?

我把找到的论文按问题演化串了六条线。前五条是学术脉络,第六条是工程实现。如果你也在做相关的工具,希望这个整理能帮你少走弯路。

全景地图

2023                    2024                    2025                    2026
 |                       |                       |                       |
 |  --- 怎么规划故事 -------------------------------------------------------
 |  DOC(详细大纲)          |                   DHO(动态大纲)          StoryWriter
 |                       |                   Outline-Guide          (事件大纲)
 |                       |                       |                       |
 |  --- 怎么写得够长 -------------------------------------------------------
 | RecurrentGPT           |                   LongWriter          Ultra-Long
 | (自然语言记忆)           |                  (万字输出)            (百万字理论)
 |                       |                       |                       |
 |  --- 怎么多人协作 -------------------------------------------------------
 | Dramatron            CritiCS              Agents' Room               |
 | (层级剧本)           (集体批评)            (叙事理论)                  |
 |                       |                StoryWriter(三Agent)          |
 |                       |                CharSim(角色扮演)             |
 |                       |                       |                       |
 |  --- 怎么不出错 ---------------------------------------------------------
 |                       |                   SCORE                Lost in Stories
 |                       |                (状态追踪)              (错误诊断)
 |                       |                KG-Story(知识图谱)           |
 |                       |                       |                       |
 |  --- 怎么评好坏 ---------------------------------------------------------
 |                  Good Story?           Learning to Reason            |
 |                  (评估维度)             (RL训练推理)                  |
 |                       |                       |                       |
 |  --- 怎么搭系统 ----[ 工程线 ]-------------------------------------------
 |                   Weaver              RaPID(RAG+大纲)          HAWK(工作流)
 |                  (模型家族)            StoryWeaver               Can LLMs?
 |                  CharImagine          (世界模型)              (混合规划)
 |                       |                       |                       |
1

怎么规划故事

没有大纲的AI写长篇,就像没有地图的出租车司机
DOC: Improving Long Story Coherence With Detailed Outline Control
ACL 2023
Kevin Yang, Dan Klein, Nanyun Peng, Yuandong Tian — UC Berkeley / Meta AI

这篇之前最好的系统叫Re3,只用三句话来指导一整篇几千字的故事。你想想,三句话——"主角去城堡、遇到龙、打败它"——然后让AI自由发挥写三千字。能不跑题才怪。

DOC做了两件事:一是把粗大纲展开成三层深度的树状结构,每个节点多个子事件,还做了过滤和排序;二是写的时候有个"监工"实时检查有没有偏离大纲。把创意决策提前到规划阶段去了。

结果不错,连贯性提升了 22.5%,趣味性也涨了 20.7%

但有个数字值得注意:大纲最细那一层的实际执行率只有 58.5%。也就是说,大纲写得越细,AI反而越不听话。另外大纲一旦生成就不能改,这在实际写作中很不方便——谁写小说不是写着写着想法就变了?

然后到了2025年,有人想到——
Dynamic Hierarchical Outlining with Memory-Enhancement
NAACL 2025

既然静态大纲不好使,那就别一次写死。这篇的做法是写一段、更新一次大纲。大纲跟着故事走,写到中途发现某个角色特别出彩,就调整大纲给ta加戏。

听起来很自然,代价是计算开销变大了,而且"什么时候该调、调多少"靠的还是人拍脑袋的规则。

做工具的话

三层大纲是底线(梗概-章节-段落)。大纲必须能改。DOC那个58.5%的数字说明大纲不能太细——写得太具体AI反而放不开。粗细的平衡点是你产品设计里绕不过去的决策。

2

怎么写得够长

写到第十章,模型连第一章说了啥都不记得了
RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text
arXiv 2023
Wangchunshu Zhou 等 — 后来创办了AIWaves,做了Weaver

这篇的想法特别巧妙。Transformer有上下文窗口限制,写长了就看不见前面的内容。怎么办?用自然语言来模拟LSTM的循环记忆。

说人话就是搞两套笔记:一套短期笔记放在prompt里(最近几段在说什么),一套长期笔记存硬盘上(之前所有段落的摘要),需要的时候用语义搜索把相关内容找出来。因为笔记是文字写的,用户能直接看到甚至修改AI的"记忆"——这一点在做产品时特别值钱。

不过实际用起来,长期记忆的检索精度会随着文本变长而下降。到了第100章,搜出来的"相关记忆"可能已经不太靠谱了。

两年后,清华THUDM发现了一个让人哭笑不得的真相——
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
ICLR 2025
清华 THUDM — Yushi Bai 等

现在的LLM能读10万字的输入,却写不出超过2000字的输出。为啥?不是模型架构不行,是训练数据里就没有长输出的样本。模型不是"不能"写长文,是"没见过"长文该怎么写。

解决方法也很直接:先用Agent方式(写大纲然后分段写)让GPT-4o从2000字扩展到2万字,再用这些输出造了6000条训练数据,拿去微调一个9B模型。结果这个小模型在长文写作上直接超过了更大的商业模型。

这篇论文的意义在于,它把"AI写不长"这个问题从玄学拉回到了工程:不是能力问题,是数据问题

那如果要写百万字级别的呢?
Ultra-Long Novel Generation: The Optimal Expansion Ratio
arXiv 2025
Hanwen Shen, Ting Ying

所有层级生成系统都在做"压缩-展开"(从大纲写到正文),但没人量化过这个过程中信息到底丢了多少。这篇用信息论建模,在40部百万字中文小说上做实验,给出了一个具体数字:最优压缩展开比是R=0.01。翻译成人话就是:10万字的小说,大纲在1000字左右最合适。

不过要注意,这篇做的是"重建"不是"生成"——它告诉你什么比例信息丢得最少,但不直接解决怎么从零开始编一个好故事。

做工具的话

RecurrentGPT的双记忆架构直接拿来用。LongWriter的发现意味着你可以通过微调而不是换架构来解决长度问题。大纲量控制在正文的1%左右。

3

怎么多人协作

与其让一个人身兼数职,不如分成一个团队
Dramatron: Co-Writing Screenplays and Theatre Scripts with Language Models
CHI 2023
Piotr Mirowski 等 — Google DeepMind

Google的人做了一个剧本写作工具。从一句话的核心冲突出发,一步步生成标题、角色表、情节节拍、场景描述、对话。每一步只把精炼摘要传给下一步,不让上下文膨胀。

请了15位行业专家来评——84%说有帮助,92%觉得输出有惊喜。但只有46%对最终剧本感到自豪。对话被集体吐槽"太表面了,没有潜台词"。不过有一位编剧真的把4部合作剧本搬上了舞台。

还暴露了一个风险:系统有时会原封不动地输出训练数据里的片段,作者建议使用者对输出做子串搜索。

Dramatron是一个人干所有事。有人开始想,要不拆成一个团队?
CritiCS: Collective Critics for Creative Story Generation
EMNLP 2024
Minwook Bae, Hyounghun Kim

这篇论文关注的点跟之前都不一样。之前大家都在想怎么写得"连贯",这篇第一次认真问了一个问题:写得连贯但无聊,算好吗?

做法是请三个"评论家"来审稿。有意思的是评论家的身份根据故事内容动态分配——你写反乌托邦就派社会学家、心理学家、未来学家来。一个"主编"从三人的建议里选最好的。来回三轮。

创造性从57%拉到84%,效果显著。但同时发现一个重要规律:改的轮次越多,创造力越高,连贯性越低。这俩是跷跷板,你按下这头那头就翘起来。

既然要拆成团队,怎么分工才合理?
Agents' Room: Narrative Generation through Multi-step Collaboration
ICLR 2025
Fantine Huot 等 — Google DeepMind

第一次有人用正经叙事学理论来设计Agent分工。参照Freytag叙事金字塔搞了9个Agent:4个负责规划(冲突、人物、场景、情节),5个负责写作(铺垫、上升、高潮、下降、结局)。大家通过一个共享笔记本交流。还找了28位专业作家来造了一个高质量数据集。

写出来的东西在情节、创造力、人物、语言四个维度都获得了专家偏好。不过语言多样性上还是跟人类有明显差距——三元组重复率更高,用词更单调。而且是线性流水线,Agent之间没法互相修改。

能不能写更长、更复杂的?
StoryWriter: A Multi-Agent Framework for Long Story Generation
CIKM 2025
清华 KEG — Haotian Xia 等

Agents' Room只能写3000字左右,StoryWriter直接拉到了8000+。三个Agent各管一摊:大纲Agent生成事件元组(每个事件标注时间、空间、角色、因果关系);规划Agent把事件分配到章节里,而且支持闪回和闪前;写作Agent在写每一章时会动态压缩前面的上下文,写完还有个协调器检查质量,不行就重写。

这是目前我看到的最成熟的多Agent写作架构。他们还用这套系统造了一个6000篇、平均8000字的故事数据集。

还有一个完全不同的路子——
Multi-Agent Character Simulation for Story Writing
In2Writing 2025

前面所有方案都是功能性分工——规划Agent、写作Agent、评审Agent。这篇换了个思路:让Agent扮演故事里的角色,先即兴表演,再把表演记录改写成小说。角色的一致性和深度自然就有了,因为每个Agent"住在"自己的角色里。

做工具的话

StoryWriter的三Agent架构(大纲-规划-写作)可以直接参考。CritiCS发现的创造力和连贯性跷跷板是产品决策——你得让用户能调这个平衡。角色模拟的思路(先演再写)是差异化机会,用户感知度高。

4

怎么不出错

被砸碎的花瓶下一章又完好如初地出现在桌上
SCORE: Story Coherence and Retrieval Enhancement
arXiv 2025
Qiang Yi 等

AI小说里最让读者出戏的就是这类bug——死了的人又活过来,被摧毁的东西下一章完好无损。不是故事反转,就是纯粹的遗忘。

SCORE用了三板斧来治这个病。第一,状态追踪——给每个物品和角色记一个状态标签(存在/丢失/毁坏),用逻辑规则约束("毁坏"不能变回"存在")。第二,分层摘要——随时知道谁在哪、做了什么、现在什么心情。第三,混合检索——写新段落时自动找出相关的历史片段。

一致性提升了 23.6%,幻觉减少了 41.8%,物品状态追踪准确率 98%。不过三态系统(存在/丢失/毁坏)有点粗糙——"部分损坏"这种中间状态就没法表达。

知道怎么修了,但到底哪些地方容易出错?
Lost in Stories: Consistency Bugs in Long Story Generation
arXiv 2026
Junjie Li 等 — Microsoft Research 相关

这篇做了一件很扎实的事:在2000篇8000到10000字的AI小说上做全面体检,整理出5大类19种一致性错误——时间线矛盾(6种)、角色性格突变(4种)、世界观冲突(3种)、命名混乱(3种)、视角跳跃(3种)。

几个发现特别有意思:

  • 错误集中出现在故事的40%到60%处,不是开头也不是结尾,是中后段
  • 错误数量和故事长度线性相关——长一倍,错一倍
  • 模型越"自由发挥"的段落(高信息熵),出错概率越高
  • GPT-5推理模式的错误密度最低(0.113/万字),LongWriter较高(0.669)

他们做了个自动检测工具,召回率55%——听起来不高,但人类专家只有17%。对AI的错误,AI自己反而更能发现。

不过这篇只做了诊断没做治疗,而且分不清"故意的叙事模糊"(悬疑伏笔)和真正的错误。

做工具的话

既然错误集中在40-60%处,你的工具应该在故事写到中段时主动跳出来做一致性检查,别等写完。19种错误的清单直接当QA检查表用。SCORE的架构(状态追踪+分层摘要+混合检索)就是你一致性引擎的设计蓝图。优先解决角色命名一致性和时间线矛盾,这两类用户最容易感知。

5

怎么评好坏

写完了,怎么知道写得好不好?
What Makes a Good Story and How Can We Measure It?
arXiv 2024

这篇综述梳理了13个评估维度:连贯性、角色发展、趣味性、共情、惊喜感、风格... 结论挺残酷的:目前没有任何自动化指标能捕捉"读到这里你会不会起鸡皮疙瘩"。感动、紧张、惊喜这些东西,只能靠人来评。BLEU和ROUGE本来就是给翻译任务设计的,拿来评小说完全牛头不对马嘴。

那能不能让AI自己学会判断"什么样的下一章才算好"?
Learning to Reason for Long-Form Story Generation
arXiv 2025
Alexander Gurung, Mirella Lapata — 爱丁堡大学

之前让AI"像作家一样思考"全靠prompt工程师手写指令,效果取决于人的水平。这篇想让模型自己学会这件事。

做法是给模型一堆上下文(故事梗概、已写内容摘要、角色表、前一章全文、下一章概要),让它先推理出一个写作计划,再写。用RL训练,奖励信号很聪明——衡量的是"有了推理之后,写出来的东西有没有更接近真实的下一章"。不需要人工标注数据。

RL训练的模型对阵基座模型胜率 76.5%,对阵SFT模型胜率 90%。对,你没看错,SFT在这个任务上被打了个落花流水,还出现了严重的重复退化。科幻和奇幻体裁改善最明显。

A Survey on LLMs for Story Generation
EMNLP 2025

全景综述,提出了一个六维度的自动评估体系(ASE)。领域共识三条:层级规划是基本功,多Agent是趋势,评估方法是最大瓶颈。

做工具的话

"先想再写"比"直接写"的胜率差了90%——这个数字说明如果你有微调能力,这是最值得投入的方向。科幻和奇幻是AI最擅长的体裁,可以主打。评估体系本身是差异化机会——做出靠谱的"AI小说质量分"就是壁垒。

6

怎么搭系统

论文讲的是"能不能做到",这条线讲的是"怎么做出来"
Weaver: Foundation Models for Creative Writing
arXiv 2024
Tiannan Wang 等 — AIWaves(RecurrentGPT原班人马)

这个团队的路径值得单独讲。2023年发了RecurrentGPT(学术论文),2024年做了Weaver(创意写作专用模型家族,从1.8B到34B四个档位),然后基于Weaver上线了WawaWriter商业平台。论文到产品,一条线走通了。

工程上最有意思的决策是搞了一个动态路由Agent——根据任务复杂度自动选模型。简单的扩写用1.8B的Mini跑,省钱;复杂的大纲规划用34B的Ultra,保质量。这意味着他们的成本比所有用通用大模型API的竞品都低。

核心判断:专门为写作训练的小模型,在写作任务上可以超过通用大模型,而且便宜得多。

RaPID: Retrieval-Augmented Long Text Generation with Writing Planning
ACL 2025
中科大 StarTeam

最工程化的RAG+写作方案。三个模块:从260万Wikipedia大纲里检索相关结构来辅助生成大纲;用约束搜索找相关信息;基于DAG结构的写作计划指导生成。260万大纲语料库是开源的,如果你的工具需要"给个主题就能自动找参考再写",这就是现成的蓝图。

Guiding Generative Storytelling with Knowledge Graphs
ACM TOCHI 2025

用知识图谱来管理故事世界——角色属性、关系网络、心理状态全部结构化存储。写新段落前先查图谱确认"当前谁和谁是什么关系"。矛盾减少了40%以上。如果你做工具,"角色关系图"可能比"角色描述卡"更管用

Character-Centric Creative Story Generation via Imagination
arXiv 2024

写故事之前先用文生图生成角色的具体形象,然后基于视觉化的角色来写。还能切换不同的"作者人格",让AI从不同视角写同一个故事。人类评估偏好率 79.5%

StoryWeaver: A Unified World Model for Character Customization
arXiv 2024

把角色属性、人物关系、世界规则整合到一个"世界模型"里,写故事时自动保证角色行为符合设定。可以理解为小说版的"游戏世界状态机"。

HAWK: A Hierarchical Workflow Framework for Multi-Agent Systems
arXiv 2025

不是专门做故事的,但对搭多Agent系统很有参考价值。定义了四层架构(用户端 -> 调度 -> 执行 -> 资源管理)和16个标准化接口。如果你从零搭多Agent写作工具,这是现成的脚手架。

Can LLMs Generate Good Stories? A Narrative Planning Perspective
arXiv 2025

从规划理论角度审视LLM写故事的能力,核心结论就一句话:混合方案(符号规划保结构 + 神经网络保流畅)胜过任何一种单打独斗。纯LLM结构散,纯规划太死板。

其他值得看的

开源项目:AutoNovel(NousResearch,从概念到ePub全流水线)、LibriScribe(多Agent书籍生成)、StoryCraftr(CLI写作工具)

商业参考:Sudowrite(多模型路由+自研Muse模型)、阅文妙笔(DeepSeek-R1驱动,有角色属性系统)

基准测试:LongGenBench(arXiv 2024)如果你想对比自己的系统跟别人差多少

按"搭工具"的顺序来看

你需要什么              看哪些论文                     记住的数字
-----------           ----------                    ----------

1. 大纲系统            DOC + DHO + StoryWriter        大纲 = 正文的1%
                                                     叶节点执行率58%

2. 记忆管理            RecurrentGPT + SCORE           物品追踪98%
                      + KG-Storytelling              矛盾减少40%+

3. 写作引擎            LongWriter + Weaver            9B能超大模型
                      + Learning to Reason           RL比SFT胜率90%

4. 多Agent             StoryWriter + Agents' Room     三Agent 平均8081字
                      + HAWK(工作流框架)

5. 角色系统            CharSim + CharImagine          偏好率79.5%
                      + StoryWeaver(世界模型)

6. 一致性检查          SCORE + Lost in Stories         错误集中在40-60%
                      + KG-Story                     19类错误清单

7. 质量评估            Good Story Survey              13个评估维度
                      + CritiCS                      创造力vs连贯性

读完之后的几个想法

这已经不是模型问题了

2023年大家还在讨论"怎么让模型更聪明"。到2025年,话题已经变成了"怎么搭一个系统让多个模型协作"。壁垒不在模型本身——你用Claude用GPT都行——壁垒在大纲怎么拆、记忆怎么管、一致性怎么查、质量怎么评。这些都是系统设计和工程能力的问题。

创造力和不出错没法同时要

CritiCS量化了这个权衡,Lost in Stories证明了错误随长度线性增长。你不能同时把两个都拉满。比较务实的方案可能是:先放开了写(高创造力模式),写完再系统性地检查修复(高一致性模式)。产品上做成两步走,让用户自己选侧重。

到目前为止,没有一篇论文的产出让专业作家真正满意

Dramatron的46%自豪度是所有论文里最高的了。语言多样性、叙事张力、人物深度——这些"文学性"的东西仍然是短板。这意味着产品方向应该是人机协作,不是全自动。AI负责扩写、检查、提供选项;人来选择、打磨、注入灵魂。

接下来最可能长出来的东西

三个方向正在汇聚:角色模拟(先"演"再"写"),RL训练推理能力(让模型学会"像作家一样想"),实时一致性引擎(写一段查一段)。把这三件事整合成一个系统,大概就是下一代工具的样子。

Weaver团队的路径值得研究

从RecurrentGPT到Weaver到WawaWriter,这是目前唯一走通了论文到产品全链路的团队。他们押注的是"写作专用小模型+动态路由",跟Sudowrite的"通用大模型API+轻量自研模型"是两条路。两种都走得通,但团队配置和资金需求完全不同。

全部24篇速查表

论文出处一句话方向
DOCACL 2023详细层级大纲控制规划
RecurrentGPTarXiv 2023自然语言记忆写无限长文本长度
DramatronCHI 2023层级剧本生成,46%自豪度协作
CritiCSEMNLP 2024三评论家提升创造力到84%协作
Good StoryarXiv 202413维评估,没有指标能测感动评估
WeaverarXiv 2024写作专用模型家族+动态路由工程
CharImaginearXiv 2024先画角色再写故事工程
StoryWeaverarXiv 2024统一世界模型管角色一致性工程
Outline-GuidearXiv 2024大纲引导的可控生成规划
LongGenBencharXiv 2024长文本生成基准测试评估
LongWriterICLR 20259B模型单次写万字长度
Agents' RoomICLR 2025叙事金字塔分工的9个Agent协作
StoryWriterCIKM 2025三Agent平均写8081字协作
Dynamic-HONAACL 2025写一段调一次大纲规划
CharSimIn2Writing 2025先扮演角色再写成小说协作
Learning to ReasonarXiv 2025RL训练,对SFT胜率90%评估
SCOREarXiv 2025状态追踪+检索,物品准确率98%一致性
Ultra-LongarXiv 2025大纲=正文1%是最优比长度
KG-StoryTOCHI 2025知识图谱管角色关系减40%矛盾工程
RaPIDACL 2025RAG+260万大纲语料库工程
Can LLMs?arXiv 2025符号规划+神经网络混合最优工程
HAWKarXiv 2025多Agent四层架构+16个接口工程
LLM Story SurveyEMNLP 2025全景综述,评估是最大瓶颈评估
Lost in StoriesarXiv 202619类错误,集中在40-60%处一致性

2026-04-03 · 24篇论文 · 6条演化线