
还在为写完论文后,制作一份高质量的汇报 PPT 而焦头烂额吗?
西湖大学 AGI Lab 的最新力作——Auto-Slides,只需输入论文 PDF,系统即可自动生成结构清晰、逻辑流畅的演示文稿,并支持用户用自然语言进行交互式修改。

除"一键变 PPT "外,Auto-Slides 还能实现高保真解析、认知驱动重组。经过三项用户研究和自动化评估,其不仅兼顾理解性、教学友好度和科学准确性,还能大幅提升学术交流效率,展示出 AI 在学术传播和教育中的巨大潜力。

Auto-Slides:多智能体协作,打造专业级演示文稿
近年来,大模型(LLM)正在深刻改变科研人员与学术内容的互动方式。然而,现有的 LLM 学习助手在将学术论文转化为演示文稿时,仍存在三大痛点:
1、碎片化输出: 论文本身结构严谨,但对话式问答往往缺乏全局组织,导致学习体验割裂。
2、模态单一: 缺少图表和公式,难以有效支撑复杂概念的理解与传达。
3、缺乏教学逻辑: 学术写作面向专家读者,直接用于教学和汇报,内容可能过于晦涩。
要真正实现"从论文到演示"的转化,系统不仅要能精准解析论文,更要能重组逻辑、补充多模态信息,并保证可交互性。Auto-Slides 正是为此而生。
Auto-Slides 的核心创新在于引入了多智能体协作框架,让论文转化为演示文稿的过程更专业、更贴近真实教学需求。系统整体分为四大核心环节:

△Auto-Slides 的多智能体协作框架概览
1. 高保真解析(Parser Agent):告别乱码,精准还原论文精髓
学术论文不仅有文字,还包含公式、表格、图示等多模态元素。Auto-Slides 的解析模块基于高精度 PDF → Markdown 转换和 LLM 抽取策略,能够完整保留这些信息。
这意味着,复杂的公式不会被打散成乱码,表格也能被单独识别和结构化存储,为后续处理奠定了准确的基础。
2. 认知驱动的逻辑重组(Planner Agent):让演讲更像"讲故事"
传统论文采用 IMRaD(引言 - 方法 - 结果 - 讨论)结构,虽然严谨,但并不适合快速教学或演讲。Auto-Slides 结合教育心理学理论(如认知负荷理论、双通道理论),将其重组为PMRC(问题 - 动机 - 结果 - 结论)。
这种叙事逻辑更符合听众的理解节奏,让一篇论文更像是一场引人入胜的"故事化"演讲。
3. 质量保障(Verification & Adjustment Agents):杜绝"幻觉",确保学术严谨
大模型在生成内容时可能出现遗漏或"幻觉"。为此,Auto-Slides 引入了验证 - 修正环节:由验证智能体对比幻灯片与原论文,发现关键信息缺失或表述不当时,再由修正智能体进行补全。
这一机制保证了输出的学术准确性和完整性,不会因为自动化而牺牲严谨性。
4. 生成与交互优化(Generator & Editor Agents):人机协作,持续改进
最终生成环节基于LaTeX Beamer,产出结构专业、视觉规范的幻灯片。更重要的是,用户可以通过自然语言与 Editor Agent 交互,例如说"帮我增加一页解释 Attention 机制",系统就会自动更新并重新编译。
这样,Auto-Slides 不只是"一次性生成",而是支持人机协作的持续改进。
这一独特的框架,让 Auto-Slides 既能自动化生成,又能按需调整,最终让论文真正变成教学友好、演讲就绪的多模态材料。

△Editor Agent 可交换功能概览实验验证:用户与专家共同见证优异表现
为了验证 Auto-Slides 的价值,团队设计了三项用户研究和一次自动化评估,从不同角度考察系统的可用性与优势。
1、User Study 1(学习者交互体验)

参与者为跨学科的本科生群体,他们首先浏览 Auto-Slides 自动生成的幻灯片,然后通过交互功能按需修改。
结果发现,交互式功能显著提升了理解力和学习掌控感。学生普遍表示"更快抓住重点",并且"能按照自己的需求组织内容"。这说明系统不仅降低了学习门槛,还增强了学习者的主动性。
2、User Study 2(与 LLM 聊天式学习对比)

直接对比 LLM 对话学习与使用 Auto-Slides 学习,结果发现,Auto-Slides 在结构清晰度、视觉直观性、支持理解与记忆上明显优于对话式学习,而聊天方式则在个性化探索方面表现更好。
此外,研究还发现学生的偏好是先用 Auto-Slides 快速建立全局框架,再通过 LLM 对话进行深入提问,形成互补工作流。
3、User Study 3(专家评估)

研究邀请有丰富科研经验的专家,对比了两类幻灯片:一种采用 PMRC 叙事优化,另一种保留原始 IMRaD 顺序。
结果发现,经过叙事优化的版本在内容准确性和逻辑流畅性上显著更优,更接近真实演讲需要。专家反馈认为"听众更容易跟上思路,也能更好把握关键信息"。
4、自动化评估(LLM-as-Judge)

通过大模型作为裁判,评估 Auto-Slides 在表格、公式保真度以及整体内容完整性上的表现。
结果发现,增强解析模块显著提升了复杂多模态内容的保真度,验证–修正机制则提升了内容的准确性和覆盖率。整体鲁棒性优于系统的简化版本。
应用展望:AI 赋能学术交流新范式
Auto-Slides 系统展示了一种全新的 AI 辅助学术传播范式。它将繁琐的论文转化为简洁直观的多模态演示材料,并允许用户与系统共同塑造最终的汇报文稿。
这一框架未来有望广泛应用于学术会议演讲、课堂教学、跨学科学习等场景,为全球的科研工作者和学生解锁更高效、更智能的知识传递方式。
Auto-Slides 不仅仅是一个工具,它更是一个真正经过验证的学术演示助手,在理解性、教学友好度和科学准确性三方面实现了完美平衡,并支持交互优化,展示出巨大的落地潜力。
本文第一作者为西湖大学本科生杨宇恒,通讯作者为西湖大学 AGI 实验室助理教授张驰。该工作由杨宇恒在西湖大学 AGI 实验室完成。
论文链接: https://arxiv.org/abs/2509.11062
项目地址: https://auto-slides.github.io/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —

� � 点亮星标 � �
科技前沿进展每日见
配资平台app下载提示:文章来自网络,不代表本站观点。