看到一个可以将文章直接转换成 PPT 演讲的工具，Paper2Video，一篇文章+一个头像+一段语音样本，它就能帮你生成一个生动的演讲解说视频。对于偏专业和学术性的场景，这个工具几乎能承担起人工完成的工作，做学术汇报和做课程的朋友有福了😄 仔细阅读了源码和论文，它的实现方式颇为精妙，整个 PPT 的渲染，主要基于 Beamer 这个声明式布局框架： 1）首先让大模型对内容做一次通篇的解说，并做好摘要分段，确保能够把核心知识表达清晰； 2）对于每页 PPT 的布局，通过视觉模型判断是否存在溢出、错位、拥挤等情况，如果存在类似的问题，就会让布局模块生成多套拼接方案，对图片和文字进行缩放后进行不同组合，再由视觉模型从中挑选出最优的一张； 3）过程中还添加了一个虚拟鼠标，方便捕获观众的注意力，也让整个呈现更具动态感与交互感； 4）口型采用的是 Hallo2，这是一种支持长时长、高分辨率、音频驱动的人像动画模型，能够让头像与语音同步地做口型/表情动画。这个工具主要解决的还是论文汇报场景，不过有几个思路值得借鉴，包括如何将文章内容做拆解、如何做好 PPT 排版，如何做好口型等。稍微改改，应该也能适配到更大众化的领域，例如做自动培训视频、技术方案的交互式解说，甚至产品手册的可视化呈现，把 Paper2Video 升级成 Doc2Video。

Loading video...