AI可以生成播客吗？

前段时间，谷歌旗下AI工具NotebookLM推出了对话生成功能。用户上传电子书、网页或报道等文件，NotebookLM可以根据文件内容，生成两人的英语对话，声音听起来非常接近真人。更厉害的是，NotebookLM生成的对话言之有物，似乎真的能够理解文件内容。

紧接着，大小AI公司都推出了类似工具。字节跳动旗下AI开发平台Coze，宣布推出AI生成播客功能，并且可以替换人声和音色。初创公司PodLM也推出了AI播客生成器，除了可以定制AI语音，还支持一键将生成的播客发布到播客平台。

一时间，社交媒体上涌现出了大量帖子，感叹“AI颠覆播客”，甚至“播客行业要挂了”。

· 2024年10月，NotebookLM新增音频对话“自定义”功能

很遗憾，上述所有AI工具都无法生成播客。它们生成的是语音对话、书籍朗读或者资料总结，全都不是播客。

播客最核心的部分是人的对话。主播讲述的是自己真实的经验、见解和情感。听众也清楚声音背后是一个活人。这是一种超越技术和工具的信任，是人与人之间的连接。

短期内，AI还无法提供人的连接。因为AI生成的对话，还没有复杂到完美模拟人的情感。听众清楚声音背后是AI工具。并且，AI只是将收到的文件资料，生成一段语音对话，内容是二手的，音色是定制的。没有一手的经验、见解和情感，AI工具只适合用在快速读完一本书这类功能性场景。

不过，AI改变内容行业是长期趋势，它可以辅助内容创作者，极大提升工作效率。在后期制作、内容分发等环节，AI势必改变播客行业。

短期内，AI生成不了播客

在探讨“AI能不能生成播客”之前，首先需要回答一个问题：什么是播客？

播客在根源上是一种媒介形式，主播录制自己的对话，将对话上传到播客平台，再通过RSS技术分发。

其中，播客的核心是人的对话。人的对话包含了情感表达、即兴互动、一手的经验和见解，以及由此产生的聊天氛围。即便AI可以轻松取代其他播客制作步骤，诸如帮助写大纲、生成封面、一键上传、语音转文字。但AI依然难以模拟人的真实对话。

这既是一个单纯的技术问题，AI语音的效果还不够好。如果AI语音能够让人完全听不出来，那么听众也就无从分辨声音背后到底是人还是AI。但也不只是技术问题，因为其中牵扯到了人们听播客的目的。人们听播客的主要目的，不是高效地获取信息。

对于播客来说，效率不是一切，人的特质比信息效率更重要。

互联网行业里，一种常见的观点是信息效率至上。特别是字节跳动崛起后，张一鸣信奉的信息效率至上成为显学。张一鸣曾在采访中说，信息的效率比信息的展示更重要，最重要的事情是提高分发效率、满足用户的信息需求。今日头条、抖音等产品，都是依靠推荐算法分发内容，极大地提高了信息分发和接收效率，从而取得商业成功。

但是，播客显然违背了这一点，播客本来就不是信息效率最高的媒介。公众号、短视频的信息效率都远高于播客。一篇2000字公众号或者5分钟短视频能说完的事情，换成是一期播客，时长将达到一个小时左右。

播客与这些媒介的差异是人的声音、人的情感与人的特质——主播和嘉宾从容地讲述自己的故事，在笑声、沉默和语气的细微变化里，自然地流露情感。这几年来，播客在全世界的流行，再次证明了人的重要性，即人们不仅需要信息效率高的文字内容和短视频，同样需要信息效率较低，但充满“人味”的播客。

当然，播客依然需要提升信息效率。比如一期播客节目，主播和嘉宾能够更加简明扼要、条理清晰地讲述主题，总是一件好事。

只是，在保持人的特质这一核心优势的前提下，播客节目才能够提高信息效率。否则，没有人的特质的播客，比如说那种毫无感情的读稿节目，实质上是在和微信读书、喜马拉雅听书竞争，并不属于播客。

因此，“AI能不能生成播客”的真正含义是，AI可以模拟人的特质吗？

理论上，只要AI公司研发出更深入的情感建模、更细腻的语音合成、更自然的对话系统，让听众分辨不出来声音背后是人还是AI。那么，AI当然可以模拟人的特质。所以，我们在前文中指出，“AI能不能生成播客”是一个单纯的技术问题。

只是，短期内，AI公司还解决不了这个技术问题。AI可以生成流畅的对话，但暂时模拟不出人的特质。

NotebookLM生成的对话，已经非常接近真人，可以提供聊天氛围和陪伴感。但是，它的对话过于流畅，听起来像是播音腔，和谈话类播客的随意氛围格格不入。

并且，AI最大的问题是无法生产一手知识。无论是ChatGPT、NotebookLM，还是豆包、Kimi，它们全都是根据互联网的已有数据，通过学习和处理这些数据的相关性，生成二手信息。本质上，AI输出的内容都是对已有知识的重组和表达，其中没有原创的一手知识。

如何才能生产一手知识呢？人需要实地工作、与他人交谈、独立地思考以及真实的生活体验，还需要一点自我意识，意识到自己是一个主体，敢于得出结论，从众多相似的信息中，产生新的经验、见解和情感。

AI暂时无法做到这一点，AI工具只能根据输入内容，生成相似的、二手的信息。五条人乐队有着非常鲜明的风格。有人将五条人的歌词输入AI工具，自动生成歌曲。五条人主唱仁科听后的反应是，AI生成的歌曲像“鸡精味精撒在橡皮筋上面，完全没有human可以食用的东西，全是塑料。”

· 五条人，bilibili

播客和音乐类似，它们的核心是人的特质。就像是AI暂时生成不了像五条人那样风格鲜明的音乐一样，AI也生成不了播客。

AI辅助播客制作

如果问大模型Claude，“AI能不能生成播客？”

Claude的回答是：

我建议可以将AI作为辅助工具：

用于生成内容框架和初稿

协助进行后期制作

作为人类主持人的补充，而不是完全替代

继续追问Claude，“为什么你建议将AI作为播客的辅助工具，而不是主要工具呢？”

Claude给出了具体的分工建议：

理想的协作模式

AI负责：

内容规划和大纲生成

实时资料查询和补充

后期剪辑和处理

文字转录和总结

人类负责：

核心内容输出

情感互动和共鸣

即兴发挥和调节

把握节目整体质量

AI改变内容行业是长期趋势，它会进一步降低创作门槛，让个人可以调动更多的智力资源，进而生成数量更多的内容。

作为内容行业的一部分，AI当然也会改变播客。不过，就像是Claude说的那样，AI将作为辅助工具，不是直接替代人类进行内容输出，而是主要改变播客的制作流程。

在文字处理上，写节目大纲、Shownotes正是大语言模型擅长的领域，ChatGPT、Claude和豆包都可以辅助人类。在后期处理上，AI降噪、AI剪辑可以大大提高后期效率，Vocut、Phonic的AI降噪比AU自带的降噪功能更好用，Vocut和剪映都支持语音转文字功能，用户可以直接编辑文字，AI工具负责剪辑相应音频。还有一些播客托管平台支持AI生成封面图片、AI划分节目章节。

· Vocut AI 剪辑功能

AI则将加剧这种冲击。进一步让所有表达能力不错的人，只要会用AI工具，不需要复杂的前期准备和后期剪辑，就能持续稳定地制作播客，面向公众表达自己的经验、见解和情感。

不只是内容供给侧，AI更有前景的领域是信息分发，由AI驱动的推荐算法来分发播客内容。

整个互联网都经历了分发方式转型，内容分发从订阅制到推荐制。从Web 1.0时代，用户手动地关注播客，收取邮件；到Web 2.0时代，FaceBook、今日头条和抖音自动为用户推荐内容。与播客同期出现的博客，就经历了从订阅制到推荐制到转型，今天的推特、微博（原意是微型博客）的流量池中，大量流量都来自算法推荐。

播客的原始形态是订阅制。原教旨的播客形式，需要听众手动将RSS链接，导入泛用型播客客户端，这样才能订阅并收听节目。显然，这种方式过于复杂，这几年来兴起的播客平台都采用了互联网平台主流的订阅方式。油管、Spotify、小宇宙都不需要用户导入RSS链接，只需要点击关注就能订阅并收听播客节目。

那么，播客会进一步从订阅制转向推荐制吗？在社交媒体、公众号和短视频等媒介上，互联网巨头已经验证过了，推荐算法可以根本性提高信息分发效率。而信息效率高的互联网平台，势必竞争过信息分发效率低的互联网平台。

只有在内容供给不充足的情况下，因为互联网上的内容太少，订阅制才会有信息效率。而在目前，播客内容供给充足的情况下，听众有机会接受到更多自己感兴趣的内容，而不只是订阅的内容。订阅制的信息效率太低，播客平台势必需要订阅制以外的方式来辅助分发内容。

真正的问题是，播客平台也可以用推荐算法来提高信息分发效率吗？

目前看来是成立的。油管、Spotify、小宇宙都在用推荐算法来辅助分发播客。油管是全球最大的播客平台，并且主要依靠推荐算法分发内容，播客只是平台上海量内容形式之一。Spotify也在使用推荐算法分发音乐。音乐和播客类似，核心都是人的特质。既然音乐可以用算法分发，播客大概率也可以。