Jun 26, 2025

用 AI 生成播客开车听，好比「太监评测飞机杯」

没活硬整

昨天在网上看到一位挺出名的 AI 资讯博主@宝玉xp ，写了一下他眼中 AI 生成播客的作用：

播客有个好处就是你不占用你的眼睛和手，开车、遛狗这样在外面的时间就捎带着把它听完了，能帮我快速了解了文章的主要内容，又可以充分利用在外面的碎片时间。

我还经常把晦涩难懂的论文生成 AI 播客，通过两个人一问一答的模式，其中一个 AI 角色总能提出我关心的问题，而另一个 AI 又能很浅显易懂甚至生动有趣的解答问题，这种对话形式能很快帮我了解论文的要点，而且比起 AI 直接生成的文字摘要，要生动有趣多了。

以前我用 NotebookLM 多一些，最近主要用豆包的 AI 播客，相对来说中文语音听起来更自然，生成速度也快，生成后不需要等马上就能听了。

我的第一反应是：「啊？你开玩笑的吧？」

从后续的内容上看，这可能是一篇豆包的广告。即使是广告，这位博主也挺不负责任的，不知道是怎么想出来的使用场景。

完整的时间听不了碎片化的播客

博主先是列举了一些播客的好处，不占手之类的，这确实没错。但这跟 AI 生成播客没什么关系。

Google 的 NotebookLM 我没用过，豆包生成播客我可是正经玩了好几个小时，它生成的音频，语气什么的确实很像是对话，但跟播客比，它也就仅限于语气了。

首先是播客的时长。豆包应该是对这个功能做了一定的限制，最长也只能生成 10 分钟左右的内容，你喂给它的东西多了，它就会捡其中的一部分内容来生成。扔本书进去，它也只是会把前面的内容生成成播客。

再一个，中文互联网上普遍的文章长度就是三五千字，我如果是粗读，几分钟就能扫一篇，细读其实也用不了十分钟。这样的内容喂给豆包去生成播客，首先就是豆包只会挑着生成十分钟的播客，信息量大减，然后豆包生成播客，往往也得需要差不多 5–10 分钟的时间。

有这个功夫，整篇文章细读我都读完了，还用得着听一个 AI 去给我生成什么播客吗？

这位博主还说他会用这种 AI 生成播客的工具读论文，「比起 AI 直接生成的文字摘要，要生动有趣多了」。但是，AI 生成文字摘要往往是不会漏信息的，现在 AI 一般都有个几万字到几十万字的上下文了，如果是结合 RAG 百万字上下文也能轻松拿捏。

豆包生成播客，也只能搞定体现千把字的内容，你怎么能确定它整理出来的东西就是论文的全部内容，或者说重点内容？

最后，这个功能使用起来也并没有十分方便，你得在电脑上装一个豆包的 app，生成的播客也只能在 app 或者网页上听，不能把音频下载下来。

如这位博主所说，播客的主要使用场景是「开车、遛狗这样在外面的时间」，那么试问你在「开车、遛狗」时，倒腾出一只手操作电脑，一边生成一边听呢，还是提前让豆包生成好播客，然后「开车、遛狗」时捧着电脑听呢？

诶，你可能会问，为什么不用手机呢？嘿嘿，到我写这篇稿子的时候，豆包这个生成播客的功能，它在手机版 app 上没法用。

说真的，碎片时间是很多，听听播客也没什么不好，但考虑到一个十分钟左右的播客，就要耗费我差不多同样的等待时间，还只能在 app 里面听，而且像「开车、遛狗」这种场景，也不方便操作电脑听。

真不如直接读完算了。能够想出来这个使用场景，真是太监评测飞机杯，没活硬整。

好文章 ≠ 好播客

做过内容的都知道，同一个选题呈现形式很多，写文章、录播客、做视频可能都可以，但不同的形式适配的主要内容也不一样。写文章可以更深刻一些，播客可能更适合讲很多逸事，视频就不能有特别复杂的逻辑。

其实你想想，发微信也是类似的道理，你打字说一件事，和发语音就是内容会不一样。有些话可能语音好说，但是文字就不好呈现了，反之亦然。

而 AI 生成播客呢，就是直接拿文字直接生成的，非常简单粗暴，没有什么信息增量（甚至还有可能因为工具限制，删减一部分内容）。

但不应该是这样。比如这篇文章，许多逻辑和道理我只写了一两句案例来佐证，但其实这些逻辑是我早就跟朋友发语音聊过的，内容和案例要丰富得多。如果是录播客，我肯定会把它们说出来，但这是写文章，案例过多会影响文章的节奏，让其过于冗长。

顺便，我也懒得打那么多字。

所以，其实 AI 把文章转成播客，重要的不是「嗯」「啊」「这」「是」这些语气词，而是哪些适合播客但不适合文章的信息增量。这个劣势也是 AI 很难弥补的。

《第一财经周刊》杂志有一档播客节目叫「商业就是这样」，这档节目的许多选题就是来源于杂志文章，但主播们往往能够讲出来不少杂志文章里面没有写进去的内容。这才是节目的精髓所在。如果我只想了解文章的内容，抽空去读一下文章就好了，或者找到文章让 AI 帮我总结一下，都比转成播客要方便得多。

不要以为你会有「开车、遛狗」这样的碎片时间听播客，真有了这个碎片时间，你也不会听这种 AI 生成的播客，更有可能的是，你压根儿不会听播客。 此前，我曾在《播客在中国真不是个好生意》一文中仔细分析过这个道理，在此处就不再赘述了。

一个可能的使用场景

前面逼逼了这么多，可能有人会讲「别只提出问题，重要的是解决方案」，你行你上，你说个用处出来？

没事，虽然我不认同这句话，但我确实给「AI 生成播客」想了个用处——培训。

以培训销售为例，培训师手里往往最先拿到的是晦涩难懂的产品说明书。培训师要跟产品设计师反复沟通，提炼出卖点和营销点之类，然后设计成逻辑清晰的培训教案和 PPT，教案里面会涉及到销售们可能提的问题。

这场景不就来了？

培训师们完全可以把产品说明书喂给 AI，由 AI 来直接生成「播客」——当然在这个场景下，更像是一问一答的对话。和直接生成文字不同，这个「问答对话」是带有语气的，用词也会更接近口语，远比自己写一大堆「书面口语」要更贴近销售。

我上学时曾在星巴克兼职，看到过他们写的一些推销话术，简直尬到不行。每一个字都是汉字，但连起来就不像中国人在说话。如果把那些糕点、饮料的口味、用料之类的文档，直接喂给 AI，生成播客，很容易就能获得一个更贴近中国人说话和聊天的语音对话，培训师们也可以据此来制定培训教案和上课。

当然，这样生成的东西并不是 100% 完全拿来可用，还是需要使用者根据自己的需求和经验来修改，但我觉得它确实丰富了培训师们的工具箱。惟一的问题可能就是最开始说的时长限制，10 分钟估计说不了太多内容，但这个也能自己克服，比如先切割一下文档，分别喂给 AI，保证不丢内容。

另一个，也可以指望字节跳动的 AI 技术提升，让豆包能够生成时间更长的播客。

无论怎么看，都比「开车、遛狗」时听 AI 生成的播客要靠谱。