用 AI 生成播客开车听,好比「太监评测飞机杯」
没活硬整
昨天在网上看到一位挺出名的 AI 资讯博主@宝玉xp ,写了一下他眼中 AI 生成播客的作用:
播客有个好处就是你不占用你的眼睛和手,开车、遛狗这样在外面的时间就捎带着把它听完了,能帮我快速了解了文章的主要内容,又可以充分利用在外面的碎片时间。
我还经常把晦涩难懂的论文生成 AI 播客,通过两个人一问一答的模式,其中一个 AI 角色总能提出我关心的问题,而另一个 AI 又能很浅显易懂甚至生动有趣的解答问题,这种对话形式能很快帮我了解论文的要点,而且比起 AI 直接生成的文字摘要,要生动有趣多了。
以前我用 NotebookLM 多一些,最近主要用豆包的 AI 播客,相对来说中文语音听起来更自然,生成速度也快,生成后不需要等马上就能听了。
我的第一反应是:「啊?你开玩笑的吧?」
从后续的内容上看,这可能是一篇豆包的广告。即使是广告,这位博主也挺不负责任的,不知道是怎么想出来的使用场景。
完整的时间听不了碎片化的播客
博主先是列举了一些播客的好处,不占手之类的,这确实没错。但这跟 AI 生成播客没什么关系。
Google 的 NotebookLM 我没用过,豆包生成播客我可是正经玩了好几个小时,它生成的音频,语气什么的确实很像是对话,但跟播客比,它也就仅限于语气了。
首先是播客的时长。豆包应该是对这个功能做了一定的限制,最长也只能生成 10 分钟左右的内容,你喂给它的东西多了,它就会捡其中的一部分内容来生成。扔本书进去,它也只是会把前面的内容生成成播客。
再一个,中文互联网上普遍的文章长度就是三五千字,我如果是粗读,几分钟就能扫一篇,细读其实也用不了十分钟。这样的内容喂给豆包去生成播客,首先就是豆包只会挑着生成十分钟的播客,信息量大减,然后豆包生成播客,往往也得需要差不多 5–10 分钟的时间。
有这个功夫,整篇文章细读我都读完了,还用得着听一个 AI 去给我生成什么播客吗?
这位博主还说他会用这种 AI 生成播客的工具读论文,「比起 AI 直接生成的文字摘要,要生动有趣多了」。但是,AI 生成文字摘要往往是不会漏信息的,现在 AI 一般都有个几万字到几十万字的上下文了,如果是结合 RAG 百万字上下文也能轻松拿捏。
豆包生成播客,也只能搞定体现千把字的内容,你怎么能确定它整理出来的东西就是论文的全部内容,或者说重点内容?
最后,这个功能使用起来也并没有十分方便,你得在电脑上装一个豆包的 app,生成的播客也只能在 app 或者网页上听,不能把音频下载下来。
如这位博主所说,播客的主要使用场景是「开车、遛狗这样在外面的时间」,那么试问你在「开车、遛狗」时,倒腾出一只手操作电脑,一边生成一边听呢,还是提前让豆包生成好播客,然后「开车、遛狗」时捧着电脑听呢?
诶,你可能会问,为什么不用手机呢?嘿嘿,到我写这篇稿子的时候,豆包这个生成播客的功能,它在手机版 app 上没法用。
说真的,碎片时间是很多,听听播客也没什么不好,但考虑到一个十分钟左右的播客,就要耗费我差不多同样的等待时间,还只能在 app 里面听,而且像「开车、遛狗」这种场景,也不方便操作电脑听。
真不如直接读完算了。能够想出来这个使用场景,真是太监评测飞机杯,没活硬整。
好文章 ≠ 好播客
做过内容的都知道,同一个选题呈现形式很多,写文章、录播客、做视频可能都可以,但不同的形式适配的主要内容也不一样。写文章可以更深刻一些,播客可能更适合讲很多逸事,视频就不能有特别复杂的逻辑。
其实你想想,发微信也是类似的道理,你打字说一件事,和发语音就是内容会不一样。有些话可能语音好说,但是文字就不好呈现了,反之亦然。
而 AI 生成播客呢,就是直接拿文字直接生成的,非常简单粗暴,没有什么信息增量(甚至还有可能因为工具限制,删减一部分内容)。
但不应该是这样。比如这篇文章,许多逻辑和道理我只写了一两句案例来佐证,但其实这些逻辑是我早就跟朋友发语音聊过的,内容和案例要丰富得多。如果是录播客,我肯定会把它们说出来,但这是写文章,案例过多会影响文章的节奏,让其过于冗长。
顺便,我也懒得打那么多字。
所以,其实 AI 把文章转成播客,重要的不是「嗯」「啊」「这」「是」这些语气词,而是哪些适合播客但不适合文章的信息增量。这个劣势也是 AI 很难弥补的。
《第一财经周刊》杂志有一档播客节目叫「商业就是这样」,这档节目的许多选题就是来源于杂志文章,但主播们往往能够讲出来不少杂志文章里面没有写进去的内容。这才是节目的精髓所在。如果我只想了解文章的内容,抽空去读一下文章就好了,或者找到文章让 AI 帮我总结一下,都比转成播客要方便得多。
不要以为你会有「开车、遛狗」这样的碎片时间听播客,真有了这个碎片时间,你也不会听这种 AI 生成的播客,更有可能的是,你压根儿不会听播客。 此前,我曾在《播客在中国真不是个好生意》一文中仔细分析过这个道理,在此处就不再赘述了。
一个可能的使用场景
前面逼逼了这么多,可能有人会讲「别只提出问题,重要的是解决方案」,你行你上,你说个用处出来?
没事,虽然我不认同这句话,但我确实给「AI 生成播客」想了个用处——培训。
以培训销售为例,培训师手里往往最先拿到的是晦涩难懂的产品说明书。培训师要跟产品设计师反复沟通,提炼出卖点和营销点之类,然后设计成逻辑清晰的培训教案和 PPT,教案里面会涉及到销售们可能提的问题。
这场景不就来了?
培训师们完全可以把产品说明书喂给 AI,由 AI 来直接生成「播客」——当然在这个场景下,更像是一问一答的对话。和直接生成文字不同,这个「问答对话」是带有语气的,用词也会更接近口语,远比自己写一大堆「书面口语」要更贴近销售。
我上学时曾在星巴克兼职,看到过他们写的一些推销话术,简直尬到不行。每一个字都是汉字,但连起来就不像中国人在说话。如果把那些糕点、饮料的口味、用料之类的文档,直接喂给 AI,生成播客,很容易就能获得一个更贴近中国人说话和聊天的语音对话,培训师们也可以据此来制定培训教案和上课。
当然,这样生成的东西并不是 100% 完全拿来可用,还是需要使用者根据自己的需求和经验来修改,但我觉得它确实丰富了培训师们的工具箱。惟一的问题可能就是最开始说的时长限制,10 分钟估计说不了太多内容,但这个也能自己克服,比如先切割一下文档,分别喂给 AI,保证不丢内容。
另一个,也可以指望字节跳动的 AI 技术提升,让豆包能够生成时间更长的播客。
无论怎么看,都比「开车、遛狗」时听 AI 生成的播客要靠谱。