使用现成服务实现文本转语音,获得更自然的 AI 语音

Samantha 和 晓晓

“黑寡妇”斯嘉丽 约翰逊凭借其在电影 Her 中给人工智能伴侣 Samantha 的配音,获得了第八届罗马电影节最佳女主角, 而约翰逊在电影中未曾露过一面。电影 her 讲述主人公离婚后找了个人工智能做女朋友,每天和 AI 谈情说爱的故事。有个小插曲是他发现自己的女朋友同时还和成百上千人谈恋爱,瞬间心碎。其他我没什么印象,毕竟多年前的电影了。之前在笔友软件 slowly 上和台湾笔友聊过这部电影。突然想起貌似看过一个小说叫做《不存在的女朋友》……好歹人家这个女友 Samantha 还会说话。

电影上映十年后的现在,与“人工智能”聊天成为现实。当然也有专门的 AI 女朋友,网站流量还很高。不少人在短视频平台分享自己与 ChatGPT 聊天的视频,比如和 GPT 对话以练习外语口语,让 GPT 学小猫小狗叫等等。我自己也想摆脱哑巴英语,和 PI 聊过几句

人工智能不仅可以理解人的提示词返回文本或者声音,就连声音也越来越自然。微软最近更新的 AI 语音“晓晓 多语言”,对比去年年底说普通话的“晓晓”,甚至还加上了说话气息,呵呵、哈哈等笑声也更自然。

人工智能语音在工作中的应用

那么自媒体从业者如何使用 AI 来给自己的视频等创作配音,让声音听起来更真实,从而在众多的作品中脱颖而出呢?除了在微软 Azure 上部署文本转语音服务之外,我们还可以借助现成的服务来轻松地获得 AI 语音。比如 speechify, naturalreaders, ttsreader, Clipchamp, etc.

speechify

提供歌手 Snoop Dogg 的声音,以及 Gwyneth Paltrow ——我也不知道是谁, 这两人的声音是独家的。对了还有总统的声音,貌似是奥巴马。普通话的话,speechify 提供六种声音,包含一种台湾腔的女声。Speechify 甚至支持图片转语音:OCR 识别并“读取”图片中的文本。支持声音克隆。

naturalreaders

每天可用20分钟。超过后免费用户只能使用免费的声音了,听起来效果一般。貌似还不能商用。支持克隆自己的声音。

使用 win 系统自带的 Clipchamp 软件,实现文本转语音。

比较了下,微软提供的 AI 语音,优势还是挺大的,支持的语言多,人声选项也多,还支持不少方言。除了使用现成的套壳网站外,你还可以自己部署。当然,对于我们懒人来说部署太麻烦了,其实电脑自带的视频剪辑软件 Clipchamp 就提供文字转语音服务,还可以直接将转换好的音频添加到视频的音轨中。 具体步骤参考这篇

至于 Clipchamp 作为视频剪辑软件,相较于其他成熟软件来说,有些小问题。

  • 启动速度有点慢。有个梗说用 win 系统需要耐心,苹果系统需要钱,Linux 则需要技术。
  • 剪辑完成后交付视频过程,会在电脑系统盘自动存一份,即使你指定了视频保存路径也不行。有网友说他们的系统盘已经被挤爆了。
  • 我自己剪视频不多,用 Clipchamp 的过程中遇到过两次监视器的视频没有播放的情况,而滚动条在持续的滚动……
  • 有些中文翻译让人摸不着头脑……主要是启动过程中的中文。不影响使用。

总体来说,个人认为 Clipchamp 值得一试的理由如下:

  • 操作简单明了。如果达芬奇里的调色等等功能用不着的话,可以试试 Clipchamp
  • 带有屏幕录制和摄像头录制功能,也可以同时录制。同时录制时摄像头窗口无法调整位置。
  • 一键完成语音转录字幕。对于自媒体、教育等行业需要录制视频的人挺友好。
  • 文本转语音,还可以方便得把音频添加到视频音轨中。微软的 AI 语音支持的语言达到170种,声音选项400个,听起来也很真实自然。
  • 文本转语音功能,单次支持最长时长十分钟。

评论

看看别的

在 Book Depository 上买书的曲折经历

夜爬华山

卖保险的电话