wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

开源免费 AI 朗读中文,居然也能以假乱真了? 精选

已有 5193 次阅读 2024-5-31 20:11 |系统分类:科普集锦

脚扑朔,眼迷离,傍地走……

这几天,有个 文本转语音的 Github repo 刷屏了,名字叫做 ChatTTS。

!

它有多火呢?这是它 Github 星星(相当于点赞数量)增长的趋势。

3天,就3天,星星数量从零到超过1万。实话实说,除了 AutoGPT,我真没有见过这么恐怖的 Stars 涨势。

其实文本转语音(Text to Speech, TTS)技术本身根本谈不上稀奇。不管你用的是 Siri 还是小爱同学,都应该听过 AI 合成语音。至于 GPT-4o 那种不讲武德的低延迟「拟人」打法,就更厉害了。

文本生成声音这领域,已有不少巨头参与,大家也见识过 AI 在音色、语气、节奏上的惟妙惟肖,为何还会对一个个体开发者做的 TTS 新应用如此惊喜?

原因在于,这款应用,可以算作目前中文文本生成语音领域的开源顶流了。

我先给你展现一下效果吧。下面是我公众号上的一段文字。

这是 ChatTTS 朗读的结果,请点击这个链接查看

你觉得效果怎么样?

更有意思的是,你不需要为了使用这款应用付任何的 AI 订阅费。只要你有个主流配置的电脑,就能用。甚至你 也可以租个 GPU 来玩儿

不过要使用 ChatTTS 官方的项目来生成音频,你运行的时候得用到 Python。我的一个朋友跟我说我他不懂编程,就连 Python 也不想学,那怎么办呢?

我说帮你找找看更简便的途径吧,果然我找到了一个基于官方项目打包的应用,叫做 ChatTTS-fork,用起来更加方便。

下面咱们来说说使用方法。其实就两步。

第一步,运行下面的指令,把 ChatTTS-fork 软件包装上;

pip install -U chattts-fork

第二步,进入终端。macOS 请进入 Terminal,Windows 打开「命令行」。运行下面的命令:

chattts ' 许多学科的研究工作范式早已是数据驱动。在过去的几年时间里,我给你介绍过不少获取数据的 方法。开放数据获取和 API 数据读取更为简单一些,相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的 教程并不多,而更希望给你介绍一些更为简便的方式,例如这篇。' --seed 2222

解读一下,其中的 chattts 是执行的命令,后面一整段的字符串代表着你让 ChatTTS 读的内容。再之后指定一个随机种子值,ChatTTS 按照随机种子指定的音色来发声。

对,就这么简单。生成的文件,叫做 tts.wav。你也可以在刚才的命令后面加上 -o output.wav 来指定自定义输出音频文件名称。

下面咱们来听一听不同的随机种子之下,ChatTTS 对同样的文本读出来的声音分别是什么样子。

这是 seed 编号 1997 的,链接在这里

这是 seed 编号 1983 的,链接在这里。

你喜欢哪个?实话实说,我更喜欢编号 1997 的这个。语气特别自然,听起来更加可信。

前面咱们输入的只是文本,其实 ChatTTS 厉害的地方在于,你可以非常容易控制 AI 朗读的情绪。例如下面我给你演示加上「笑」([laugh]) 这个控制符,你听听看。这是命令:

chattts "昨天哪 [laugh] 哈哈 [laugh] 我听王树义老师在课上讲了个笑话 [laugh][uv_break] 哎呀妈呀 ,太可乐了 [laugh],哈哈哈 [laugh]" --seed 1983

生成的结果,在这里

如果你尝试了很多不同的 seed ,会发现有些生成音频里,有特别高频刺耳的噪声。一开始我以为这是当时清洗语料的时候没做好,后来才发现,是 ChatTTS 的作者需要免责

作者知道造出来这么样的一个开源应用后,可能会带来什么。没错 —— 某些不法活动的门槛,进一步降低了。如果任由所有人使用纯净原声,那么可能会有更多的受害者上当受骗,后果不堪设想啊。

这个模型训练时长全集超过 10 万小时,而目前开放出来的版本只是一个 4 万小时训练的结果,还加上了噪声。将来它真正商业化的版本,会带来什么?

我这几天跟朋友们分享生成音频效果时,他们反复提到一个关键词 —— 声优。而另一部分人则干脆宣布,只要这工具成熟了,自己会立即取消某常用音频平台的订阅。你说,「声优」这份职业和这个好不容易发展起来的音频平台,招谁惹谁了?

AI 距离人们的期许,还有很长的路要走,甚至我们中没有人知道这个目标是否一定能在近年内达到。但即便在目前 AIGC 发展初级阶段,很多 AI 应用都已经在真真实实影响我们的生活。不是吗?

希望今天的介绍,让你了解目前中文开源 TTS 应用的进步。有了这款应用,你是否打算尝试一下?又准备用它做些什么呢?欢迎你把自己的应用场景和使用感受写在留言区,咱们一起交流讨论。

如果你觉得本文有用,请点赞

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏,以便及时收到后续的更新内容。

延伸阅读



https://blog.sciencenet.cn/blog-377709-1436420.html

上一篇:如何用 NotebookLM 综合分析多篇文献?
下一篇:如何免费用 Qwen2 辅助你翻译与数据分析?
收藏 IP: 60.24.14.*| 热度|

4 郑永军 徐芳 康建 xtn

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 22:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部