Загрузка видео...

Не удалось загрузить видео

На главную

兄弟们 炸裂了 这个语音专文本TTS模型 应该是目前对中文支持最好的了 ChatTTS:专门为对话场景设计的文本到语音TTS模型 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音,中英文混合等。 模型还能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等,还能进行更细粒度的调整,如语速、音调和情感等。 GitHub: 详细介绍:

296,557 просмотров • 2 лет назад •via X (Twitter)

Комментарии: 10

Фото профиля 小互
小互2 лет назад

测试演示:

Фото профиля Adam Carter
Adam Carter2 лет назад

分享下使用教程 1. 到 克隆项目 2. 按照以下方式输入代码 3. 运行(运行时看到缺什么组件就装什么组件) 注意: 1. 尽量不使用特殊的标点符号,甚至引号都会影响生成结果。 2. 多音字还是有点问题 3. 一次生成感觉不好可以多生成几次

Фото профиля JoeDean
JoeDean2 лет назад

太炸裂了,刚在这里体验了一下,

Фото профиля 知识分享官
知识分享官2 лет назад

3070ti能否一战

Фото профиля Justin
Justin2 лет назад

有 API 就好了,这个东西个人本地使用还有点门槛,显卡并非人人有啊😂

Фото профиля Eric Z
Eric Z2 лет назад

能保持同一个人的语调吗

Фото профиля Jiu Peak
Jiu Peak2 лет назад

网站有错位

Фото профиля 阿外
阿外2 лет назад

语气、节奏、情绪等副语言效果都太赞了,这已经堪比4o voice语音模型的拟人化效果了,还开源👍

Фото профиля Tales
Tales2 лет назад

不需要再找听力材料,直接根据需要,强度生成恰好的即可,N+1学习。

Фото профиля HelloLeo
HelloLeo2 лет назад

牛逼的开源项目,未来电话另一头是什么人应该更难区分了

Похожие видео

细节的 TTS 技术 Seed-TTS,制作出来的有声书可能要让喜马拉雅的很多主播失业了!支持多种语言。 目前还没看到项目代码或者测试地址,只有论文: 摘要 我们介绍了Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调,我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性(如情感)上提供了卓越的可控性,并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外,我们提出了一种用于语音因子化的自蒸馏方法,即通过让模型自行学习和改进的方式来提高性能,以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同,Seed-TTSDiT不依赖于预估的音素持续时间,而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

宝玉

67,886 просмотров • 2 лет назад

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》(中英双语字幕) 这个视频介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及Google的Gen AI开发工具。 大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。 大型语言模型的三个主要特征是:大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模,也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。 使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。 此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的LLM开发与传统的ML开发的区别。 在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。 原始视频链接:

宝玉

114,603 просмотров • 3 лет назад