Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

兄弟们炸裂了这个语音专文本TTS模型应该是目前对中文支持最好的了 ChatTTS：专门为对话场景设计的文本到语音TTS模型该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。专为对话任务优化，能够支持多种说话人语音，中英文混合等。模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。 GitHub：详细介绍：

小互

111,163 subscribers

296,557 просмотров • 2 лет назад •via X (Twitter)

Искусство Наука и технологии Образование

Anya Rossi• Live Now

Private livecam show

Комментарии: 10

Фото профиля 小互

小互2 лет назад

测试演示：

Фото профиля Adam Carter

Adam Carter2 лет назад

分享下使用教程 1. 到克隆项目 2. 按照以下方式输入代码 3. 运行（运行时看到缺什么组件就装什么组件）注意： 1. 尽量不使用特殊的标点符号，甚至引号都会影响生成结果。 2. 多音字还是有点问题 3. 一次生成感觉不好可以多生成几次

Фото профиля JoeDean

JoeDean2 лет назад

太炸裂了，刚在这里体验了一下，

Фото профиля 知识分享官

知识分享官2 лет назад

3070ti能否一战

Фото профиля Justin

Justin2 лет назад

有 API 就好了，这个东西个人本地使用还有点门槛，显卡并非人人有啊😂

Фото профиля Eric Z

Eric Z2 лет назад

能保持同一个人的语调吗

Фото профиля Jiu Peak

Jiu Peak2 лет назад

网站有错位

Фото профиля 阿外

阿外2 лет назад

语气、节奏、情绪等副语言效果都太赞了，这已经堪比4o voice语音模型的拟人化效果了，还开源👍

Фото профиля Tales

Tales2 лет назад

不需要再找听力材料，直接根据需要，强度生成恰好的即可，N+1学习。

Фото профиля HelloLeo

HelloLeo2 лет назад

牛逼的开源项目，未来电话另一头是什么人应该更难区分了

Похожие видео

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

小互

35,755 просмотров • 1 год назад

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

小互

49,351 просмотров • 1 год назад

刚开源的一款不错的TTS模型：Zonos-v0.1，表达能力和音质很不错，支持语音克隆，可对语速、音调变化、音质以及情感精细控制 10-30s声音样本即可高质量语音克隆支持英语、日语、中文、法语和德语可精细调控语速、音调、最高频率、音质以及各种情感响应速度快，在RTX 4090上，实时率约为2倍 #TTS #语音模型 #Zonos

刚开源的一款不错的TTS模型：Zonos-v0.1，表达能力和音质很不错，支持语音克隆，可对语速、音调变化、音质以及情感精细控制 10-30s声音样本即可高质量语音克隆支持英语、日语、中文、法语和德语可精细调控语速、音调、最高频率、音质以及各种情感响应速度快，在RTX 4090上，实时率约为2倍 #TTS #语音模型 #Zonos

AIGCLINK

18,116 просмотров • 1 год назад

字节新出的一款轻量级TTS模型：MegaTTS3，0.45B，高质量语音克隆，支持中英文以及中英文混合支持口音强度控制，后面会支持更细粒度的发音和时长调整 #TTS #MegaTTS3

字节新出的一款轻量级TTS模型：MegaTTS3，0.45B，高质量语音克隆，支持中英文以及中英文混合支持口音强度控制，后面会支持更细粒度的发音和时长调整 #TTS #MegaTTS3

AIGCLINK

48,872 просмотров • 1 год назад

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

AIGCLINK

52,126 просмотров • 1 год назад

卧槽 Unsloth 支持TTS (文本到语音) 模型微调了！任何基于 transformer 架构的 TTS 模型以及 Sesame/csm-1b, OpenAI/whisper-large-v3, CanopyLabs/orpheus-3b-0.1-ft 都能微调！目前微调支持模仿声音、适应说话风格和语调、支持新语言、处理特定任务等等有教程吗？当然！看这里：

卧槽 Unsloth 支持TTS (文本到语音) 模型微调了！任何基于 transformer 架构的 TTS 模型以及 Sesame/csm-1b, OpenAI/whisper-large-v3, CanopyLabs/orpheus-3b-0.1-ft 都能微调！目前微调支持模仿声音、适应说话风格和语调、支持新语言、处理特定任务等等有教程吗？当然！看这里：

karminski-牙医

13,847 просмотров • 1 год назад

上海交通大学开源了一个非常牛批的语音生成模型 F5-TTS。刚好这几天AI音频和播客火爆，这下瞌睡送枕头了。模型特点有：零样本 (Zero-shot) 声音克隆速度控制（基于总时长）可以控制合成语音的情感表现长文本合成支持中文和英文多语言合成在 10 万小时数据上训练最重要的是支持商用

上海交通大学开源了一个非常牛批的语音生成模型 F5-TTS。刚好这几天AI音频和播客火爆，这下瞌睡送枕头了。模型特点有：零样本 (Zero-shot) 声音克隆速度控制（基于总时长）可以控制合成语音的情感表现长文本合成支持中文和英文多语言合成在 10 万小时数据上训练最重要的是支持商用

歸藏(guizang.ai)

129,311 просмотров • 1 год назад

兄弟们，牛P了 11Labs 推出 Eleven v3（Alpha 版）应该是目前地表最强的文本转语音模型了它不仅会说话，还能演戏支持 70 多种语言多个角色间的自然对话以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。

兄弟们，牛P了 11Labs 推出 Eleven v3（Alpha 版）应该是目前地表最强的文本转语音模型了它不仅会说话，还能演戏支持 70 多种语言多个角色间的自然对话以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。

小互

124,132 просмотров • 1 год назад

阶跃开源了一个统治级 130B 的超大语音模型！！！业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话（中文，英文，日语） - 语音情感（开心，悲伤） - 方言（粤语，四川话） - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆太强了，这下真的一步到位了

阶跃开源了一个统治级 130B 的超大语音模型！！！业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话（中文，英文，日语） - 语音情感（开心，悲伤） - 方言（粤语，四川话） - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆太强了，这下真的一步到位了

歸藏(guizang.ai)

148,406 просмотров • 1 год назад

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

AIGCLINK

103,720 просмотров • 1 год назад

Kyutai 又推出了一个新的语音模型： Unmute 这是一个高度模块化的语音 AI 系统，可以为任何文本大语言模型快速添加语音功能。也就是它可以插入到任意的模型当中，让该模型具有语音能力。 -它能够很智能判断你是否说完一句话，然后再接茬 -你也可以随时打断它 -基于 10 秒语音样本即可定制声音 -能实现“文本流式”合成，支持在文本尚未完全生成时开始说话，进一步降低响应延迟。

Kyutai 又推出了一个新的语音模型： Unmute 这是一个高度模块化的语音 AI 系统，可以为任何文本大语言模型快速添加语音功能。也就是它可以插入到任意的模型当中，让该模型具有语音能力。 -它能够很智能判断你是否说完一句话，然后再接茬 -你也可以随时打断它 -基于 10 秒语音样本即可定制声音 -能实现“文本流式”合成，支持在文本尚未完全生成时开始说话，进一步降低响应延迟。

小互

37,051 просмотров • 1 год назад

酷，新出的一款端到端AI语音模型：Voila，全双工能同时听和说，低延迟，预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构，支持全双工的低延迟对话，延迟195毫秒，超人类平均响应时间能实时自主对话，持续聆听、推理以及主动回应，通过文本指令可以定义说话者的身份以及语气等特征 #语音模型 #Voila #TTS #ASR

酷，新出的一款端到端AI语音模型：Voila，全双工能同时听和说，低延迟，预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构，支持全双工的低延迟对话，延迟195毫秒，超人类平均响应时间能实时自主对话，持续聆听、推理以及主动回应，通过文本指令可以定义说话者的身份以及语气等特征 #语音模型 #Voila #TTS #ASR

AIGCLINK

37,647 просмотров • 1 год назад

Fish Speech：完美支持中英日语言的开源TTS模型语音处理接近人类水平模型使用约十五万小时三语数据训练，对中文支持非常的完美。

Fish Speech：完美支持中英日语言的开源TTS模型语音处理接近人类水平模型使用约十五万小时三语数据训练，对中文支持非常的完美。

小互

129,241 просмотров • 2 лет назад

最近TTS太火了，字节跳动也推出了语音生成模型：Seed-TTS Seed-TTS能生成与人类语音几乎没有区别的语音支持多种语言包括英语、中文，能够进行同语言生成和跨语言生成。能处理各种文本，叙述性文本、情感表达、描述性文本等，能根据不同的情感和语境生成相应的语音 github：论文： #TTS #SeedTTS #字节跳动

最近TTS太火了，字节跳动也推出了语音生成模型：Seed-TTS Seed-TTS能生成与人类语音几乎没有区别的语音支持多种语言包括英语、中文，能够进行同语言生成和跨语言生成。能处理各种文本，叙述性文本、情感表达、描述性文本等，能根据不同的情感和语境生成相应的语音 github：论文： #TTS #SeedTTS #字节跳动

AIGCLINK

13,338 просмотров • 2 лет назад

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

AIGCLINK

18,706 просмотров • 1 год назад

细节的 TTS 技术 Seed-TTS，制作出来的有声书可能要让喜马拉雅的很多主播失业了！支持多种语言。目前还没看到项目代码或者测试地址，只有论文：摘要我们介绍了Seed-TTS，这是一系列大规模自回归文本转语音（TTS）模型，能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型，在语音上下文学习中表现出色，在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调，我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性（如情感）上提供了卓越的可控性，并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音因子化的自蒸馏方法，即通过让模型自行学习和改进的方式来提高性能，以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归（NAR）变体，名为Seed-TTSDiT，它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同，Seed-TTSDiT不依赖于预估的音素持续时间，而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

细节的 TTS 技术 Seed-TTS，制作出来的有声书可能要让喜马拉雅的很多主播失业了！支持多种语言。目前还没看到项目代码或者测试地址，只有论文：摘要我们介绍了Seed-TTS，这是一系列大规模自回归文本转语音（TTS）模型，能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型，在语音上下文学习中表现出色，在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调，我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性（如情感）上提供了卓越的可控性，并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音因子化的自蒸馏方法，即通过让模型自行学习和改进的方式来提高性能，以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归（NAR）变体，名为Seed-TTSDiT，它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同，Seed-TTSDiT不依赖于预估的音素持续时间，而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

宝玉

67,886 просмотров • 2 лет назад

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》（中英双语字幕）这个视频介绍了大型语言模型（Large Language Models，LLMs）的概念、使用场景、提示调整以及Google的Gen AI开发工具。大型语言模型是深度学习的一个子集，可以预训练并进行特定目的的微调。这些模型经过训练，可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后，可以利用相对较小的领域数据集对这些模型进行定制，以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是：大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模，也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练，然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括：一种模型可用于不同的任务；微调大型语言模型需要的领域训练数据较少；随着数据和参数的增加，大型语言模型的性能也在持续增长。此外，视频还解释了传统编程、神经网络和生成模型的不同，以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中，提示设计和提示工程是两个密切相关的概念，这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型：通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。原始视频链接：

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》（中英双语字幕）这个视频介绍了大型语言模型（Large Language Models，LLMs）的概念、使用场景、提示调整以及Google的Gen AI开发工具。大型语言模型是深度学习的一个子集，可以预训练并进行特定目的的微调。这些模型经过训练，可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后，可以利用相对较小的领域数据集对这些模型进行定制，以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是：大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模，也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练，然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括：一种模型可用于不同的任务；微调大型语言模型需要的领域训练数据较少；随着数据和参数的增加，大型语言模型的性能也在持续增长。此外，视频还解释了传统编程、神经网络和生成模型的不同，以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中，提示设计和提示工程是两个密切相关的概念，这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型：通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。原始视频链接：

宝玉

114,603 просмотров • 3 лет назад

Spark-TTS：基于Qwen2.5模型的高效文本转语音（TTS）系统 ✅ 在多个基准测试上超越现有 TTS 方法，并结合 Qwen2.5 LLM 进行端到端生成。 ✅ 支持细粒度语音控制（性别、音调、语速等），远超传统 TTS。 ✅ 零样本语音克隆，能生成高质量个性化声音。 ✅ 采用 BiCodec 编码，简化架构，提升推理效率。与 Qwen2.5 语言模型集成，使 TTS 任务可以直接由 LLM 处理，无需额外的声学模型。允许用户通过文本描述语音风格，甚至能生成全新的虚拟声音，突破传统 TTS 只能基于参考音频合成的限制。

Spark-TTS：基于Qwen2.5模型的高效文本转语音（TTS）系统 ✅ 在多个基准测试上超越现有 TTS 方法，并结合 Qwen2.5 LLM 进行端到端生成。 ✅ 支持细粒度语音控制（性别、音调、语速等），远超传统 TTS。 ✅ 零样本语音克隆，能生成高质量个性化声音。 ✅ 采用 BiCodec 编码，简化架构，提升推理效率。与 Qwen2.5 语言模型集成，使 TTS 任务可以直接由 LLM 处理，无需额外的声学模型。允许用户通过文本描述语音风格，甚至能生成全新的虚拟声音，突破传统 TTS 只能基于参考音频合成的限制。

小互

33,382 просмотров • 1 год назад