Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

Fish Audio 发布最新的语音生成模型：S1 宣称达到专业配音演员的表现力与自然度 S1具备：高度自然、流畅的声音丰富的语气和情绪控制强大的指令跟随能力可通过自然语言控制一系列情绪：从（愤怒）、（高兴）、（悲伤）到细微的（强调）、（低语）、（同情）等等！其训练数据超过 200 万小时音频表现力和自然度在 TTS-Arena 中排名第一

小互

110,581 subscribers

26,524 просмотров • 1 год назад •via X (Twitter)

Искусство Наука и технологии Образование

Anya Rossi• Live Now

Private livecam show

Комментарии: 4

Фото профиля 小互

小互1 год назад

S1 提供原生支持以下语言：英语、中文、日语、德语、法语、西班牙语韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语 S1 是当前市场上最具性价比的高质量 TTS 模型：仅 $15/百万字节相当于大约 $0.8/小时音频成本详细内容：

Фото профиля Bytescribe

Bytescribe1 год назад

Introducing Vehrbal, the AI that converts audio into SOAP notes! Say goodbye to wasted time and hello to effortless note-taking. Experience the power of fast, simple, and efficient with Vehrbal today.

Фото профиля VamSun

VamSun1 год назад

我去 Fish Audio 試用，發現不知道怎樣加入情緒指標。單純用()或（）都只會念出裡面的字。想請教該怎麼使用？

Фото профиля Fire Rob Pelinka

Fire Rob Pelinka1 год назад

不放大招了？

Похожие видео

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

小互

49,351 просмотров • 1 год назад

一款基于Llama的TTS系统：Llasa，它通过扩展训练时间和推理时间计算，提高了语音合成的自然度、韵律准确性和情感表达能力生成效果自然流畅富有感情，开心、悲伤等情感表现的比较自然，适合做有声读物或语音助手它用了一个Xcodec2语音分词器，把语音分解成一个个小的标记，使计算机更容易处理语音，这些标记不仅能表示语音的内容，还能保留语音的情感和音色信息核心在于其单一Transformer架构和规模化训练/推理策略，结合Xcodec2语音分词器，使其能生成更自然、更富有表现力的语音有1B、3B、8B三个版本，支持中英文 #TTS #Llasa

一款基于Llama的TTS系统：Llasa，它通过扩展训练时间和推理时间计算，提高了语音合成的自然度、韵律准确性和情感表达能力生成效果自然流畅富有感情，开心、悲伤等情感表现的比较自然，适合做有声读物或语音助手它用了一个Xcodec2语音分词器，把语音分解成一个个小的标记，使计算机更容易处理语音，这些标记不仅能表示语音的内容，还能保留语音的情感和音色信息核心在于其单一Transformer架构和规模化训练/推理策略，结合Xcodec2语音分词器，使其能生成更自然、更富有表现力的语音有1B、3B、8B三个版本，支持中英文 #TTS #Llasa

AIGCLINK

34,527 просмотров • 1 год назад

Bilibili 训练的这个 IndexTTS2 语音模型效果很不错，支持情感可控 + 时长可控 - 自由切换情绪（开心、生气、悲伤等），甚至能用文字告诉模型“我想让声音听起来愤怒”。 - 保持说话人音色不变，同时注入其他音频或文字里的情感。 - 生成更自然、更清晰的语音，即使在强烈情绪下也不会崩坏。 - 时长可控：可以“精确到毫秒”控制语音长度，也支持自然时长生成。 - 零样本能力：无需额外训练，只需一小段目标声音，就能模仿说话人音色并加上指定情绪。 - 多语种支持：训练语料 55,000小时，覆盖中英文、日文，兼顾自然度与跨语言表现。

Bilibili 训练的这个 IndexTTS2 语音模型效果很不错，支持情感可控 + 时长可控 - 自由切换情绪（开心、生气、悲伤等），甚至能用文字告诉模型“我想让声音听起来愤怒”。 - 保持说话人音色不变，同时注入其他音频或文字里的情感。 - 生成更自然、更清晰的语音，即使在强烈情绪下也不会崩坏。 - 时长可控：可以“精确到毫秒”控制语音长度，也支持自然时长生成。 - 零样本能力：无需额外训练，只需一小段目标声音，就能模仿说话人音色并加上指定情绪。 - 多语种支持：训练语料 55,000小时，覆盖中英文、日文，兼顾自然度与跨语言表现。

小互

27,485 просмотров • 9 месяцев назад

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

小互

35,292 просмотров • 1 год назад

StepFun AI （阶跃星辰）发布LLM 级别的音频编辑模型： Step-Audio-EditX 让语音也可以“像文本一样被编辑” 30亿参数（从130B压缩而来）支持零样本语音克隆与多轮可迭代编辑支持语言：普通话、英语、四川话、粤语它可以通过自然语言指令编辑音频的情绪、语气、风格甚至副语言特征 Step-Audio-EditX 在多项指标上超越了闭源商用模型 Minimax 与 Doubao 实验结果表明：其在自然度、情感表达、音色一致性方面已接近甚至超越闭源商用系统。情绪与风格控制能力达到业内领先水准。

StepFun AI （阶跃星辰）发布LLM 级别的音频编辑模型： Step-Audio-EditX 让语音也可以“像文本一样被编辑” 30亿参数（从130B压缩而来）支持零样本语音克隆与多轮可迭代编辑支持语言：普通话、英语、四川话、粤语它可以通过自然语言指令编辑音频的情绪、语气、风格甚至副语言特征 Step-Audio-EditX 在多项指标上超越了闭源商用模型 Minimax 与 Doubao 实验结果表明：其在自然度、情感表达、音色一致性方面已接近甚至超越闭源商用系统。情绪与风格控制能力达到业内领先水准。

小互

18,024 просмотров • 7 месяцев назад

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

AIGCLINK

103,720 просмотров • 1 год назад

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

小互

35,755 просмотров • 1 год назад

Meta 上周开源了一个端到端的语音模型 Spirit LM。这个太重要了，居然没注意到。这个模型有两个版本：基础版：适合进行一般的语音识别和生成，不包含情感变化。高表现力版：可以捕捉语音中的情感特征，能够生成包含快乐、愤怒或兴奋等情感的语音。主要特点有： Spirit LM 直接使用语音标记、音高标记和声调标记来保留语音中的表现力要素，不需要先转文本描述。能够在不需要大量数据的情况下，完成自动语音识别、文本转语音和语音分类等复杂任务。

Meta 上周开源了一个端到端的语音模型 Spirit LM。这个太重要了，居然没注意到。这个模型有两个版本：基础版：适合进行一般的语音识别和生成，不包含情感变化。高表现力版：可以捕捉语音中的情感特征，能够生成包含快乐、愤怒或兴奋等情感的语音。主要特点有： Spirit LM 直接使用语音标记、音高标记和声调标记来保留语音中的表现力要素，不需要先转文本描述。能够在不需要大量数据的情况下，完成自动语音识别、文本转语音和语音分类等复杂任务。

歸藏(guizang.ai)

28,393 просмотров • 1 год назад

细节的 TTS 技术 Seed-TTS，制作出来的有声书可能要让喜马拉雅的很多主播失业了！支持多种语言。目前还没看到项目代码或者测试地址，只有论文：摘要我们介绍了Seed-TTS，这是一系列大规模自回归文本转语音（TTS）模型，能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型，在语音上下文学习中表现出色，在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调，我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性（如情感）上提供了卓越的可控性，并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音因子化的自蒸馏方法，即通过让模型自行学习和改进的方式来提高性能，以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归（NAR）变体，名为Seed-TTSDiT，它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同，Seed-TTSDiT不依赖于预估的音素持续时间，而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

细节的 TTS 技术 Seed-TTS，制作出来的有声书可能要让喜马拉雅的很多主播失业了！支持多种语言。目前还没看到项目代码或者测试地址，只有论文：摘要我们介绍了Seed-TTS，这是一系列大规模自回归文本转语音（TTS）模型，能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型，在语音上下文学习中表现出色，在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调，我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性（如情感）上提供了卓越的可控性，并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音因子化的自蒸馏方法，即通过让模型自行学习和改进的方式来提高性能，以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归（NAR）变体，名为Seed-TTSDiT，它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同，Seed-TTSDiT不依赖于预估的音素持续时间，而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

宝玉

67,886 просмотров • 2 лет назад

刚开源的一款不错的TTS模型：Zonos-v0.1，表达能力和音质很不错，支持语音克隆，可对语速、音调变化、音质以及情感精细控制 10-30s声音样本即可高质量语音克隆支持英语、日语、中文、法语和德语可精细调控语速、音调、最高频率、音质以及各种情感响应速度快，在RTX 4090上，实时率约为2倍 #TTS #语音模型 #Zonos

刚开源的一款不错的TTS模型：Zonos-v0.1，表达能力和音质很不错，支持语音克隆，可对语速、音调变化、音质以及情感精细控制 10-30s声音样本即可高质量语音克隆支持英语、日语、中文、法语和德语可精细调控语速、音调、最高频率、音质以及各种情感响应速度快，在RTX 4090上，实时率约为2倍 #TTS #语音模型 #Zonos

AIGCLINK

18,116 просмотров • 1 год назад

HeyGen 发布 Avatar IV 数字人模型只需一张照片、一段脚本和自己的语音，即可生成一个非常逼真数字人 - 新模型基于“扩散式音频驱动表情引擎”，能根据语音的节奏、语调、情绪合成真实的面部表情和动作。 - 支持侧脸图像与角度变化，带来更具电影感的画面。 - 支持唱歌同步（节奏匹配） - 不仅同步声音，还能“理解”语义与情感，表现出暂停、点头、语调起伏等微动作。 - 支持 30 秒音频/脚本：最多上传 30 秒的语音或文本脚本生成动画。

小互

140,969 просмотров • 1 год назад

兄弟们，牛P了 11Labs 推出 Eleven v3（Alpha 版）应该是目前地表最强的文本转语音模型了它不仅会说话，还能演戏支持 70 多种语言多个角色间的自然对话以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。

兄弟们，牛P了 11Labs 推出 Eleven v3（Alpha 版）应该是目前地表最强的文本转语音模型了它不仅会说话，还能演戏支持 70 多种语言多个角色间的自然对话以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。

小互

124,132 просмотров • 1 год назад

阿里的TTS模型CosyVoice更新了，支持超精细的控制功能，听起来更逼真自然。可以生成与特定特征匹配的语音，比如性别、年龄和个性等。还可以模仿非常自然的人类语音，包括笑声、咳嗽和呼吸。可以为语音添加情感和风格 GitHub： #AI #CosyVoice #SpeechSynthesis #Innovation

阿里的TTS模型CosyVoice更新了，支持超精细的控制功能，听起来更逼真自然。可以生成与特定特征匹配的语音，比如性别、年龄和个性等。还可以模仿非常自然的人类语音，包括笑声、咳嗽和呼吸。可以为语音添加情感和风格 GitHub： #AI #CosyVoice #SpeechSynthesis #Innovation

AIGCLINK

37,783 просмотров • 1 год назад

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

AIGCLINK

18,706 просмотров • 1 год назад

兄弟们炸裂了这个语音专文本TTS模型应该是目前对中文支持最好的了 ChatTTS：专门为对话场景设计的文本到语音TTS模型该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。专为对话任务优化，能够支持多种说话人语音，中英文混合等。模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。 GitHub：详细介绍：

兄弟们炸裂了这个语音专文本TTS模型应该是目前对中文支持最好的了 ChatTTS：专门为对话场景设计的文本到语音TTS模型该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。专为对话任务优化，能够支持多种说话人语音，中英文混合等。模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。 GitHub：详细介绍：

小互

296,557 просмотров • 2 лет назад

盲测击败了ElevenLabs的一款TTS：Chatterbox，有极强的情感控制能力，可以调整其语音表现力支持语音克隆、风格定制除了正常对话，可以用于一些戏剧化的语音场景 #TTS #Chatterbox #文本转语音 #AI语音

盲测击败了ElevenLabs的一款TTS：Chatterbox，有极强的情感控制能力，可以调整其语音表现力支持语音克隆、风格定制除了正常对话，可以用于一些戏剧化的语音场景 #TTS #Chatterbox #文本转语音 #AI语音

AIGCLINK

26,481 просмотров • 1 год назад

Dia：一个由两人小团队开发的完全开源语音模型能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件（prompt）进行控制，实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公开单步对话生成：一次性生成完整对话（支持多说话人，如[S1]、[S2]标签）。非语言标签支持：支持丰富的非语言动作标签，增强真实感。

Dia：一个由两人小团队开发的完全开源语音模型能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件（prompt）进行控制，实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公开单步对话生成：一次性生成完整对话（支持多说话人，如[S1]、[S2]标签）。非语言标签支持：支持丰富的非语言动作标签，增强真实感。

小互

28,964 просмотров • 1 год назад

阶跃开源了一个统治级 130B 的超大语音模型！！！业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话（中文，英文，日语） - 语音情感（开心，悲伤） - 方言（粤语，四川话） - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆太强了，这下真的一步到位了

阶跃开源了一个统治级 130B 的超大语音模型！！！业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话（中文，英文，日语） - 语音情感（开心，悲伤） - 方言（粤语，四川话） - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆太强了，这下真的一步到位了

歸藏(guizang.ai)

148,406 просмотров • 1 год назад