Загрузка видео...

Не удалось загрузить видео

На главную

Fish Audio 发布最新的语音生成模型:S1 宣称达到专业配音演员的表现力与自然度 S1具备: 高度自然、流畅的声音 丰富的语气和情绪控制 强大的指令跟随能力 可通过自然语言控制一系列情绪:从(愤怒)、(高兴)、(悲伤)到细微的(强调)、(低语)、(同情)等等! 其训练数据超过 200 万小时音频 表现力和自然度在 TTS-Arena 中排名第一

26,524 просмотров • 1 год назад •via X (Twitter)

Комментарии: 4

Фото профиля 小互
小互1 год назад

S1 提供原生支持以下语言: 英语、中文、日语、德语、法语、西班牙语 韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语 S1 是当前市场上最具性价比的高质量 TTS 模型: 仅 $15/百万字节 相当于大约 $0.8/小时 音频成本 详细内容:

Фото профиля Bytescribe
Bytescribe1 год назад

Introducing Vehrbal, the AI that converts audio into SOAP notes! Say goodbye to wasted time and hello to effortless note-taking. Experience the power of fast, simple, and efficient with Vehrbal today.

Фото профиля VamSun
VamSun1 год назад

我去 Fish Audio 試用,發現不知道怎樣加入情緒指標。單純用()或()都只會念出裡面的字。想請教該怎麼使用?

Фото профиля Fire Rob Pelinka
Fire Rob Pelinka1 год назад

不放大招了?

Похожие видео

细节的 TTS 技术 Seed-TTS,制作出来的有声书可能要让喜马拉雅的很多主播失业了!支持多种语言。 目前还没看到项目代码或者测试地址,只有论文: 摘要 我们介绍了Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调,我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性(如情感)上提供了卓越的可控性,并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外,我们提出了一种用于语音因子化的自蒸馏方法,即通过让模型自行学习和改进的方式来提高性能,以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同,Seed-TTSDiT不依赖于预估的音素持续时间,而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

宝玉

67,886 просмотров • 2 лет назад