Загрузка видео...

Не удалось загрузить видео

На главную

使用 Google Gemini 做出了目前最强的英语口语学习软件。Gemini的多模态能力目前来说应该是世界第一。 之前也尝试过用OpenAI的语音模式学习英语,问题是我英语本来就不是很好,每次回答还默认英语,而且他也无法识别语调,发音等问题,实际上那种模式是通过语音转文字后进行分析,完全无法分析你的语调和发音问题。 Gemini2.0的多模态功能完美解决了这个问题,目前他可以非常强的理解你的真实发音,而不是单纯的转换成文字后纠正,他可以真正的触达你的真实声音。 下面是我自己练习时的视频,它是可以真正的分析你的发音,真的太强大了!

141,403 просмотров • 1 год назад •via X (Twitter)

Комментарии: 11

Фото профиля Box
Box1 год назад

开源代码链接:

Фото профиля Box
Box1 год назад

把代码整理了一下,并且附加上了完整的使用教程,有需要的小伙伴可以自取,如果有什么问题也可以开issue提问,基本秒回。

Фото профиля Box
Box1 год назад

更新了一个版本,目前支持语音功能,可以自动发音,更方便纠正语法问题

Фото профиля AssemblyAI
AssemblyAI1 год назад

Announcing: Our most advanced speech-to-text model goes beyond accuracy to capture the real-world complexity of human conversation and deliver reliable, source-of-truth audio data. Explore Universal-2 updates 👇

Фото профиля derrrrrr(ϙ,ϙ) - mpc/acc
derrrrrr(ϙ,ϙ) - mpc/acc1 год назад

@GeminiApp 盒子哥,搞个口语学习的 ai agent吧, 大家都要学

Фото профиля Box
Box1 год назад

@GeminiApp 怎么说呢 咋交互

Фото профиля AIStudio.2024
AIStudio.20241 год назад

@GeminiApp 支持日文不支持中文

Фото профиля Mina Pulse
Mina Pulse1 год назад

@GeminiApp 收到 🫡老师

Фото профиля Oscar🏴‍☠️
Oscar🏴‍☠️1 год назад

@GeminiApp 马上试试👍🏻💡

Фото профиля 阿尼亚可爱
阿尼亚可爱1 год назад

@GeminiApp 这个其实能做一些教育APP

Фото профиля ImmuneMind
ImmuneMind1 год назад

@GeminiApp 感觉gemimi语音识别错误率很高,或许我的发音不行吧

Похожие видео

细节的 TTS 技术 Seed-TTS,制作出来的有声书可能要让喜马拉雅的很多主播失业了!支持多种语言。 目前还没看到项目代码或者测试地址,只有论文: 摘要 我们介绍了Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调,我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性(如情感)上提供了卓越的可控性,并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外,我们提出了一种用于语音因子化的自蒸馏方法,即通过让模型自行学习和改进的方式来提高性能,以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同,Seed-TTSDiT不依赖于预估的音素持续时间,而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

宝玉

67,841 просмотров • 2 лет назад