Video yükleniyor...

Video Yüklenemedi

Bu video yüklenirken bir sorun oluştu. Bu geçici bir ağ sorunundan kaynaklanıyor olabilir veya video kullanılamıyor olabilir.

Ana Sayfaya Dön

NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。🤯 以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得也准。不管是找视频里的物体，还是识别UI界面、OCR文字，它都能搞定。最关键是模型很小，只有 3B 参数（约7.8GB），消费级显卡也能本地跑！🏠💻 做计算机视觉或者多模态的朋友，这个必须得试试。项目已开源，手慢无！👇

Vincent | 信号＞噪音

52,704 subscribers

36,715 görüntüleme • 10 gün önce •via X (Twitter)

Eğitim Bilim & Teknoloji

Anya Rossi• Live Now

Private livecam show

0 Yorum

Yorum bulunmuyor

Orijinal gönderinin yorumları burada görünecek

Benzer Videolar

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,141 görüntüleme • 25 gün önce

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 görüntüleme • 5 ay önce

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

indigo

183,903 görüntüleme • 2 yıl önce

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

小互

14,772 görüntüleme • 6 ay önce

网飞开源了一个很强的视频编辑模型。它可以直接删除视频中的某个物体。但真正夸张的点是：它连这个物体对周围画面的影响，也能一并消掉。不只是“把东西抹掉”，而是在重新生成一段合理的视频。

网飞开源了一个很强的视频编辑模型。它可以直接删除视频中的某个物体。但真正夸张的点是：它连这个物体对周围画面的影响，也能一并消掉。不只是“把东西抹掉”，而是在重新生成一段合理的视频。

梦想夏乡

15,444 görüntüleme • 2 ay önce

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

karminski-牙医

19,803 görüntüleme • 5 ay önce

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

Sensitive content

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

獨自懵逼

18,922 görüntüleme • 1 yıl önce

每个人都能买得起英伟达发布个人AI超级计算机，能运行2000亿参数的大模型。 NVIDIA 今天在CES 2025大会上发布了 NVIDIA Project DIGITS，这是一款能放在你桌面上的个人AI超级计算机。将传统上需要大型数据中心才能完成的 AI 计算，带到每个人的桌面。‘ Project DIGITS 采用全新的 NVIDIA GB10 Grace Blackwell Superchip，能够提供 1 PFLOP（每秒一千万亿次浮点运算）的AI计算性能。设计目的用于原型开发、微调以及运行大型AI模型，使用户能够在本地桌面系统上开发和运行推理模型，然后无缝部署到云或数据中心也就是它能在你的本地就能运行超大的AI模型，能够运行高达 2000亿参数的大语言模型。通过 NVIDIA ConnectX 网络，两台 Project DIGITS 超级计算机连接起来，可以运行 4050亿参数模型。而且支持在本地电脑上开发和测试AI模型，然后快速部署到云端或数据中心。简单来说，它就像是给每个开发者配了一台袖珍的AI超级计算机！

每个人都能买得起英伟达发布个人AI超级计算机，能运行2000亿参数的大模型。 NVIDIA 今天在CES 2025大会上发布了 NVIDIA Project DIGITS，这是一款能放在你桌面上的个人AI超级计算机。将传统上需要大型数据中心才能完成的 AI 计算，带到每个人的桌面。‘ Project DIGITS 采用全新的 NVIDIA GB10 Grace Blackwell Superchip，能够提供 1 PFLOP（每秒一千万亿次浮点运算）的AI计算性能。设计目的用于原型开发、微调以及运行大型AI模型，使用户能够在本地桌面系统上开发和运行推理模型，然后无缝部署到云或数据中心也就是它能在你的本地就能运行超大的AI模型，能够运行高达 2000亿参数的大语言模型。通过 NVIDIA ConnectX 网络，两台 Project DIGITS 超级计算机连接起来，可以运行 4050亿参数模型。而且支持在本地电脑上开发和测试AI模型，然后快速部署到云端或数据中心。简单来说，它就像是给每个开发者配了一台袖珍的AI超级计算机！

小互

85,682 görüntüleme • 1 yıl önce

在今天的百度世界大会上，沉寂许久的百度发布其文心5.0（EB5）模型似乎是憋了个大招根据公布的信息,这代模型直接从训练伊始就融合文本、图像、音频、视频训练数据是一个原生的全模态模型... - 参数规模高达 2.4 万亿 - MoE架构激活参数比例< 3% 测试了下视频分析能力，感觉是有点东西... 真的能看懂视频，不只是台词，画面分析的也很可以...

在今天的百度世界大会上，沉寂许久的百度发布其文心5.0（EB5）模型似乎是憋了个大招根据公布的信息,这代模型直接从训练伊始就融合文本、图像、音频、视频训练数据是一个原生的全模态模型... - 参数规模高达 2.4 万亿 - MoE架构激活参数比例< 3% 测试了下视频分析能力，感觉是有点东西... 真的能看懂视频，不只是台词，画面分析的也很可以...

小互

38,838 görüntüleme • 7 ay önce

国产最新的多模态模型来了！！前两周我刚体验过国产的阶跃星辰大模型，没想到这么快他们的新模型 Step 3.7 Flash 就出了。现在大模型一发布必卷 benchmark 分数，但真正做 Agent 的人都清楚：跑分高 ≠ 能把活干完。所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快，而是主打“生产任务端到端执行效率”。一个真实的 Agent 任务从来不是一次问答，而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环，Step 3.7 Flash 这次升级的重点是整条链路的效率，而不是某个孤立指标。提几个我觉得挺务实的点： 1. 原生多模态模型：它可以直接处理 UI 截图、图表、仪表盘、文档，原生读懂并转成结构化输出和可执行步骤，不需要像一些模型那样外挂视觉理解 MCP，而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索：网页搜索、图像搜索、视觉验证、多源信息比对，让 Agent 在开放任务里边查边验证边行动，而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数，最高 400 TPS：稀疏激活 + 这个速度，意味着高频交互、多步工作流、反复工具调用的场景下，单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署：生产环境要的不只是 API，还有透明度、可控性和部署灵活性。如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统，值得用 StepFun 试试这款新模型的能力。想看更进阶的平台能力，可以了解 Step Plan。海外平台：国内平台：

国产最新的多模态模型来了！！前两周我刚体验过国产的阶跃星辰大模型，没想到这么快他们的新模型 Step 3.7 Flash 就出了。现在大模型一发布必卷 benchmark 分数，但真正做 Agent 的人都清楚：跑分高 ≠ 能把活干完。所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快，而是主打“生产任务端到端执行效率”。一个真实的 Agent 任务从来不是一次问答，而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环，Step 3.7 Flash 这次升级的重点是整条链路的效率，而不是某个孤立指标。提几个我觉得挺务实的点： 1. 原生多模态模型：它可以直接处理 UI 截图、图表、仪表盘、文档，原生读懂并转成结构化输出和可执行步骤，不需要像一些模型那样外挂视觉理解 MCP，而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索：网页搜索、图像搜索、视觉验证、多源信息比对，让 Agent 在开放任务里边查边验证边行动，而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数，最高 400 TPS：稀疏激活 + 这个速度，意味着高频交互、多步工作流、反复工具调用的场景下，单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署：生产环境要的不只是 API，还有透明度、可控性和部署灵活性。如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统，值得用 StepFun 试试这款新模型的能力。想看更进阶的平台能力，可以了解 Step Plan。海外平台：国内平台：

耳朵

11,816 görüntüleme • 7 gün önce

顺藤摸瓜找到这个视频的作者了问了下一对一教学是3000元丢个视频你自己学是588元可以使用训练好的模型，也可以自己用SD生成定制自己独有的虚拟人模型一个模型一张脸，做好无法更换！显卡3060起步

顺藤摸瓜找到这个视频的作者了问了下一对一教学是3000元丢个视频你自己学是588元可以使用训练好的模型，也可以自己用SD生成定制自己独有的虚拟人模型一个模型一张脸，做好无法更换！显卡3060起步

小互

1,194,347 görüntüleme • 2 yıl önce

腾讯杀疯了！开源了参数最多、性能最强的文生视频大模型。我已经测试了一段时间。混元视频生成模型整体效果非常厉害，在美学表现、稳定性、运动幅度的品质上都是一流的。下面有详细介绍：

腾讯杀疯了！开源了参数最多、性能最强的文生视频大模型。我已经测试了一段时间。混元视频生成模型整体效果非常厉害，在美学表现、稳定性、运动幅度的品质上都是一流的。下面有详细介绍：

歸藏(guizang.ai)

145,883 görüntüleme • 1 yıl önce

大多数人以为 prompting 只是把句子写得更好 Anthropic 这个 32 分钟 workshop 讲的是另一件事：为什么这完全不够它拆的不是 prompt hacks 不是“act as” 也不是又一个 $300 的课程而是 production 里的 prompt 到底怎么搭 Evals Edge cases Model migration Agent loops 一个好的 prompt，不是一句话而是一套模型可以理解、执行、测试、再改进的 workflow 这点很重要因为不管后面是新的 Claude Opus，还是新的 Sonnet，真正有效的规则大概率还是这些： - 让模型知道目标 - 让模型知道边界 - 让模型知道怎么检查自己 - 让模型知道遇到 edge case 时该怎么处理所以很多时候，AI 给出的坏答案，不一定是模型差也可能只是 setup 太差这个 prompting playbook，建议在下次怪 AI 之前先看完

大多数人以为 prompting 只是把句子写得更好 Anthropic 这个 32 分钟 workshop 讲的是另一件事：为什么这完全不够它拆的不是 prompt hacks 不是“act as” 也不是又一个 $300 的课程而是 production 里的 prompt 到底怎么搭 Evals Edge cases Model migration Agent loops 一个好的 prompt，不是一句话而是一套模型可以理解、执行、测试、再改进的 workflow 这点很重要因为不管后面是新的 Claude Opus，还是新的 Sonnet，真正有效的规则大概率还是这些： - 让模型知道目标 - 让模型知道边界 - 让模型知道怎么检查自己 - 让模型知道遇到 edge case 时该怎么处理所以很多时候，AI 给出的坏答案，不一定是模型差也可能只是 setup 太差这个 prompting playbook，建议在下次怪 AI 之前先看完

0x_Miko

15,628 görüntüleme • 11 gün önce

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,705 görüntüleme • 9 ay önce

Kokoro简直太疯狂了。🤯 这款AI是一个开创性的TTS模型，仅有8200万参数，却超越了更大的模型，可以在几秒钟内生成数分钟的语音。而且，它是开源的！快来试试：👇

Kokoro简直太疯狂了。🤯 这款AI是一个开创性的TTS模型，仅有8200万参数，却超越了更大的模型，可以在几秒钟内生成数分钟的语音。而且，它是开源的！快来试试：👇

AI Will

42,843 görüntüleme • 1 yıl önce

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

墓碑科技

73,491 görüntüleme • 5 ay önce

NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成块"吞噬"数据，效率直接拉满以后这些场景真的爽：全天监控里找"没戴安全帽且在争吵"的人几百个素材里精准定位"有海浪声且拍到日落"的画面听一段机器运转视频就能诊断电机异响几分钟帮你搞定，连 Whisper 的钱都省了不过要注意，这哥们是个典型的偏科生技能点全加在了多模态理解和处理效率上，想拿它写代码或者搞高难度文本推理，表现可能还不如一些轻量级纯文本模型结论：别把它当全能程序员，但在音视频分析、海量素材打标这些实战场景里，它绝对是开源界的神搞 AI 视频、多模态的兄弟，这个必须试试项目地址放评论区了👇

NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成块"吞噬"数据，效率直接拉满以后这些场景真的爽：全天监控里找"没戴安全帽且在争吵"的人几百个素材里精准定位"有海浪声且拍到日落"的画面听一段机器运转视频就能诊断电机异响几分钟帮你搞定，连 Whisper 的钱都省了不过要注意，这哥们是个典型的偏科生技能点全加在了多模态理解和处理效率上，想拿它写代码或者搞高难度文本推理，表现可能还不如一些轻量级纯文本模型结论：别把它当全能程序员，但在音视频分析、海量素材打标这些实战场景里，它绝对是开源界的神搞 AI 视频、多模态的兄弟，这个必须试试项目地址放评论区了👇

Vincent Logic | 信号＞噪音

24,283 görüntüleme • 1 ay önce

$兄弟们，这个数字人工具感觉不错我刚安装好，正在体验一个安装包即可解决所有问题，非常适合小白用户，以往的开源数字人工具都需要自己配置环境什么的，对小白很不友好。这个一个安装包，然后下载模型即可，很容易上手可以生成带有数字人的视频，并且保持嘴型和声音是同步的。支持语音合成和声音克隆支持Windows\Linux和macOS 支持模型：比如 MuseTalk（文本到语音）和 CosyVoice（语音克隆）。可以很方便地导入各种 AI 模型，界面支持中英文，关键还是开源的。$

兄弟们，这个数字人工具感觉不错我刚安装好，正在体验一个安装包即可解决所有问题，非常适合小白用户，以往的开源数字人工具都需要自己配置环境什么的，对小白很不友好。这个一个安装包，然后下载模型即可，很容易上手可以生成带有数字人的视频，并且保持嘴型和声音是同步的。支持语音合成和声音克隆支持Windows\Linux和macOS 支持模型：比如 MuseTalk（文本到语音）和 CosyVoice（语音克隆）。可以很方便地导入各种 AI 模型，界面支持中英文，关键还是开源的。

小互

41,028 görüntüleme • 1 yıl önce

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,121,844 görüntüleme • 2 yıl önce