Video yükleniyor...

Video Yüklenemedi

Ana Sayfaya Dön

NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。🤯 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得也准。 不管是找视频里的物体,还是识别UI界面、OCR文字,它都能搞定。 最关键是模型很小,只有 3B 参数(约7.8GB),消费级显卡也能本地跑!🏠💻 做计算机视觉或者多模态的朋友,这个必须得试试。 项目已开源,手慢无!👇

36,715 görüntüleme • 10 gün önce •via X (Twitter)

0 Yorum

Yorum bulunmuyor

Orijinal gönderinin yorumları burada görünecek

Benzer Videolar

国产最新的多模态模型来了!! 前两周我刚体验过国产的阶跃星辰大模型,没想到这么快他们的新模型 Step 3.7 Flash 就出了。 现在大模型一发布必卷 benchmark 分数,但真正做 Agent 的人都清楚:跑分高 ≠ 能把活干完。 所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快,而是主打“生产任务端到端执行效率”。 一个真实的 Agent 任务从来不是一次问答,而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环,Step 3.7 Flash 这次升级的重点是整条链路的效率,而不是某个孤立指标。 提几个我觉得挺务实的点: 1. 原生多模态模型:它可以直接处理 UI 截图、图表、仪表盘、文档,原生读懂并转成结构化输出和可执行步骤,不需要像一些模型那样外挂视觉理解 MCP,而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索:网页搜索、图像搜索、视觉验证、多源信息比对,让 Agent 在开放任务里边查边验证边行动,而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数,最高 400 TPS:稀疏激活 + 这个速度,意味着高频交互、多步工作流、反复工具调用的场景下,单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署:生产环境要的不只是 API,还有透明度、可控性和部署灵活性。 如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统,值得用 StepFun 试试这款新模型的能力。 想看更进阶的平台能力,可以了解 Step Plan。 海外平台: 国内平台:

耳朵

11,816 görüntüleme • 7 gün önce

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,705 görüntüleme • 9 ay önce

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课,系统的介绍了大语言模型,内容深入浅出,非常赞,抽空将它翻译成了双语,由于内容较长,我将分批上传,以下是第一部分精校后的双语视频,字幕文稿如下: Intro: Large Language Model (LLM) talk 大家好。最近,我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是,这次讲座没有被录制下来,但许多人在讲座后找到我,他们告诉我非常喜欢那次讲座。因此,我决定重新录制并上传到 YouTube,那么,让我们开始吧,为大家带来“忙碌人士的大语言模型入门”系列,主讲人 Scott。好的,那我们开始吧。 LLM Inference 首先,什么是大语言模型 (Large Language Model) 呢?其实,一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。 以 Llama 2 70B 模型为例,这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代,也是该系列中参数最多的模型,达到了 700 亿。LAMA2 系列包括了多个不同规模的模型,70 亿,130 亿,340 亿,700 亿是最大的一个。 现在很多人喜欢这个模型,因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文,所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同,例如,如果你正在使用 ChatGPT 或类似的东西,其架构并未公开,是 OpenAI 的产权,你只能通过网页界面使用,但你实际上没有访问那个模型的权限。 在这种情况下,Llama 2 70B 模型实际上就是你电脑上的两个文件:一个是存储参数的文件,另一个是运行这些参数的代码。这些参数是神经网络(即语言模型)的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型,每个参数占用两个字节,因此参数文件的大小为 140 GB,之所以是两个字节,是因为这是 float 16 类型的数据。 除了这些参数,还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码,这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python,或任何其他编程语言编写的。它可以用任何语言编写,但 C 语言是一种非常简单的语言,只是举个例子。只需大约 500 行 C 语言代码,无需任何其他依赖,就能构建起神经网络架构,并且主要依靠一些参数来运行模型。所以只需要这两个文件。 你只需带上这两个文件和你的 MacBook,就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件,编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。 比如,你可以让它写一首关于 Scale AI 公司的诗,语言模型就会开始生成文本。在这种情况下,它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子,你会在整个演讲中看到,是因为我最初在 Scale AI 举办的活动上介绍过这个话题,所以演讲中会多次提到它,以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。 我在这里稍微有点作弊,因为这并不是在运行一个有 700 亿参数的模型,而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程,让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包,但是当我们需要获取那些参数时,计算的复杂性就真正显现出来了。 那么,这些参数从何而来,我们如何获得它们?因为无论 run.c 文件中的内容是什么,神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,121,844 görüntüleme • 2 yıl önce