正在加载视频...

视频加载失败

加载此视频时出现问题。这可能是由于临时网络问题，或视频可能不可用。

纳米搜索这个 AI 搜索简直是创作者神器！任何热点都能一键生成播客和视频快速分发。搜索生成结果从文本拓展到了更多模态。尤其是真人语音模型很自然。下面是我用Lex的视频文稿生成的

歸藏(guizang.ai)

156,728 subscribers

47,730 次观看 • 1 年前 •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

10 条评论

歸藏(guizang.ai) 的头像

歸藏(guizang.ai)1 年前

这里尝试纳米搜索：

歸藏(guizang.ai) 的头像

歸藏(guizang.ai)1 年前

播客生成： App 中获取搜索结果后点击下方播放 UI 的分享按钮就可以下载生成的播客。除了可以在声音市场（点击左上角头像→声音）选择既有的声音之外，还可自定义上传自己或家人的声音。

歸藏(guizang.ai) 的头像

歸藏(guizang.ai)1 年前

视频生成：生成视频的时候只需要提供文档的链接就行，也可以从搜索结果提取。然后 AI 会根据已有内容自动生成不同风格的口播稿和标题，当然你也可以自己再修改。最后根据润色完的文本生成视频或者播客或者文档，他们甚至专门为不同的视频渠道做了适配，比如抖音和小红书的行文风格和标题就会不一样。

歸藏(guizang.ai) 的头像

歸藏(guizang.ai)1 年前

以 NotebookLM 为代表的 AI 交互新范式说了好久了，国内的跟进的是真的慢，反倒不管行不行都开始搞生成了。但是今天发布的纳米搜索是我最近发现把这套融合的非常好的，甚至比 Perplexity 做的都很好。他们把 AI 搜索完全做成了多模态的创作工具。 AI 时代以前的搜索引擎只能对文本进行处理，AI 时代的搜素引擎不再是内容检索工具而是内容生成工具和消费工具。未来一个内容的消费场景会覆盖视频、图片、播客、数据图、PPT 甚至是不同的软件和交互布局。

Jackywine 的头像

Jackywine1 年前

语音的可以提升的空间还很大，但是我还是看完了，从侧面说明一件事，只要内容好，展现形式可以不限

歸藏(guizang.ai) 的头像

歸藏(guizang.ai)1 年前

是的核心内容重要，其他就是适配一下场景

PromptFuture 的头像

PromptFuture1 年前

人人都来生产AI垃圾内容，结果就是生产内容的比看的还多

永贵的头像

永贵1 年前

语音还是很差

Vincent Lei 的头像

Vincent Lei1 年前

虽然但是对 360 这家公司不敢抱什么期待，hh

John Mike 的头像

John Mike1 年前

.cn的话，还是算了

相关视频

来看苹果刚发布的视频模型——星流 starflow！苹果刚刚发布了一个新模型 starflow, 这个模型最大的特点是可以文生视频, 图生视频, 视频生成视频, 甚至还支持生成长视频. 模型大小7B, 视频部分使用 WAN-2.2-VAE 魔改, 图片部分使用 SD-VAE 魔改, 最高只支持生成 480p 的视频, 另外模型文件格式是pth, 通常是使用 PyTorch 炼丹的时候保存的原始检查点文件时 pth. 所以这个模型更可能是个技术探索? 并不是很实用.

来看苹果刚发布的视频模型——星流 starflow！苹果刚刚发布了一个新模型 starflow, 这个模型最大的特点是可以文生视频, 图生视频, 视频生成视频, 甚至还支持生成长视频. 模型大小7B, 视频部分使用 WAN-2.2-VAE 魔改, 图片部分使用 SD-VAE 魔改, 最高只支持生成 480p 的视频, 另外模型文件格式是pth, 通常是使用 PyTorch 炼丹的时候保存的原始检查点文件时 pth. 所以这个模型更可能是个技术探索? 并不是很实用.

karminski-牙医

42,175 次观看 • 6 个月前

2. ClipZap AI 简介-这是一个能将文本和图像转换成视频的人工智能视频生成器，只需点击一次。 →使用市场上最强大的人工智能视频生成模型。

2. ClipZap AI 简介-这是一个能将文本和图像转换成视频的人工智能视频生成器，只需点击一次。 →使用市场上最强大的人工智能视频生成模型。

美酱AI

36,703 次观看 • 1 年前

一键生成短视频的AI终于来了！特别神奇的是，它却叫纳米搜索... 我用了一下，输入话题，搜索，下一步，下一步，下一步，一个视频就生成了，就是你现在看到的这个视频。一个字没有改，一个剪辑操作都没有做，就这么做出来了。人物动作比较自然，声音挺真实的，口型对的不错，虽然跟真人肯定还是有一定差距吧，但是直接发抖音没有任何问题。我们都知道，一定会有一款产品，可以把内容一键生成短视频。只是没想到，这么快，就来了。未来一定会来越来越多。人人都是短视频自媒体的时代即将来临。

一键生成短视频的AI终于来了！特别神奇的是，它却叫纳米搜索... 我用了一下，输入话题，搜索，下一步，下一步，下一步，一个视频就生成了，就是你现在看到的这个视频。一个字没有改，一个剪辑操作都没有做，就这么做出来了。人物动作比较自然，声音挺真实的，口型对的不错，虽然跟真人肯定还是有一定差距吧，但是直接发抖音没有任何问题。我们都知道，一定会有一款产品，可以把内容一键生成短视频。只是没想到，这么快，就来了。未来一定会来越来越多。人人都是短视频自媒体的时代即将来临。

Orange AI

42,481 次观看 • 1 年前

么想到纳米 AI 超级搜索开始整视频生成 Agent 了这个视频就是直接复制了两章小说生成的。门槛低到没有了，随便想个十几个字的点子就能生成视频稳定性和质量都不错，用来生成新闻介绍、科普视频、小说情节等都非常好用下面还有其他案例🧵

么想到纳米 AI 超级搜索开始整视频生成 Agent 了这个视频就是直接复制了两章小说生成的。门槛低到没有了，随便想个十几个字的点子就能生成视频稳定性和质量都不错，用来生成新闻介绍、科普视频、小说情节等都非常好用下面还有其他案例🧵

歸藏(guizang.ai)

45,840 次观看 • 11 个月前

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

karminski-牙医

19,803 次观看 • 5 个月前

Notebook LM 终于支持生成中文播客了！从 youtube 视频生成了一个如何用 AI 创作爆款推文的播客需要生成中文播客话得从右上角设置修改一下语言

Notebook LM 终于支持生成中文播客了！从 youtube 视频生成了一个如何用 AI 创作爆款推文的播客需要生成中文播客话得从右上角设置修改一下语言

歸藏(guizang.ai)

27,938 次观看 • 1 年前

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

Sensitive content

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

獨自懵逼

18,922 次观看 • 1 年前

电脑里存放着大量文档、图片和 PDF，有时候想找某个资料都想不起来存放在哪个文件夹，很是苦恼。不妨试试，利用 Second Brain 这个开源工具，把我们的本地文件变成一个可搜索的 RAG 知识库。通过自然语言或关键词来搜索内容，支持文本和图片的多模态搜索，还能结果本地 AI 模型进行智能问答。 GitHub：主要特性： - 语义搜索和关键词搜索结合，精准找到相关内容； - 支持文本和图片的多模态搜索与嵌入； - 支持的文件类型，包括 txt、pdf、docx、png、gif 等多种格式； - 可选 AI 模式，支持本地模型和 OpenAI 云端模型； - 检索增强生成（RAG）让 AI 基于知识库给出高质量回答； - 完全本地运行保护隐私，支持同步 Google Drive。支持使用 LM Studio 与本地部署的大模型结合使用，可处理超过 10 万个文件，所有数据均在本地处理。

电脑里存放着大量文档、图片和 PDF，有时候想找某个资料都想不起来存放在哪个文件夹，很是苦恼。不妨试试，利用 Second Brain 这个开源工具，把我们的本地文件变成一个可搜索的 RAG 知识库。通过自然语言或关键词来搜索内容，支持文本和图片的多模态搜索，还能结果本地 AI 模型进行智能问答。 GitHub：主要特性： - 语义搜索和关键词搜索结合，精准找到相关内容； - 支持文本和图片的多模态搜索与嵌入； - 支持的文件类型，包括 txt、pdf、docx、png、gif 等多种格式； - 可选 AI 模式，支持本地模型和 OpenAI 云端模型； - 检索增强生成（RAG）让 AI 基于知识库给出高质量回答； - 完全本地运行保护隐私，支持同步 Google Drive。支持使用 LM Studio 与本地部署的大模型结合使用，可处理超过 10 万个文件，所有数据均在本地处理。

GitHubDaily

29,901 次观看 • 7 个月前

我宣布，人人都可以搞口播了，现在生成视频简单到无法形容。制作一条这样效果的视频，我第一次就只花了不到 10分钟，剩下的时间就是等模型生成结果，成功率100% ，请看效果。

我宣布，人人都可以搞口播了，现在生成视频简单到无法形容。制作一条这样效果的视频，我第一次就只花了不到 10分钟，剩下的时间就是等模型生成结果，成功率100% ，请看效果。

LE

253,856 次观看 • 1 个月前

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 次观看 • 7 个月前

一款全新的多模态RAG系统：ColQwen-Omni，可以跨模态检索视频、音频、文档任意内容它支持跨模态检索，比如说，你可以用文本查询音频片段，或者说用音频查询图像用来处理音视频检索比较实用它能理解不同的模态，直接处理原始数据，比先把音频或视频转录成文本再进行检索的方法速度更快还有一个，就是直接处理音视频可以保留音视频中的情感、语气、环境音、以及视频中的视觉细节 #全模态RAG #RAG #跨模态RAG #ColQwenOmni

一款全新的多模态RAG系统：ColQwen-Omni，可以跨模态检索视频、音频、文档任意内容它支持跨模态检索，比如说，你可以用文本查询音频片段，或者说用音频查询图像用来处理音视频检索比较实用它能理解不同的模态，直接处理原始数据，比先把音频或视频转录成文本再进行检索的方法速度更快还有一个，就是直接处理音视频可以保留音视频中的情感、语气、环境音、以及视频中的视觉细节 #全模态RAG #RAG #跨模态RAG #ColQwenOmni

AIGCLINK

10,416 次观看 • 11 个月前

发现一个很离谱的模型，400 TPS 的输出速度，比 DeepSeek-V4 Flash 快 2 倍多还有超强的多模态理解 + 搜索检索 + 推理综合，这居然是一个 Flash 模型能同时做到的我让它帮我写了一个竞品分析 Agent：输入一张产品官网截图，自动完成"读图提取 → 搜索市场数据 → 输出竞争分析"的全流程。然后用 Cursor 的定价页试了一下，不到一分钟跑完，花了一毛多：它先读懂了整个页面（四档定价 × 各档功能差异 × 推荐标签与社会证明），提取出完整的结构化数据。然后自己决定搜什么，自动生成搜索 query 去查竞品定价、用户评价、市场对比。最后综合视觉提取 + 搜索结果，给了我完整的竞争分析：定价对比、竞品定位差异、真实壁垒在哪里、切入建议。这个模型就是 StepFun 的 step-3.7-flash，多模态 + 搜索 + 推理一体化内嵌在模型里，如果你在构建 AI Agent、编码工作流或多模态系统，Step 3.7 Flash 很推荐大家尝试一下： Step海外平台： Step国内平台：

发现一个很离谱的模型，400 TPS 的输出速度，比 DeepSeek-V4 Flash 快 2 倍多还有超强的多模态理解 + 搜索检索 + 推理综合，这居然是一个 Flash 模型能同时做到的我让它帮我写了一个竞品分析 Agent：输入一张产品官网截图，自动完成"读图提取 → 搜索市场数据 → 输出竞争分析"的全流程。然后用 Cursor 的定价页试了一下，不到一分钟跑完，花了一毛多：它先读懂了整个页面（四档定价 × 各档功能差异 × 推荐标签与社会证明），提取出完整的结构化数据。然后自己决定搜什么，自动生成搜索 query 去查竞品定价、用户评价、市场对比。最后综合视觉提取 + 搜索结果，给了我完整的竞争分析：定价对比、竞品定位差异、真实壁垒在哪里、切入建议。这个模型就是 StepFun 的 step-3.7-flash，多模态 + 搜索 + 推理一体化内嵌在模型里，如果你在构建 AI Agent、编码工作流或多模态系统，Step 3.7 Flash 很推荐大家尝试一下： Step海外平台： Step国内平台：

余温

40,329 次观看 • 19 天前

我这两天被这个爆火的Flipbook刷屏并被震撼到，现在的UI界面也许会在不久的将来彻底改变。Flipbook是三星工程师(前Open AI)Zain Shah和另外两个伙伴做的一个无限视觉浏览器，根据你的搜索词，实时用像素生成一张类似百科全书里的动态插画，连文字也是像素组成，没有代码，没有HTML，画面上的任何区域你都可以点击，生成这块区域的进一步画面。而且作者们调制的这个画面风格太好看了，我小时候要是有这玩意能玩一整天不吃不喝，完全就是一本无限魔法书。作者直接展示了在这上面搜索巴黎旅游景点，还直接买了巴黎圣母院的票。我自己也用来搜索了清迈，效果惊人，但可惜这两天太火了我一直没能连接上视频动态效果。虽然目前的算力无法实现规模化，作者也说目前只是展示测试阶段，但是我这次是真真切切感受到了AI带来的改革，未来就快来了。

我这两天被这个爆火的Flipbook刷屏并被震撼到，现在的UI界面也许会在不久的将来彻底改变。Flipbook是三星工程师(前Open AI)Zain Shah和另外两个伙伴做的一个无限视觉浏览器，根据你的搜索词，实时用像素生成一张类似百科全书里的动态插画，连文字也是像素组成，没有代码，没有HTML，画面上的任何区域你都可以点击，生成这块区域的进一步画面。而且作者们调制的这个画面风格太好看了，我小时候要是有这玩意能玩一整天不吃不喝，完全就是一本无限魔法书。作者直接展示了在这上面搜索巴黎旅游景点，还直接买了巴黎圣母院的票。我自己也用来搜索了清迈，效果惊人，但可惜这两天太火了我一直没能连接上视频动态效果。虽然目前的算力无法实现规模化，作者也说目前只是展示测试阶段，但是我这次是真真切切感受到了AI带来的改革，未来就快来了。

Jingyuan缘缘

328,863 次观看 • 2 个月前

微软新开源了这个 VibeVoice TTS模型很强 - 支持最多生成 90 分钟时长 - 最多4 个人的对谈语音，以往模型只能生成两个 - 支持中文，而且中文效果不错 - 支持生成带背景音乐的播客音频

微软新开源了这个 VibeVoice TTS模型很强 - 支持最多生成 90 分钟时长 - 最多4 个人的对谈语音，以往模型只能生成两个 - 支持中文，而且中文效果不错 - 支持生成带背景音乐的播客音频

歸藏(guizang.ai)

43,934 次观看 • 10 个月前

这个网页（ Token，什么是词群，如何通过概率推理出下一个 Token；什么是自注意力，如何通过自注意力理解上下文了；什么是词搜索和束搜索，如何生成高质量的文本等等。

这个网页（ Token，什么是词群，如何通过概率推理出下一个 Token；什么是自注意力，如何通过自注意力理解上下文了；什么是词搜索和束搜索，如何生成高质量的文本等等。

Barret李靖

239,968 次观看 • 2 年前

利用 AI，用视频生成视频从文字生成图片、从图片生成图片的产品已经很多，直接从视频生成视频呢？今天专注于图片和视频的 AI 人工智能公司 Runway 发布了新产品 Gen-1，可以通过已有视频、文字来生成新视频，效果非常诱人 Runway 的新闻

利用 AI，用视频生成视频从文字生成图片、从图片生成图片的产品已经很多，直接从视频生成视频呢？今天专注于图片和视频的 AI 人工智能公司 Runway 发布了新产品 Gen-1，可以通过已有视频、文字来生成新视频，效果非常诱人 Runway 的新闻

倪爽

200,551 次观看 • 3 年前

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？这个纳米搜索深度体验了两天后发现还是有点东西的应该是目前国内搜索产品里面让人眼前一亮的产品主要理念是搜索、学习、写作、创作整合到一起.... 也就是你不用再切换到别的窗口或者工具去来整理创作内容，可以直接在搜索结果的基础上直接进行写作和二次创作。传统搜索(1.0)是给你一堆链接，你来选答案 2.0的AI搜索是直接给你答案，现在纳米进化到了搜学写创3.0升级... 什么意思呢？先看一段视频↓...

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？这个纳米搜索深度体验了两天后发现还是有点东西的应该是目前国内搜索产品里面让人眼前一亮的产品主要理念是搜索、学习、写作、创作整合到一起.... 也就是你不用再切换到别的窗口或者工具去来整理创作内容，可以直接在搜索结果的基础上直接进行写作和二次创作。传统搜索(1.0)是给你一堆链接，你来选答案 2.0的AI搜索是直接给你答案，现在纳米进化到了搜学写创3.0升级... 什么意思呢？先看一段视频↓...

小互

28,959 次观看 • 1 年前

推特信息超载？内容老是找不到？🔍 试试我的 AI 搜索外挂，自动生成高级语法。我又双叒叕 vibe coding 了一个插件，一秒筛选视频、热点、历史，告别信息焦虑。还分享了我如何把 Twitter 变成个人「公开知识库」同时联动 BibiGPT「稍后看神器」快速总结视频。

推特信息超载？内容老是找不到？🔍 试试我的 AI 搜索外挂，自动生成高级语法。我又双叒叕 vibe coding 了一个插件，一秒筛选视频、热点、历史，告别信息焦虑。还分享了我如何把 Twitter 变成个人「公开知识库」同时联动 BibiGPT「稍后看神器」快速总结视频。

吕立青_JimmyLv (闭关ing) 2𐃏25

23,714 次观看 • 8 个月前

字节发布了一个新的视频模型 Goku 还有一个专门为广告视频生成做的的竖屏 goko+ 模型效果非常🐂🍺，老广告人麻了 - 支持直接生成虚拟数字人视频 - 支持从产品图片生成和人物互动视频，保持产品样式 - 支持生成产品展示视频，保持产品样式 - 可以从文本生成广告视频

字节发布了一个新的视频模型 Goku 还有一个专门为广告视频生成做的的竖屏 goko+ 模型效果非常🐂🍺，老广告人麻了 - 支持直接生成虚拟数字人视频 - 支持从产品图片生成和人物互动视频，保持产品样式 - 支持生成产品展示视频，保持产品样式 - 可以从文本生成广告视频

歸藏(guizang.ai)

34,287 次观看 • 1 年前

国产最新的多模态模型来了！！前两周我刚体验过国产的阶跃星辰大模型，没想到这么快他们的新模型 Step 3.7 Flash 就出了。现在大模型一发布必卷 benchmark 分数，但真正做 Agent 的人都清楚：跑分高 ≠ 能把活干完。所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快，而是主打“生产任务端到端执行效率”。一个真实的 Agent 任务从来不是一次问答，而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环，Step 3.7 Flash 这次升级的重点是整条链路的效率，而不是某个孤立指标。提几个我觉得挺务实的点： 1. 原生多模态模型：它可以直接处理 UI 截图、图表、仪表盘、文档，原生读懂并转成结构化输出和可执行步骤，不需要像一些模型那样外挂视觉理解 MCP，而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索：网页搜索、图像搜索、视觉验证、多源信息比对，让 Agent 在开放任务里边查边验证边行动，而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数，最高 400 TPS：稀疏激活 + 这个速度，意味着高频交互、多步工作流、反复工具调用的场景下，单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署：生产环境要的不只是 API，还有透明度、可控性和部署灵活性。如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统，值得用 StepFun 试试这款新模型的能力。想看更进阶的平台能力，可以了解 Step Plan。海外平台：国内平台：

国产最新的多模态模型来了！！前两周我刚体验过国产的阶跃星辰大模型，没想到这么快他们的新模型 Step 3.7 Flash 就出了。现在大模型一发布必卷 benchmark 分数，但真正做 Agent 的人都清楚：跑分高 ≠ 能把活干完。所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快，而是主打“生产任务端到端执行效率”。一个真实的 Agent 任务从来不是一次问答，而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环，Step 3.7 Flash 这次升级的重点是整条链路的效率，而不是某个孤立指标。提几个我觉得挺务实的点： 1. 原生多模态模型：它可以直接处理 UI 截图、图表、仪表盘、文档，原生读懂并转成结构化输出和可执行步骤，不需要像一些模型那样外挂视觉理解 MCP，而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索：网页搜索、图像搜索、视觉验证、多源信息比对，让 Agent 在开放任务里边查边验证边行动，而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数，最高 400 TPS：稀疏激活 + 这个速度，意味着高频交互、多步工作流、反复工具调用的场景下，单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署：生产环境要的不只是 API，还有透明度、可控性和部署灵活性。如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统，值得用 StepFun 试试这款新模型的能力。想看更进阶的平台能力，可以了解 Step Plan。海外平台：国内平台：

耳朵

12,058 次观看 • 21 天前