Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

阿里刚刚放出了其GUI Agent第三代框架：Mobile-Agent-v3，在10+GUI基准测试中取得了SOTA性能在AndroidWorld上达到73.3，在OSWorld上达到37.7 Mobile-Agent-v3是一款基于GUI-Owl的跨平台多智能体框架，GUI-Owl也同时被开源，这是一款多模态跨平台GUI虚拟层模型 GUI-Owl作为GUI自动化基础模型，具备GUI感知、落地、端到端操作能力可以理解GUI界面布局、元素，把指令转化为具体的屏幕坐标和操作，完成完整的GUI操作流程 Mobile-Agent-v3利用GUI-Owl能力与GUI交互，具备任务分解、规划以及进度管理、异常处理和反射能力、关键信息记录能力比如，完成特定目标制定行动计划，跟踪任务执行进度，反馈调整行动。具备关键信息记录能力，支持跨应用任务 #MobileAgentv3 #GUIAgent #AIagent

AIGCLINK

33,709 subscribers

16,734 Aufrufe • vor 11 Monaten •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

Mininglamp-AI Mininglamp（2718.HK）开源了两个很有意思的项目： Cider 和 Mano-P 一个解决“Mac 本地跑 AI 怎么更快” 一个解决“AI 怎么真正操作电脑” 可以让你的 Mac 不只是运行 AI，而是成为本地 AI 工作站很多人用 Mac 跑本地模型，会遇到一个问题：芯片很强，但模型跑起来没有想象中那么快 Cider 做的事情，就是把 M5 芯片里的 INT8 TensorOps 更充分用起来，让 LLM / VLM 推理更快、更省内存 Mano-P 则是一个 GUI-VLA Agent，面向端侧设备，可以在 Mac mini / MacBook 上本地推理它不是只能操作浏览器，还能操作桌面软件、网页界面、专业工具和复杂图形化工作流支持复杂 GUI 自动化、跨系统数据整合、长任务规划执行、智能报告生成、自主应用构建技术路径是纯视觉 GUI 操作，截图和任务数据可以不出设备 Cider 解决的是： Mac 本地模型怎么跑得更快、更省内存 Mano-P 解决的是： AI 怎么像人一样看屏幕、操作电脑、完成任务一个是端侧推理加速框架一个是端侧 GUI Agent 模型合起来，就是一套私有 AI 的本地基础设施下面是 Mano-P系统在麻将游戏中的应用：通过纯视觉理解游戏界面，自主完成识牌、分析和决策。

Mininglamp-AI Mininglamp（2718.HK）开源了两个很有意思的项目： Cider 和 Mano-P 一个解决“Mac 本地跑 AI 怎么更快” 一个解决“AI 怎么真正操作电脑” 可以让你的 Mac 不只是运行 AI，而是成为本地 AI 工作站很多人用 Mac 跑本地模型，会遇到一个问题：芯片很强，但模型跑起来没有想象中那么快 Cider 做的事情，就是把 M5 芯片里的 INT8 TensorOps 更充分用起来，让 LLM / VLM 推理更快、更省内存 Mano-P 则是一个 GUI-VLA Agent，面向端侧设备，可以在 Mac mini / MacBook 上本地推理它不是只能操作浏览器，还能操作桌面软件、网页界面、专业工具和复杂图形化工作流支持复杂 GUI 自动化、跨系统数据整合、长任务规划执行、智能报告生成、自主应用构建技术路径是纯视觉 GUI 操作，截图和任务数据可以不出设备 Cider 解决的是： Mac 本地模型怎么跑得更快、更省内存 Mano-P 解决的是： AI 怎么像人一样看屏幕、操作电脑、完成任务一个是端侧推理加速框架一个是端侧 GUI Agent 模型合起来，就是一套私有 AI 的本地基础设施下面是 Mano-P系统在麻将游戏中的应用：通过纯视觉理解游戏界面，自主完成识牌、分析和决策。

小互

12,114 Aufrufe • vor 2 Monaten

UI-TARS：字节跳动开源一种能够自我学习的GUI Agent 它能模拟人类操作手机和电脑并完成任务并具备高级的感知、推理和交互能力与传统依赖模块化框架或手工提示优化的系统不同，UI-TARS采用端到端架构，依赖纯视觉输入，实现了对复杂任务的全面自动化。 UI-TARS 的特点： - 看得懂界面：能理解界面上的按钮、输入框等元素，还能精准找到它们的位置。 - 多平台通用：不管是手机、电脑还是网页，UI-TARS 都能轻松适应。 - 高级推理能力：支持复杂任务的分解与多步决策，能自己规划步骤，遇到问题会反思并修正错误。 - 不断学习：通过反思和在线采集更多任务数据，它可以不断优化和适应新的任务场景，变得越来越聪明。

UI-TARS：字节跳动开源一种能够自我学习的GUI Agent 它能模拟人类操作手机和电脑并完成任务并具备高级的感知、推理和交互能力与传统依赖模块化框架或手工提示优化的系统不同，UI-TARS采用端到端架构，依赖纯视觉输入，实现了对复杂任务的全面自动化。 UI-TARS 的特点： - 看得懂界面：能理解界面上的按钮、输入框等元素，还能精准找到它们的位置。 - 多平台通用：不管是手机、电脑还是网页，UI-TARS 都能轻松适应。 - 高级推理能力：支持复杂任务的分解与多步决策，能自己规划步骤，遇到问题会反思并修正错误。 - 不断学习：通过反思和在线采集更多任务数据，它可以不断优化和适应新的任务场景，变得越来越聪明。

小互

46,108 Aufrufe • vor 1 Jahr

字节开源了一套 AI Agent 框架：Agent TARS 支持深度研究、电脑操作、文件编辑、MCP。 🌐高级浏览器操作：通过代理框架执行深度研究和操作员功能等复杂任务，实现全面的规划和执行。 🛠️全面的工具支持：集成搜索、文件编辑、MCP，工具来处理复杂的工作流程。 💻️增强的桌面应用程序：改进的用户界面，带有浏览器显示、多模式元素、会话管理、模型配置、对话流可视化以及浏览器/搜索状态跟踪。 🔄 工作流程编排：无缝连接 GUI 代理工具——搜索、浏览、探索链接并将信息合成最终输出。 ⚙️ 开发人员友好框架：简化与 UI-TARS 的集成以及 GUI 代理项目的自定义工作流程创建。演示视频

字节开源了一套 AI Agent 框架：Agent TARS 支持深度研究、电脑操作、文件编辑、MCP。 🌐高级浏览器操作：通过代理框架执行深度研究和操作员功能等复杂任务，实现全面的规划和执行。 🛠️全面的工具支持：集成搜索、文件编辑、MCP，工具来处理复杂的工作流程。 💻️增强的桌面应用程序：改进的用户界面，带有浏览器显示、多模式元素、会话管理、模型配置、对话流可视化以及浏览器/搜索状态跟踪。 🔄 工作流程编排：无缝连接 GUI 代理工具——搜索、浏览、探索链接并将信息合成最终输出。 ⚙️ 开发人员友好框架：简化与 UI-TARS 的集成以及 GUI 代理项目的自定义工作流程创建。演示视频

Orange AI

76,804 Aufrufe • vor 1 Jahr

一款用于PC上自动执行复杂任务的多智能体协作系统：PC-Agent，它可以根据指令控制Chrome、Word、微信等，比现有方法的任务成功率提高了32% PC-Agent增加了一个主动感知模块，增强了MLLM对屏幕截图内容的感知能力，能更好的理解屏幕上的内容采用分层多智能体协作架构，把决策过程分成指令、子任务、动作三个层级，设置了三个智能体分别负责指令分解、进度跟踪、逐步决策还有一个反思智能体，及时向上反馈错误和调整已支持Windows系统 #AI电脑自动化 #AI电脑助手 #PCAgent

一款用于PC上自动执行复杂任务的多智能体协作系统：PC-Agent，它可以根据指令控制Chrome、Word、微信等，比现有方法的任务成功率提高了32% PC-Agent增加了一个主动感知模块，增强了MLLM对屏幕截图内容的感知能力，能更好的理解屏幕上的内容采用分层多智能体协作架构，把决策过程分成指令、子任务、动作三个层级，设置了三个智能体分别负责指令分解、进度跟踪、逐步决策还有一个反思智能体，及时向上反馈错误和调整已支持Windows系统 #AI电脑自动化 #AI电脑助手 #PCAgent

AIGCLINK

31,697 Aufrufe • vor 1 Jahr

字节放出了一款具备长期记忆能力的多模态智能体：M3-Agent 可以实时处理视觉和听觉输入，并转化为长期记忆，使其不局限于单一模态的信息存储情景记忆，还可以从中提取和积累语义记忆核心是M3-Agent的记忆系统以实体为中心，把与同一实体相关的所有模态信息（比如一个人的面部、声音、相关知识）连起来，形成图谱结构，这就可以使其能更深入一致的理解环境支持多轮迭代推理，根据需要从长期记忆中检索相关信息来辅助推理过程在基准测试中，尤其在需要长期记忆和跨模态推理的任务上，M3-Agent表现优秀 #M3Agent #AIagent

字节放出了一款具备长期记忆能力的多模态智能体：M3-Agent 可以实时处理视觉和听觉输入，并转化为长期记忆，使其不局限于单一模态的信息存储情景记忆，还可以从中提取和积累语义记忆核心是M3-Agent的记忆系统以实体为中心，把与同一实体相关的所有模态信息（比如一个人的面部、声音、相关知识）连起来，形成图谱结构，这就可以使其能更深入一致的理解环境支持多轮迭代推理，根据需要从长期记忆中检索相关信息来辅助推理过程在基准测试中，尤其在需要长期记忆和跨模态推理的任务上，M3-Agent表现优秀 #M3Agent #AIagent

AIGCLINK

18,127 Aufrufe • vor 11 Monaten

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

Gorden Sun

64,434 Aufrufe • vor 6 Monaten

阿里刚刚放出了其首个千问具身智能体通用模型：Qwen-Robot ，也开始搞具身智能了！ Qwen-Robot由三个模型组成机器人的手+脚+大脑，三个模型可以独立用，也可以组合用比如，用它可以组成一个既能动手端盘子，又能走路送餐，还能预判端着热汤拐弯儿会不会洒的服务机器人 Qwen-RobotManip：其采用80维统一动作表征，把不同机器人的动作翻译成同一种通用语言，并基于摄像头画面的相对位置操作，不再依赖繁琐的绝对坐标计算，解决了换个机械臂、换个场景数据不通用的情况 Qwen-RobotNav：核心思路是把视觉分配策略本身参数化，而非固定，具体解法是把记多少、怎么记变成可调参数，根据任务类型自动配置，不同任务按需配置，比如目标追踪只关注最近几帧省算力，指令跟随保留长程上下文不迷路因为记忆策略参数化了，一套权重即统一五类导航任务在双层智能体系统（上层规划器+Qwen-RobotNav）中，EXPRESS-Bench提升15.4%，导航步数减少了77% 通用接口设计，其他上层AI可以直接调用它的导航能力，无需再为每个任务单独训练一个导航模型，原生支持多种智能体框架 Qwen-RobotWorld：相当于机器人的想象力基于对物理规律的理解，可推理和模拟下一时间点的合理动作和状态；能生成视频数据用于训练，缓解训练数据不足问题；可以在执行前推演未来动作轨迹，使操作更精准 Qwen-Robot相当于是一套模块化的具身智能系统，把导航、操作、世界预测三个专业的能力解耦又协同，让通用模型像调用软件工具一样，调用物理世界的行动能力 #QwenRobot #robot #具身智能

阿里刚刚放出了其首个千问具身智能体通用模型：Qwen-Robot ，也开始搞具身智能了！ Qwen-Robot由三个模型组成机器人的手+脚+大脑，三个模型可以独立用，也可以组合用比如，用它可以组成一个既能动手端盘子，又能走路送餐，还能预判端着热汤拐弯儿会不会洒的服务机器人 Qwen-RobotManip：其采用80维统一动作表征，把不同机器人的动作翻译成同一种通用语言，并基于摄像头画面的相对位置操作，不再依赖繁琐的绝对坐标计算，解决了换个机械臂、换个场景数据不通用的情况 Qwen-RobotNav：核心思路是把视觉分配策略本身参数化，而非固定，具体解法是把记多少、怎么记变成可调参数，根据任务类型自动配置，不同任务按需配置，比如目标追踪只关注最近几帧省算力，指令跟随保留长程上下文不迷路因为记忆策略参数化了，一套权重即统一五类导航任务在双层智能体系统（上层规划器+Qwen-RobotNav）中，EXPRESS-Bench提升15.4%，导航步数减少了77% 通用接口设计，其他上层AI可以直接调用它的导航能力，无需再为每个任务单独训练一个导航模型，原生支持多种智能体框架 Qwen-RobotWorld：相当于机器人的想象力基于对物理规律的理解，可推理和模拟下一时间点的合理动作和状态；能生成视频数据用于训练，缓解训练数据不足问题；可以在执行前推演未来动作轨迹，使操作更精准 Qwen-Robot相当于是一套模块化的具身智能系统，把导航、操作、世界预测三个专业的能力解耦又协同，让通用模型像调用软件工具一样，调用物理世界的行动能力 #QwenRobot #robot #具身智能

AIGCLINK

11,106 Aufrufe • vor 1 Monat

OWL团队刚刚又开源了一款多智能体Manus类工具：Eigent，通过多智能体协作，来更高效的处理更复杂任务从效果看具备整合多种工具和数据的能力，生成的报告内容相对专业全面其处理任务时有清晰的任务拆解和执行过程，它把任务拆解成多个子任务，并会清晰展示出每个子任务的执行状态 Eigent支持根据任务创建或灵活调用workforce，多智能体并行处理执行速度更快支持worker间任务的并行，worker下子任务的并行，子任务执行过程中工具调用的并行可以根据需求定制AI团队，组建一个特定的项目组有Human-in-the-Loop机制，可以在关键节点进行人工干预决策内置200+MCP工具，也支持上传常用的MCP工具 #AI员工 #多智能体团队 #Eigent

OWL团队刚刚又开源了一款多智能体Manus类工具：Eigent，通过多智能体协作，来更高效的处理更复杂任务从效果看具备整合多种工具和数据的能力，生成的报告内容相对专业全面其处理任务时有清晰的任务拆解和执行过程，它把任务拆解成多个子任务，并会清晰展示出每个子任务的执行状态 Eigent支持根据任务创建或灵活调用workforce，多智能体并行处理执行速度更快支持worker间任务的并行，worker下子任务的并行，子任务执行过程中工具调用的并行可以根据需求定制AI团队，组建一个特定的项目组有Human-in-the-Loop机制，可以在关键节点进行人工干预决策内置200+MCP工具，也支持上传常用的MCP工具 #AI员工 #多智能体团队 #Eigent

AIGCLINK

16,164 Aufrufe • vor 1 Jahr

Manus类agent卷疯了，又出来一款ii-agent开源框架，擅长构建跨多个领域工作流的Agent，能独立执行复杂任务已是Agent标配其技能覆盖研究与核查、内容生成、数据分析可视化、软件开发、工作流自动化、问题解决6个方面可以用它来做笔记、写文章、做研究、分析数据、写代码、建网站、自动化工作流、故障排除等等，基本上日常工作覆盖的差不多了 ii-agent集成了搜索引擎、代码编辑器、命令行终端等工具，使得它可以处理更复杂的任务，具备持续学习和适应能力给了命令行界面和网页界面两种交互方式。目前正在开发针对PDF、音频、图像、视频、幻灯片等不同模态的处理能力 #AIagent #Manus #iiagent #AI智能体

Manus类agent卷疯了，又出来一款ii-agent开源框架，擅长构建跨多个领域工作流的Agent，能独立执行复杂任务已是Agent标配其技能覆盖研究与核查、内容生成、数据分析可视化、软件开发、工作流自动化、问题解决6个方面可以用它来做笔记、写文章、做研究、分析数据、写代码、建网站、自动化工作流、故障排除等等，基本上日常工作覆盖的差不多了 ii-agent集成了搜索引擎、代码编辑器、命令行终端等工具，使得它可以处理更复杂的任务，具备持续学习和适应能力给了命令行界面和网页界面两种交互方式。目前正在开发针对PDF、音频、图像、视频、幻灯片等不同模态的处理能力 #AIagent #Manus #iiagent #AI智能体

AIGCLINK

18,062 Aufrufe • vor 1 Jahr

微软开源了一个功能强大的 VS Code 插件：AI Toolkit，简化 Agent 应用的全流程开发。在一个界面里，集成了模型浏览、Playground 测试、Agent 构建、批量运行和性能评估等完整功能。 GitHub：主要功能： - 模型目录浏览，支持 GitHub、OpenAI、Anthropic 等多家提供商的模型； - 交互式 Playground，可快速测试模型能力和多模态功能； - Agent 构建器，支持自然语言生成启动 Prompt 和链式任务分解； - 批量运行测试，能同时在多个模型上执行大量 Prompt 并进行对比； - 内置评估工具，支持 F1 分数、相关性等标准指标测试； - MCP 服务器集成，让 Agent 能够连接外部工具执行实际操作。通过 VS Code 插件市场搜索 “AI Toolkit for Visual Studio Code” 安装即可使用。

微软开源了一个功能强大的 VS Code 插件：AI Toolkit，简化 Agent 应用的全流程开发。在一个界面里，集成了模型浏览、Playground 测试、Agent 构建、批量运行和性能评估等完整功能。 GitHub：主要功能： - 模型目录浏览，支持 GitHub、OpenAI、Anthropic 等多家提供商的模型； - 交互式 Playground，可快速测试模型能力和多模态功能； - Agent 构建器，支持自然语言生成启动 Prompt 和链式任务分解； - 批量运行测试，能同时在多个模型上执行大量 Prompt 并进行对比； - 内置评估工具，支持 F1 分数、相关性等标准指标测试； - MCP 服务器集成，让 Agent 能够连接外部工具执行实际操作。通过 VS Code 插件市场搜索 “AI Toolkit for Visual Studio Code” 安装即可使用。

GitHubDaily

36,446 Aufrufe • vor 10 Monaten

腾讯优图出的一款主动式设备端AI助手：Youtu-Tip，可以桌面自动化、Agent调用，能离线使用它可以模拟鼠标/键盘来实现桌面操纵，比如说，“帮我把Excel里低于60分的标红”、“总结文章发给XX微信” 支持热键、选中文本或者图像交互也可以教它技能，比如给它演示一遍“去官网搜最低价航班”，它能记录步骤下次一句命令自动跑还可以接入智能体、MCP服务器以及其他工具，来实现更复杂的任务 Tip基于Youtu-LLM驱动，1.96B，128K上下文，具备原生智能体能力，是开源的，也可以替换成其他模型它还有一个4B的Youtu-VL端侧多模态模型也马上要开源 #AI设备端助手 #YoutuTip

腾讯优图出的一款主动式设备端AI助手：Youtu-Tip，可以桌面自动化、Agent调用，能离线使用它可以模拟鼠标/键盘来实现桌面操纵，比如说，“帮我把Excel里低于60分的标红”、“总结文章发给XX微信” 支持热键、选中文本或者图像交互也可以教它技能，比如给它演示一遍“去官网搜最低价航班”，它能记录步骤下次一句命令自动跑还可以接入智能体、MCP服务器以及其他工具，来实现更复杂的任务 Tip基于Youtu-LLM驱动，1.96B，128K上下文，具备原生智能体能力，是开源的，也可以替换成其他模型它还有一个4B的Youtu-VL端侧多模态模型也马上要开源 #AI设备端助手 #YoutuTip

AIGCLINK

47,495 Aufrufe • vor 6 Monaten

微软发布OmniParser V2 将任何大语言模型转变为一个可以与计算机交互的智能代理。让AI可以操控你的电脑执行任务 OmniParser V2将屏幕截图中的信息从像素转化为结构化数据。这些结构化数据能够被 LLM 识别和处理，从而使 LLM 可以更智能地理解和预测下一步操作。这样，任何能够运行的 LLM 都能变成一个“计算机使用代理”，能够执行用户的指令，如： -点击、输入、拖拽等操作。 -进而去执行一些任务图标和高分辨率屏幕的识别上表现更好。 V2 在速度和功能上相较于 V1 提升了60%，并支持多种操作系统和应用程序图标识别。

微软发布OmniParser V2 将任何大语言模型转变为一个可以与计算机交互的智能代理。让AI可以操控你的电脑执行任务 OmniParser V2将屏幕截图中的信息从像素转化为结构化数据。这些结构化数据能够被 LLM 识别和处理，从而使 LLM 可以更智能地理解和预测下一步操作。这样，任何能够运行的 LLM 都能变成一个“计算机使用代理”，能够执行用户的指令，如： -点击、输入、拖拽等操作。 -进而去执行一些任务图标和高分辨率屏幕的识别上表现更好。 V2 在速度和功能上相较于 V1 提升了60%，并支持多种操作系统和应用程序图标识别。

小互

47,084 Aufrufe • vor 1 Jahr

Codex 最新动态：从 GPT‑5.6 与 Ultra 模式，到多智能体并行协作、计算机与浏览器操作、应用截图理解、行内代码和文档修改，再到一键发布 Sites、跨项目管理以及完整的 PR 工作流。 Codex 已不只是一个“帮你写代码”的工具，而是能够拆解复杂任务、操作和测试应用、协调多个项目、处理 Bug 与代码审查，并协助完成发布的开发伙伴。无论你想提高日常开发效率，还是探索更自动化的 AI 编程方式，这支视频都能帮你快速掌握 Codex 的新能力和实际应用场景。本视频由 baocut 翻译

Codex 最新动态：从 GPT‑5.6 与 Ultra 模式，到多智能体并行协作、计算机与浏览器操作、应用截图理解、行内代码和文档修改，再到一键发布 Sites、跨项目管理以及完整的 PR 工作流。 Codex 已不只是一个“帮你写代码”的工具，而是能够拆解复杂任务、操作和测试应用、协调多个项目、处理 Bug 与代码审查，并协助完成发布的开发伙伴。无论你想提高日常开发效率，还是探索更自动化的 AI 编程方式，这支视频都能帮你快速掌握 Codex 的新能力和实际应用场景。本视频由 baocut 翻译

宝玉

37,498 Aufrufe • vor 11 Tagen

字节悄悄把 GUI Agent 这条路线开源了，而且做得比想象中扎实 UI-TARS-desktop（GitHub 29.4k ⭐）一个仓库里塞了两个东西： · Agent TARS：通用多模态 Agent 框架，CLI 一键启动，能在终端 / 浏览器 / 电脑里跑真实任务（订机票、订酒店、画图都演示过） · UI-TARS Desktop：本地 GUI Agent，看屏幕、点鼠标、敲键盘，全部本地跑，不上传 Apache 2.0、原生支持 MCP，背后是字节自家的 UI-TARS 视觉模型 + Seed-1.5-VL 国产开源 Computer Use 这条线，目前最完整的一份 🔗

字节悄悄把 GUI Agent 这条路线开源了，而且做得比想象中扎实 UI-TARS-desktop（GitHub 29.4k ⭐）一个仓库里塞了两个东西： · Agent TARS：通用多模态 Agent 框架，CLI 一键启动，能在终端 / 浏览器 / 电脑里跑真实任务（订机票、订酒店、画图都演示过） · UI-TARS Desktop：本地 GUI Agent，看屏幕、点鼠标、敲键盘，全部本地跑，不上传 Apache 2.0、原生支持 MCP，背后是字节自家的 UI-TARS 视觉模型 + Seed-1.5-VL 国产开源 Computer Use 这条线，目前最完整的一份 🔗

Jason Zhu

29,253 Aufrufe • vor 2 Monaten

传统 UI 注定会被「生成式 UI」取代，只不过它不是消息流中的一张「卡片」，这两天做了一个探索（数据都是Mock的） 1. 交互模式：用户的顺序式操作 / 固定的界面 → Agent 驱动的事件流，界面按需生成 / 销毁 2. 状态管理：前端单向状态管理 / 后端仅持久化 → 前端与 Agent 共享状态，双向同步且可冲突调和 3. 输出方式：静态页面 + 局部异步刷新 → 动态组件树、流式语音/视频、思考链可视化、可中断提示 4. 任务模式：规定流程，用户必须遍历步骤 → AI 自主规划子任务、多步执行与人机中断/回退 5. 可观测性：仅记录用户行为→ 全面记录 Agent 思考、规划、工具调用、审批链，支持审计与重放 6. 安全模式：基于用户权限的接口调用 → 基于 Agent 能力边界的沙盒渲染与操作指令校验

传统 UI 注定会被「生成式 UI」取代，只不过它不是消息流中的一张「卡片」，这两天做了一个探索（数据都是Mock的） 1. 交互模式：用户的顺序式操作 / 固定的界面 → Agent 驱动的事件流，界面按需生成 / 销毁 2. 状态管理：前端单向状态管理 / 后端仅持久化 → 前端与 Agent 共享状态，双向同步且可冲突调和 3. 输出方式：静态页面 + 局部异步刷新 → 动态组件树、流式语音/视频、思考链可视化、可中断提示 4. 任务模式：规定流程，用户必须遍历步骤 → AI 自主规划子任务、多步执行与人机中断/回退 5. 可观测性：仅记录用户行为→ 全面记录 Agent 思考、规划、工具调用、审批链，支持审计与重放 6. 安全模式：基于用户权限的接口调用 → 基于 Agent 能力边界的沙盒渲染与操作指令校验

kejun

26,647 Aufrufe • vor 1 Monat

一款名为 Quasar Alpha的神秘模型登陆了OpenRouter 上下文长度高达 100 万个 token 其的响应速度非常快，平均每秒可处理约 136 个 token 有人怀疑是 OpenAI 的开源模型，因为问它的是时候它回答是基于GPT 4 我测试了下确实很6啊...😅 Quasar Alpha 被设计为全能型模型，适用于多种任务，尤其是编码任务。官方描述和用户反馈暗示它可能具备多模态能力，Quasar Alpha 在 OpenRouter 上免费提供。根据 X 用户反馈，在 aider 多语言编码基准测试中得分约为 55%，与 DeepSeek V3 和一些 OpenAI 模型（如 o3-mini-medium）相当，优于 GPT-4o 的表现。

一款名为 Quasar Alpha的神秘模型登陆了OpenRouter 上下文长度高达 100 万个 token 其的响应速度非常快，平均每秒可处理约 136 个 token 有人怀疑是 OpenAI 的开源模型，因为问它的是时候它回答是基于GPT 4 我测试了下确实很6啊...😅 Quasar Alpha 被设计为全能型模型，适用于多种任务，尤其是编码任务。官方描述和用户反馈暗示它可能具备多模态能力，Quasar Alpha 在 OpenRouter 上免费提供。根据 X 用户反馈，在 aider 多语言编码基准测试中得分约为 55%，与 DeepSeek V3 和一些 OpenAI 模型（如 o3-mini-medium）相当，优于 GPT-4o 的表现。

小互

42,136 Aufrufe • vor 1 Jahr

蚂蚁百灵刚刚发布了 Ling-3.0-flash：一个AI 执行层的关键拼图刚刚看到 Ling-3.0-flash 正式发布，我觉得这款模型值得认真关注。原因很简单：在 AI 工程越来越深入到实际业务的今天，大家早就不满足于模型“会不会想”了，更关键的是它“能不能持续做”。尤其是在 Agent 工作流中，需要高频调用工具、迭代代码、处理长程任务时，一个响应快、执行稳的执行引擎成了刚需。Ling-3.0-flash 的出现，正好瞄准了这个缺口。 1. Agent 的执行层从我的角度看，它最聪明的一点是没有去硬拼超大模型的深度推理能力，而是把自己定位成一个高速执行引擎——负责把已经规划好的任务快速落地。这在实际应用中特别实用，比如当大模型把方案设计好之后，剩下的代码生成、工具调用、批量处理就需要一个既快又稳的模型来接手。 2. 为什么它能兼顾速度和成本技术细节上，它采用 124B 参数的 MoE 架构，但实际激活参数约 5.1B，在推理速度和运行成本之间找平衡。它还支持混合推理模式：简单任务可以关闭 Reasoning，降低延迟，适合大批量处理；复杂任务则可以开启思考模式，保持逻辑连贯。原生支持 256K 上下文，对需要持续读取历史指令和项目状态的 Agent 工作流也很重要。 3.如何使用我觉得 Ling-3.0-flash 最适合做 Agent 工作流里的执行节点。反复调用 API 或 MCP 工具时，它能根据结构化错误信息自我诊断和修复，不容易在循环调试中卡死，因此适合放进 Loop 或 Graph 架构。 4.结对编程和批量任务结对编程是一个典型场景：人负责架构规划、边界定义和测试，Ling-3.0-flash 负责快速生成代码、调用工具、读取报错，并根据反馈持续修改。批量处理长文档、日志、简历和结构化数据时，它看重的也是速度、格式稳定性和成本控制。直播数字人或高频办公协作，则需要它的低延迟响应来减少体验断层。 5.边界当然，它不是万能模型。复杂系统不能只靠一句指令搞定；缺乏架构和测试环境时，结果可能跑偏；需要深度冷门知识的研究任务，还是更适合交给更大规模的推理模型。更合理的用法是：大模型负责搜索、规划和架构设计，把方案写成规范文档；Ling-3.0-flash 负责高频工具调用、代码执行和批量处理。总结：Ling-3.0-flash 不是来替代所有模型的，而是把 Agent 工作流里“执行层”这件事做得更快、更稳。大模型负责想清楚，它负责做出来。

蚂蚁百灵刚刚发布了 Ling-3.0-flash：一个AI 执行层的关键拼图刚刚看到 Ling-3.0-flash 正式发布，我觉得这款模型值得认真关注。原因很简单：在 AI 工程越来越深入到实际业务的今天，大家早就不满足于模型“会不会想”了，更关键的是它“能不能持续做”。尤其是在 Agent 工作流中，需要高频调用工具、迭代代码、处理长程任务时，一个响应快、执行稳的执行引擎成了刚需。Ling-3.0-flash 的出现，正好瞄准了这个缺口。 1. Agent 的执行层从我的角度看，它最聪明的一点是没有去硬拼超大模型的深度推理能力，而是把自己定位成一个高速执行引擎——负责把已经规划好的任务快速落地。这在实际应用中特别实用，比如当大模型把方案设计好之后，剩下的代码生成、工具调用、批量处理就需要一个既快又稳的模型来接手。 2. 为什么它能兼顾速度和成本技术细节上，它采用 124B 参数的 MoE 架构，但实际激活参数约 5.1B，在推理速度和运行成本之间找平衡。它还支持混合推理模式：简单任务可以关闭 Reasoning，降低延迟，适合大批量处理；复杂任务则可以开启思考模式，保持逻辑连贯。原生支持 256K 上下文，对需要持续读取历史指令和项目状态的 Agent 工作流也很重要。 3.如何使用我觉得 Ling-3.0-flash 最适合做 Agent 工作流里的执行节点。反复调用 API 或 MCP 工具时，它能根据结构化错误信息自我诊断和修复，不容易在循环调试中卡死，因此适合放进 Loop 或 Graph 架构。 4.结对编程和批量任务结对编程是一个典型场景：人负责架构规划、边界定义和测试，Ling-3.0-flash 负责快速生成代码、调用工具、读取报错，并根据反馈持续修改。批量处理长文档、日志、简历和结构化数据时，它看重的也是速度、格式稳定性和成本控制。直播数字人或高频办公协作，则需要它的低延迟响应来减少体验断层。 5.边界当然，它不是万能模型。复杂系统不能只靠一句指令搞定；缺乏架构和测试环境时，结果可能跑偏；需要深度冷门知识的研究任务，还是更适合交给更大规模的推理模型。更合理的用法是：大模型负责搜索、规划和架构设计，把方案写成规范文档；Ling-3.0-flash 负责高频工具调用、代码执行和批量处理。总结：Ling-3.0-flash 不是来替代所有模型的，而是把 Agent 工作流里“执行层”这件事做得更快、更稳。大模型负责想清楚，它负责做出来。

奶牛叔

16,313 Aufrufe • vor 19 Stunden

强，字节刚刚开源了一款“ChatGPT Pulse”类工具： MineContext，它会主动推送洞察、日/周总结、待办、活动记录等信息以每日总结、每周回顾、关键Tips或待办事项等形式，主动推送到主页 MineContext具有上下文感知能力，它目前基于屏幕截图+内容理解，看到看懂用户数字世界的上下文，再基于底层的上下文工程框架，进行主动推送未来会支持其他来源的多模态信息，文档、图片、视频、代码、外部应用数据等无感收集，开启后，它会在后台自动收集上下文，无需进行任何额外操作智能浮现，当需要创作或查找资料时，它可以智能浮现出相关历史上下文，以辅助创作比ChatGPT Pulse，MineContext所有的数据都会经过压缩后保存在本地，更具安全性 MineContext等于把沉默的电脑数据变成了随时可用的第二大脑，学生或研究者可以用来辅助构建知识体系，内容创作者可以用来提供灵感、优化工作流等 #MineContext #AI信息推送助手

强，字节刚刚开源了一款“ChatGPT Pulse”类工具： MineContext，它会主动推送洞察、日/周总结、待办、活动记录等信息以每日总结、每周回顾、关键Tips或待办事项等形式，主动推送到主页 MineContext具有上下文感知能力，它目前基于屏幕截图+内容理解，看到看懂用户数字世界的上下文，再基于底层的上下文工程框架，进行主动推送未来会支持其他来源的多模态信息，文档、图片、视频、代码、外部应用数据等无感收集，开启后，它会在后台自动收集上下文，无需进行任何额外操作智能浮现，当需要创作或查找资料时，它可以智能浮现出相关历史上下文，以辅助创作比ChatGPT Pulse，MineContext所有的数据都会经过压缩后保存在本地，更具安全性 MineContext等于把沉默的电脑数据变成了随时可用的第二大脑，学生或研究者可以用来辅助构建知识体系，内容创作者可以用来提供灵感、优化工作流等 #MineContext #AI信息推送助手

AIGCLINK

35,850 Aufrufe • vor 9 Monaten

课程视频翻译：《“多AI智能体系统”（Multi AI Agent Systems）》这门课程由 CrewAI 的创始人兼CEO João Moura打造。在这门课程中，你将学习如何将复杂任务分解为多个AI智能体的子任务，每个智能体都扮演一个特定的角色并执行相应的任务。例如，生成一份研究报告时，你可能会有研究员智能体、撰写智能体和质量保证智能体进行协作。你需要像管理团队一样，定义这些智能体的角色、期望和交互方式。课程将涵盖关键的AI智能体技术，包括角色扮演、工具使用、记忆管理、保护机制以及跨智能体协作。你还将学习如何构建自己的多智能体系统，以便解决复杂任务。我相信你会发现设计智能体并观察它们协作完成任务既高效又有趣。多智能体架构将在推动AI系统的发展方面起到重要作用。课程地址：

课程视频翻译：《“多AI智能体系统”（Multi AI Agent Systems）》这门课程由 CrewAI 的创始人兼CEO João Moura打造。在这门课程中，你将学习如何将复杂任务分解为多个AI智能体的子任务，每个智能体都扮演一个特定的角色并执行相应的任务。例如，生成一份研究报告时，你可能会有研究员智能体、撰写智能体和质量保证智能体进行协作。你需要像管理团队一样，定义这些智能体的角色、期望和交互方式。课程将涵盖关键的AI智能体技术，包括角色扮演、工具使用、记忆管理、保护机制以及跨智能体协作。你还将学习如何构建自己的多智能体系统，以便解决复杂任务。我相信你会发现设计智能体并观察它们协作完成任务既高效又有趣。多智能体架构将在推动AI系统的发展方面起到重要作用。课程地址：

宝玉

90,510 Aufrufe • vor 2 Jahren