AIGCLINK's banner

AIGCLINK

@aigclink • 36,223 subscribers

致力于让每个想拥抱AI的人都能找到适合自己的AI产品，助力企业定制AIGC应用

Shorts

谷歌的升级版医疗模型出来了，开源了：MedGemma 1.5，可离线运行 MedGemma 1.5在上一代基础上，增加了对3D CT、MRI扫描，以及全切片病理图像的支持能分析胸片时间序列，这对疾病进展监测比较有用；还能解剖定位，在X光片中识别特定的解剖结构能从医疗实验室报告中提取结构化数据，这对于整合患者信息、辅助决策很方便另外，配套还发了一款医疗ASR：MedASR 专为医疗场景微调的语音识别模型，胸片口述词错误率 5.2%，比Whisper-large-v3降低了58% #AI医疗 #MedGemma #MedASR

谷歌的升级版医疗模型出来了，开源了：MedGemma 1.5，可离线运行 MedGemma 1.5在上一代基础上，增加了对3D CT、MRI扫描，以及全切片病理图像的支持能分析胸片时间序列，这对疾病进展监测比较有用；还能解剖定位，在X光片中识别特定的解剖结构能从医疗实验室报告中提取结构化数据，这对于整合患者信息、辅助决策很方便另外，配套还发了一款医疗ASR：MedASR 专为医疗场景微调的语音识别模型，胸片口述词错误率 5.2%，比Whisper-large-v3降低了58% #AI医疗 #MedGemma #MedASR

146,923 次观看

阿里昨晚放出了最新款TTS：Qwen3-TTS，秒级克隆、一句话设计新音色、实时流式输出，0.6B 可跨语种多语，中文克隆后直接说英日韩德法俄西葡意+ 四川话、北京话等方言，音色不变 Dual-Track双轨架构，输入1个字就能出首包音频，端到端延迟97 ms，可以做直播、实时翻译、AI客服了用它做有声书，可以一人分饰多角，情绪、方言全有了有1.7B和0.6B两个尺寸，1.7B性能最优，具备控制能力，0.6B均衡性能与效率 #tts #Qwen3TTS

阿里昨晚放出了最新款TTS：Qwen3-TTS，秒级克隆、一句话设计新音色、实时流式输出，0.6B 可跨语种多语，中文克隆后直接说英日韩德法俄西葡意+ 四川话、北京话等方言，音色不变 Dual-Track双轨架构，输入1个字就能出首包音频，端到端延迟97 ms，可以做直播、实时翻译、AI客服了用它做有声书，可以一人分饰多角，情绪、方言全有了有1.7B和0.6B两个尺寸，1.7B性能最优，具备控制能力，0.6B均衡性能与效率 #tts #Qwen3TTS

123,897 次观看

清华最新的开源项目，OpenMAIC：AI多智能体互动课堂，给定任何主题或文档，AI自动生成完整的互动课程有趣的是，里面有AI老师和AI同学，类似真实的虚拟教室，不止有AI老师讲课，还有AI同学陪学集成了OpenClaw，可以直接在飞书、Slack、Telegram里生成课堂给定主题一键生成课堂内容，包括幻灯片讲义、测验、HTML交互式模拟、项目制学习（PBL）课堂中的AI老师和AI同学可以语音讲解在白板上画图、写公式主动发起讨论或点名让学生发言进行圆桌辩论 OpenMAIC相当于一个AI原生的教育基础设施，从慕课看视频时代升级到了和AI 一起上课的虚拟课堂时代 #AI虚拟课堂 #OpenMAIC

清华最新的开源项目，OpenMAIC：AI多智能体互动课堂，给定任何主题或文档，AI自动生成完整的互动课程有趣的是，里面有AI老师和AI同学，类似真实的虚拟教室，不止有AI老师讲课，还有AI同学陪学集成了OpenClaw，可以直接在飞书、Slack、Telegram里生成课堂给定主题一键生成课堂内容，包括幻灯片讲义、测验、HTML交互式模拟、项目制学习（PBL）课堂中的AI老师和AI同学可以语音讲解在白板上画图、写公式主动发起讨论或点名让学生发言进行圆桌辩论 OpenMAIC相当于一个AI原生的教育基础设施，从慕课看视频时代升级到了和AI 一起上课的虚拟课堂时代 #AI虚拟课堂 #OpenMAIC

40,858 次观看

一款主动式AI渗透测试工具：shannon，给它源码+测试网址，它自动把网站黑一遍，然后告诉你它咋黑的在无提示有源码的XBOW基准中成功率96.15% 开发vibe-coding天天上线，Shannon也可以让每次发版都能“一键红队” 它用Claude跑侦察、并行漏洞分析、攻击、写报告，全程零人工，能打出SQL注入、XSS、SSRF、越权等20+真实漏洞并给出可直接复制的PoC 注意它会真的改数据、注册用户，千万别在生产环境跑 Lite版开源AGPL-3.0 #shannon #AI黑客

一款主动式AI渗透测试工具：shannon，给它源码+测试网址，它自动把网站黑一遍，然后告诉你它咋黑的在无提示有源码的XBOW基准中成功率96.15% 开发vibe-coding天天上线，Shannon也可以让每次发版都能“一键红队” 它用Claude跑侦察、并行漏洞分析、攻击、写报告，全程零人工，能打出SQL注入、XSS、SSRF、越权等20+真实漏洞并给出可直接复制的PoC 注意它会真的改数据、注册用户，千万别在生产环境跑 Lite版开源AGPL-3.0 #shannon #AI黑客

50,180 次观看

这个工具火了，可以用自然语言一键生成安卓和iOS App，Emergent刚上的新功能以前可以用vibecoding做网页，现在直接出Android / iOS 安装包，比如“帮我做个记账App”即可另外还上了一个Emergent Pro模式，Agent能力更强，能处理错误、动态调整计划，内置Linux 虚拟机，可访问互联网网友反馈Emergent的一键生成体验比较好，输入需求即可获得完整应用，从规划到编程、测试、调试和部署，端到端自动化 #AIagent #Emergent #APP生成工具

这个工具火了，可以用自然语言一键生成安卓和iOS App，Emergent刚上的新功能以前可以用vibecoding做网页，现在直接出Android / iOS 安装包，比如“帮我做个记账App”即可另外还上了一个Emergent Pro模式，Agent能力更强，能处理错误、动态调整计划，内置Linux 虚拟机，可访问互联网网友反馈Emergent的一键生成体验比较好，输入需求即可获得完整应用，从规划到编程、测试、调试和部署，端到端自动化 #AIagent #Emergent #APP生成工具

64,099 次观看

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型：OmniShow，妥妥的电商广告专用模型全模态，一个模型通吃图+音+姿势+文本输入任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式，目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的人脸保持、物理合理性、表现力及口型同步看起来效果都还可以原生长镜头生成，最长可生成10秒连续视频目前代码还没放出来 #人物视频生成模型 #OmniShow #电商视频生成

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型：OmniShow，妥妥的电商广告专用模型全模态，一个模型通吃图+音+姿势+文本输入任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式，目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的人脸保持、物理合理性、表现力及口型同步看起来效果都还可以原生长镜头生成，最长可生成10秒连续视频目前代码还没放出来 #人物视频生成模型 #OmniShow #电商视频生成

22,672 次观看

成会玩儿，用MCP 让Claude控制ChatGPT 4o，自动生成吉卜力风格的分镜代码作者Lovis Odin已开源见下条

成会玩儿，用MCP 让Claude控制ChatGPT 4o，自动生成吉卜力风格的分镜代码作者Lovis Odin已开源见下条

66,130 次观看

阿里刚刚开源了TTS：Fun-CosyVoice3 0.5B，zero-shot音色克隆，可本地部署还开源了款ASR【Fun-ASR-Nano 0.8B】，Fun-ASR的轻量化版本，推理成本更低，可以本地及定制化微调另外，Fun-CosyVoice3模型做了升级，首包延迟比之前降低了50%，WER降低了56.4%，复杂场景字符错误率降低了26% 支持9种通用语言、18种中文方言、9种情感控制，可以跨语种音色复刻，比如说，用一段普通话录音可生成粤语、日语、英语等支持双向流式合成，“输入即发声”，这个适用于语音助手、直播配音、无障碍阅读等等实时场景 Fun-ASR也升级了，噪声场景下准确率到了93%，新增歌词与说唱识别能力，支持31种语言自由混说无需预先指定语种覆盖7大方言和26种地方口音，流式识别模型的首字延迟降低到了160ms #TTS #ASR

阿里刚刚开源了TTS：Fun-CosyVoice3 0.5B，zero-shot音色克隆，可本地部署还开源了款ASR【Fun-ASR-Nano 0.8B】，Fun-ASR的轻量化版本，推理成本更低，可以本地及定制化微调另外，Fun-CosyVoice3模型做了升级，首包延迟比之前降低了50%，WER降低了56.4%，复杂场景字符错误率降低了26% 支持9种通用语言、18种中文方言、9种情感控制，可以跨语种音色复刻，比如说，用一段普通话录音可生成粤语、日语、英语等支持双向流式合成，“输入即发声”，这个适用于语音助手、直播配音、无障碍阅读等等实时场景 Fun-ASR也升级了，噪声场景下准确率到了93%，新增歌词与说唱识别能力，支持31种语言自由混说无需预先指定语种覆盖7大方言和26种地方口音，流式识别模型的首字延迟降低到了160ms #TTS #ASR

35,159 次观看

一款5分钟即上线企业级AI应用的平台：Zion（国外版Momen），比coze、dify更强大 Zion是首个将AI Agent、前端、后端、数据库整合的AI应用构建托管平台，支持agent构建、托管，发布为小程序、网站、saas服务等（重点是支持支付配置、登录注册都给封装好了，直接发布就可以提供agent收费服务，国外版叫Momen，国内版叫Zion） zion： Momen： youtube： #Zion #Momen #AIagent

一款5分钟即上线企业级AI应用的平台：Zion（国外版Momen），比coze、dify更强大 Zion是首个将AI Agent、前端、后端、数据库整合的AI应用构建托管平台，支持agent构建、托管，发布为小程序、网站、saas服务等（重点是支持支付配置、登录注册都给封装好了，直接发布就可以提供agent收费服务，国外版叫Momen，国内版叫Zion） zion： Momen： youtube： #Zion #Momen #AIagent

77,019 次观看

一款轻量级、能在移动设备上实时运行的数字人模型：Ultralight-Digital-Human 需要准备一段3到5分钟的视频，视频中的人物需要全程露脸，声音清晰无噪音项目提供了一个康辉老师的口播示例，整体看起来流畅自然，没有明显的卡顿 github： #数字人（视频做为该项目效果演示，侵删）

一款轻量级、能在移动设备上实时运行的数字人模型：Ultralight-Digital-Human 需要准备一段3到5分钟的视频，视频中的人物需要全程露脸，声音清晰无噪音项目提供了一个康辉老师的口播示例，整体看起来流畅自然，没有明显的卡顿 github： #数字人（视频做为该项目效果演示，侵删）

55,105 次观看

一个AI提示词库资源，包括写作和内容创作、商业分析和决策、创意生成、编程和技术开发、市场营销等在内的500多个提示词可以复制粘贴使用，也可以根据自己需求修改优化资源地址见下条 #AI提示词 #Prompt #PromptLibrary

一个AI提示词库资源，包括写作和内容创作、商业分析和决策、创意生成、编程和技术开发、市场营销等在内的500多个提示词可以复制粘贴使用，也可以根据自己需求修改优化资源地址见下条 #AI提示词 #Prompt #PromptLibrary

39,640 次观看

英伟达版的“Banana”，英伟达开源了一款物理级图像编辑模型：ChronoEdit-14B，静态图+一句话，4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”，它能理解动作，比如说“推倒”、“拿起”这种动作，可以根据它学到的物理常识，画出这个动作发生后，世界应该变成什么样子 8 步扩散完成一次图像编辑，在H100上约4秒一张图从效果看，预测动作发生结果的能力比较强，改变姿势后，人物、服装、背景风格的一致性也保持的比较好，光影、反射效果处理的也比较符合逻辑可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

英伟达版的“Banana”，英伟达开源了一款物理级图像编辑模型：ChronoEdit-14B，静态图+一句话，4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”，它能理解动作，比如说“推倒”、“拿起”这种动作，可以根据它学到的物理常识，画出这个动作发生后，世界应该变成什么样子 8 步扩散完成一次图像编辑，在H100上约4秒一张图从效果看，预测动作发生结果的能力比较强，改变姿势后，人物、服装、背景风格的一致性也保持的比较好，光影、反射效果处理的也比较符合逻辑可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

26,815 次观看

牛，30.5K星，收集了包括Cursor、Manus、Devin、Windsurf等在内的AI工具系统提示词库库里提供了6500+行、9个工具的系统提示词参考，包括开源和闭源的，可以了解不同AI工具的设计思路，用来学习研究 v0、Manus、Cursor、Same、Lovable、Devin、Replit Agent、Windsurf Agent以及VSCode Agent 这9个 Cursor的提示词强调了代码修改的安全性、可用性以及工具使用规范，来约束AI减少幻觉；Manus也有200多行 #提示词 #AI编程助手 #Cursor #Manus

牛，30.5K星，收集了包括Cursor、Manus、Devin、Windsurf等在内的AI工具系统提示词库库里提供了6500+行、9个工具的系统提示词参考，包括开源和闭源的，可以了解不同AI工具的设计思路，用来学习研究 v0、Manus、Cursor、Same、Lovable、Devin、Replit Agent、Windsurf Agent以及VSCode Agent 这9个 Cursor的提示词强调了代码修改的安全性、可用性以及工具使用规范，来约束AI减少幻觉；Manus也有200多行 #提示词 #AI编程助手 #Cursor #Manus

39,825 次观看

让OpenClaw越用越聪明的自动学习系统：MetaClaw，即插即用，实时从对话中学习和AI聊天，MetaClaw会在后台自动总结对话经验，提炼成技能注入后续对话，无需额外操作相当于是在LLM和OpenClaw 之间架一个代理层，每轮对话自动注入最相关的技能指令，即时提升表现每次对话结束后，会自动总结提炼新技能，技能库随着使用增长全异步架构，服务、评分、训练解耦，AI正常响应的同时后台处理支持两种模式，轻量技能模式无需GPU，RL模式可在Tinker云端训练并热更新权重 #MetaClaw #RL #AI助手训练 #openclaw

让OpenClaw越用越聪明的自动学习系统：MetaClaw，即插即用，实时从对话中学习和AI聊天，MetaClaw会在后台自动总结对话经验，提炼成技能注入后续对话，无需额外操作相当于是在LLM和OpenClaw 之间架一个代理层，每轮对话自动注入最相关的技能指令，即时提升表现每次对话结束后，会自动总结提炼新技能，技能库随着使用增长全异步架构，服务、评分、训练解耦，AI正常响应的同时后台处理支持两种模式，轻量技能模式无需GPU，RL模式可在Tinker云端训练并热更新权重 #MetaClaw #RL #AI助手训练 #openclaw

15,650 次观看

酷，浙大、vivo最新出的一款视频虚拟试衣模型：MagicTryOn，服装的时空一致性、稳定性、服装细节都保持的不错，效果可以直接用于电商广告了支持图像试穿、视频试穿，以及自定义试穿擅长在比如跳舞这种人体大幅度运动，和复杂场景中试穿具备泛化能力，可以在玩偶上进行虚拟试衣其用扩散Transformer取代U-Net架构，来提升模型的表达能力；结合全自注意力机制联合建模视频的时空一致性，确保试衣效果在时间和空间维度上自然流畅 #虚拟试穿 #MagicTryOn #tryon #AI穿衣

酷，浙大、vivo最新出的一款视频虚拟试衣模型：MagicTryOn，服装的时空一致性、稳定性、服装细节都保持的不错，效果可以直接用于电商广告了支持图像试穿、视频试穿，以及自定义试穿擅长在比如跳舞这种人体大幅度运动，和复杂场景中试穿具备泛化能力，可以在玩偶上进行虚拟试衣其用扩散Transformer取代U-Net架构，来提升模型的表达能力；结合全自注意力机制联合建模视频的时空一致性，确保试衣效果在时间和空间维度上自然流畅 #虚拟试穿 #MagicTryOn #tryon #AI穿衣

28,402 次观看

集截屏、OCR、搜索、翻译、贴图、屏幕翻译、以图搜图、滚动截屏、录屏于一身的工具：eSearch OCR后可调用翻译，跨平台支持 github：

集截屏、OCR、搜索、翻译、贴图、屏幕翻译、以图搜图、滚动截屏、录屏于一身的工具：eSearch OCR后可调用翻译，跨平台支持 github：

40,099 次观看

一个轻量级的数字人项目：MiniMates，支持语音和表情两种驱动模式，可在普通电脑上实时运行 one-shot单图驱动，最低只需要一张图片可以说话、眨眼、转头、做表情等支持实时交互，实时摄像头表情捕捉、实时头部跟踪、实时语音对话 github： #数字人 #AI虚拟人

一个轻量级的数字人项目：MiniMates，支持语音和表情两种驱动模式，可在普通电脑上实时运行 one-shot单图驱动，最低只需要一张图片可以说话、眨眼、转头、做表情等支持实时交互，实时摄像头表情捕捉、实时头部跟踪、实时语音对话 github： #数字人 #AI虚拟人

35,360 次观看

这数字人效果看起来也太真实了这是一个叫Tavus的产品，整合了视觉、语音和情感智能，让虚拟人拥有情感表达、情感理解能力由三个核心模型组成 1、Phoenix-3 实时全脸渲染模型，能生成复杂的微表情和情绪，包括眉毛、脸庞、眼睛等，可以实时调整表情 2、Raven-0 能持续处理视觉上下文，读取情绪，理解情绪变化，并智能回应 3、Sparrow-0 用来控制对话的节奏，判断什么时候该说、什么时候该听，响应速度快 #数字人 #虚拟人 #AI数字人 #Tavus

这数字人效果看起来也太真实了这是一个叫Tavus的产品，整合了视觉、语音和情感智能，让虚拟人拥有情感表达、情感理解能力由三个核心模型组成 1、Phoenix-3 实时全脸渲染模型，能生成复杂的微表情和情绪，包括眉毛、脸庞、眼睛等，可以实时调整表情 2、Raven-0 能持续处理视觉上下文，读取情绪，理解情绪变化，并智能回应 3、Sparrow-0 用来控制对话的节奏，判断什么时候该说、什么时候该听，响应速度快 #数字人 #虚拟人 #AI数字人 #Tavus

28,738 次观看

基于Llama 3.2的轻量级开源OCR工具：llama-ocr，不到5行代码搞定目前支持图像处理，输出markdown格式，它复杂的图像，比如收据或包含表格/图表的PDF等能力优秀支持本地图片和网络图片OCR Npm包： Hassan高产，期待logo生成器 ocr #llamaocr

基于Llama 3.2的轻量级开源OCR工具：llama-ocr，不到5行代码搞定目前支持图像处理，输出markdown格式，它复杂的图像，比如收据或包含表格/图表的PDF等能力优秀支持本地图片和网络图片OCR Npm包： Hassan高产，期待logo生成器 ocr #llamaocr

28,941 次观看

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

阿里上线了一款电商版OpenClaw：Accio Work，一人+Accio Work即是一个跨境电商团队从商品设计、采购、谈判、店铺运营、营销到CRM，一个对话框全搞定比如，一句“我想开一家卖丑萌毛绒玩具的Shopify店铺”，它即会去市场调研、选品、找货源、预估利润率、上架、做SEO优化、运营推广等等你可以创建自己的智能体并组成一支AI Agent团队，比如营销、美工、文案团队，每个智能体的模型可选它内置了电商相关的Skill，相对比较全，开箱即用支持定时任务，比如晨报/日报、热点追踪、竞品动态、周度回顾等可以通过微信、钉钉、Telegram、Discord等交互，所有连接数据存在本地阿里等于把自己的经验在电商垂直场景AI化了，想搞电商的可以看看 #AI电商 #AI企业员工 #AccioWork

阿里上线了一款电商版OpenClaw：Accio Work，一人+Accio Work即是一个跨境电商团队从商品设计、采购、谈判、店铺运营、营销到CRM，一个对话框全搞定比如，一句“我想开一家卖丑萌毛绒玩具的Shopify店铺”，它即会去市场调研、选品、找货源、预估利润率、上架、做SEO优化、运营推广等等你可以创建自己的智能体并组成一支AI Agent团队，比如营销、美工、文案团队，每个智能体的模型可选它内置了电商相关的Skill，相对比较全，开箱即用支持定时任务，比如晨报/日报、热点追踪、竞品动态、周度回顾等可以通过微信、钉钉、Telegram、Discord等交互，所有连接数据存在本地阿里等于把自己的经验在电商垂直场景AI化了，想搞电商的可以看看 #AI电商 #AI企业员工 #AccioWork

247,840 次观看 • 3 个月前

过去30天，128家基于openclaw的初创公司，总计产生了28万美元的真实营收，平均每家月收入约2200刀其中排名第一的月营收5万刀 TrustMRR上目前收录了128家，还在不断增长中当下这128家产品的商业模式还比较集中，这其中80%的公司都在做降低OpenClaw使用门槛的活儿，做应用层的只有3-5家，目前商业场景挖掘的还不够深 #Openclaw #openclaw赚钱 #AIagent

过去30天，128家基于openclaw的初创公司，总计产生了28万美元的真实营收，平均每家月收入约2200刀其中排名第一的月营收5万刀 TrustMRR上目前收录了128家，还在不断增长中当下这128家产品的商业模式还比较集中，这其中80%的公司都在做降低OpenClaw使用门槛的活儿，做应用层的只有3-5家，目前商业场景挖掘的还不够深 #Openclaw #openclaw赚钱 #AIagent

213,430 次观看 • 4 个月前

复刻Manus，无需邀请码，开源版Manus！支持在电脑上完成很多任务，包括网页浏览、文件操作、写代码等 OpenManus使用了传统的ReAct模式，优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理，需要注意，Manus有使用Plan进行规划 OpenManus目前也已初步加入了具有 Plan&ReAct的功能，正在优化调试，大家也可以尝试更改System Prompt 让OpenManus学会记录文档和Todo List的习惯主要依赖的几个工具： 1. PythonExecute：执行Python代码与电脑系统交互，可以进行文件操作、数据处理、自动化任务等 2. FileSaver：保存文件到本地，比如txt、python、html等 3. BrowserUseTool：打开、浏览和控制浏览器 4. GoogleSearch：进行网络信息检索开源链接见下条

复刻Manus，无需邀请码，开源版Manus！支持在电脑上完成很多任务，包括网页浏览、文件操作、写代码等 OpenManus使用了传统的ReAct模式，优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理，需要注意，Manus有使用Plan进行规划 OpenManus目前也已初步加入了具有 Plan&ReAct的功能，正在优化调试，大家也可以尝试更改System Prompt 让OpenManus学会记录文档和Todo List的习惯主要依赖的几个工具： 1. PythonExecute：执行Python代码与电脑系统交互，可以进行文件操作、数据处理、自动化任务等 2. FileSaver：保存文件到本地，比如txt、python、html等 3. BrowserUseTool：打开、浏览和控制浏览器 4. GoogleSearch：进行网络信息检索开源链接见下条

348,797 次观看 • 1 年前

目前看到的在医疗方向最大的养虾OpenClaw技能库：OpenClaw-Medical-Skills，872个技能涵盖临床医学、基因组学、药物发现、生物信息学、医疗器械等用上，你的OpenClaw就可以变成专业的医学科研助手，能进行PubMed查询、临床试验检索、药物相互作用分析、基因变异解读、生成SOAP病历、出院小结等等每个技能就是一个SKILL.md 文件，包含专业知识、连接API指令、结构化输出实时数据连接PubMed、具体包含：通用工具9个、临床与医疗30+、药物发现与安全20+、科学数据库35+、生物信息学 228个、组学工具50+、蛋白质设计15+、健康管理19、医疗器械法规47、BioOS扩展套件285+、ClawBio管道22、模拟与本体论17 #OpenClawMedicalSkills #医疗skill #AIskill

目前看到的在医疗方向最大的养虾OpenClaw技能库：OpenClaw-Medical-Skills，872个技能涵盖临床医学、基因组学、药物发现、生物信息学、医疗器械等用上，你的OpenClaw就可以变成专业的医学科研助手，能进行PubMed查询、临床试验检索、药物相互作用分析、基因变异解读、生成SOAP病历、出院小结等等每个技能就是一个SKILL.md 文件，包含专业知识、连接API指令、结构化输出实时数据连接PubMed、具体包含：通用工具9个、临床与医疗30+、药物发现与安全20+、科学数据库35+、生物信息学 228个、组学工具50+、蛋白质设计15+、健康管理19、医疗器械法规47、BioOS扩展套件285+、ClawBio管道22、模拟与本体论17 #OpenClawMedicalSkills #医疗skill #AIskill

106,538 次观看 • 4 个月前

又一个Phone Use开源项目：android-action-kernel，让AI直接动手操作原生Android应用，单次调用成本降低95%、延迟<1秒它主路径不用视觉模型，而是利用Android系统原生的Accessibility API，拿到界面XML树，包括按钮文字、坐标、是否可点状态等，直接获取屏幕语义信息给LLM决策省掉截图-OCR-视觉模型的高成本，每次操作$0.01，便宜了95%；延迟从3-5秒缩短到<1秒，快了5倍；准确性提升至99%+ 项目来自 #phoneuse #AndroidUse #手机AI

又一个Phone Use开源项目：android-action-kernel，让AI直接动手操作原生Android应用，单次调用成本降低95%、延迟<1秒它主路径不用视觉模型，而是利用Android系统原生的Accessibility API，拿到界面XML树，包括按钮文字、坐标、是否可点状态等，直接获取屏幕语义信息给LLM决策省掉截图-OCR-视觉模型的高成本，每次操作$0.01，便宜了95%；延迟从3-5秒缩短到<1秒，快了5倍；准确性提升至99%+ 项目来自 #phoneuse #AndroidUse #手机AI

149,924 次观看 • 7 个月前

OpenClaw的"弹药库"，也是GitHub上最热门的仓库之一：public-apis，一个免费公共API大全找免费API的第一站，覆盖了40+领域1000多个API，从猫狗图片到NASA数据，从天气预报到股票行情，基本能想到的公开数据源这里都有了类别都是分好的，每个API都包含名称、描述、认证方式、HTTPS支持、CORS支持 #API #publicapis #openclaw

OpenClaw的"弹药库"，也是GitHub上最热门的仓库之一：public-apis，一个免费公共API大全找免费API的第一站，覆盖了40+领域1000多个API，从猫狗图片到NASA数据，从天气预报到股票行情，基本能想到的公开数据源这里都有了类别都是分好的，每个API都包含名称、描述、认证方式、HTTPS支持、CORS支持 #API #publicapis #openclaw

84,977 次观看 • 4 个月前

开源软件著作权申请Skill：SoftwareCopyright-Skill，自动生成申请材料，让你一个软著怒省几百块代办费它会让AI读取本地项目，从项目分析、业务理解、申请表信息、操作手册到代码材料，自动生成全套软著申请材料包括操作手册DOCX、代码材料DOCX、申请表信息TXT等在理解代码结构和业务功能基础上，写操作手册并非直接套用模板代码材料只来自开发者已有项目，禁止AI编造源码源码足够时按常见鉴别材料要求生成前30页和后30页，不足60页时按规则生成全部代码材料关键节点比如业务口径、申请表字段、代码选择等会让人工确认默认在当前项目目录生成材料，代码、文档和草稿都留在本地对于小团队或个人开发者比较实用，让AI做这些文书工作 #SoftwareCopyrightSkill #软著skill #skill

开源软件著作权申请Skill：SoftwareCopyright-Skill，自动生成申请材料，让你一个软著怒省几百块代办费它会让AI读取本地项目，从项目分析、业务理解、申请表信息、操作手册到代码材料，自动生成全套软著申请材料包括操作手册DOCX、代码材料DOCX、申请表信息TXT等在理解代码结构和业务功能基础上，写操作手册并非直接套用模板代码材料只来自开发者已有项目，禁止AI编造源码源码足够时按常见鉴别材料要求生成前30页和后30页，不足60页时按规则生成全部代码材料关键节点比如业务口径、申请表字段、代码选择等会让人工确认默认在当前项目目录生成材料，代码、文档和草稿都留在本地对于小团队或个人开发者比较实用，让AI做这些文书工作 #SoftwareCopyrightSkill #软著skill #skill

42,103 次观看 • 2 个月前

阿里刚刚发布了：Qwen3.5-Omni，原生全模态，自然涌现出Audio-Visual Vibe Coding能力也就是说它能看着画面写代码，给它看一段界面需求视频，它能直接生成对应代码，不是专门训练来的，模型自己学会的好比说你看一眼就会了，AI也做到了 Qwen3.5-Omni能无缝理解文本、图片、音频/音视频输入，支持细粒度、带时间戳的音视频Caption生成支持256K上下文、113种语言识别，能处理10小时音频或1 小时视频原生支持WebSearch和复杂Function Call 支持语义打断、音色克隆及语音控制给了Plus、Flash、Light三个版本 #Qwen35Omni #LLM

阿里刚刚发布了：Qwen3.5-Omni，原生全模态，自然涌现出Audio-Visual Vibe Coding能力也就是说它能看着画面写代码，给它看一段界面需求视频，它能直接生成对应代码，不是专门训练来的，模型自己学会的好比说你看一眼就会了，AI也做到了 Qwen3.5-Omni能无缝理解文本、图片、音频/音视频输入，支持细粒度、带时间戳的音视频Caption生成支持256K上下文、113种语言识别，能处理10小时音频或1 小时视频原生支持WebSearch和复杂Function Call 支持语义打断、音色克隆及语音控制给了Plus、Flash、Light三个版本 #Qwen35Omni #LLM

50,637 次观看 • 3 个月前

超酷，Gemini 3做的一个3D交互式网站，它通过摄像头识别手势并可实时交互，可以用手操控粒子 Gemini 3可以生成带three.js的3D交互场景，生成的场景可以用手进行互动对线下的展会、橱窗或广告牌可以搞成隔空操控体验了方法：打开Google AI Studio，把提示词贴进去把生成的代码复制出来新建一个文本文件，把代码粘进去，然后把文件名从默认的 .txt 改成 index.html 最后双击用浏览器打开提示词： Create a real-time interactive 3D particle system with Three.js. requirements: 1. Control the scaling and expansion of the particle group by detecting the tension and closing of both hands through the camera. 2. Provide panels that can choose hearts/flowers/saturn/Buddha statues/fireworks and other templates 3. Support the colour selector to adjust the particle colour 4. Particles need to respond to gesture changes in real time. The interface is simple and modern. 5. The interface is simple and modern 用例来自于 el.cine #Gemini3 #AI交互网页

超酷，Gemini 3做的一个3D交互式网站，它通过摄像头识别手势并可实时交互，可以用手操控粒子 Gemini 3可以生成带three.js的3D交互场景，生成的场景可以用手进行互动对线下的展会、橱窗或广告牌可以搞成隔空操控体验了方法：打开Google AI Studio，把提示词贴进去把生成的代码复制出来新建一个文本文件，把代码粘进去，然后把文件名从默认的 .txt 改成 index.html 最后双击用浏览器打开提示词： Create a real-time interactive 3D particle system with Three.js. requirements: 1. Control the scaling and expansion of the particle group by detecting the tension and closing of both hands through the camera. 2. Provide panels that can choose hearts/flowers/saturn/Buddha statues/fireworks and other templates 3. Support the colour selector to adjust the particle colour 4. Particles need to respond to gesture changes in real time. The interface is simple and modern. 5. The interface is simple and modern 用例来自于 el.cine #Gemini3 #AI交互网页

85,441 次观看 • 7 个月前

发一下港大数据智能实验室搞的一款4000行代码版“Clawdbot”：nanobot，代码体量较43万行Clawdbot减少99% 体量小但核心智能体功能具足，网页搜索、代码与文件操作、定时任务、记忆等能力都有内置了24h实时行情分析、全栈开发、日程管理、知识库四个场景模板，可以用来做24小时盯盘写行情分析，或者当程序员外挂用已集成Telegram/WhatsApp，Telegram可直接用token，WhatsApp扫码接入下一步会做多模态、长记忆、自改进，以及接入Discord、Slack等更多平台 #ClawdBot #Openclaw #nanobot #MoltBot

发一下港大数据智能实验室搞的一款4000行代码版“Clawdbot”：nanobot，代码体量较43万行Clawdbot减少99% 体量小但核心智能体功能具足，网页搜索、代码与文件操作、定时任务、记忆等能力都有内置了24h实时行情分析、全栈开发、日程管理、知识库四个场景模板，可以用来做24小时盯盘写行情分析，或者当程序员外挂用已集成Telegram/WhatsApp，Telegram可直接用token，WhatsApp扫码接入下一步会做多模态、长记忆、自改进，以及接入Discord、Slack等更多平台 #ClawdBot #Openclaw #nanobot #MoltBot

59,692 次观看 • 5 个月前

超酷！Romain刚刚在OpenAI伦敦的DevDay现场，在Cursor里用o1 -MINI大约2分钟捏了一个应用，控制无人机在舞台上飞行，表演后空翻 #openai #openaio1 #DevDay

超酷！Romain刚刚在OpenAI伦敦的DevDay现场，在Cursor里用o1 -MINI大约2分钟捏了一个应用，控制无人机在舞台上飞行，表演后空翻 #openai #openaio1 #DevDay

160,584 次观看 • 1 年前

牛，Mistral刚刚发布了号称地表最强OCR，给文档理解设立了新标准！ Mistral OCR具备强大认知能力，能准确理解文档中包括文本、图像、表格、公式等在内的每个元素特点： 1、原生多语言和多模态，支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素，包括图像、数学公式、表格以及 LaTeX 格式等，尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型，尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快，单节点每分钟可处理2000页 5、支持使用文档作为提示，以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral

牛，Mistral刚刚发布了号称地表最强OCR，给文档理解设立了新标准！ Mistral OCR具备强大认知能力，能准确理解文档中包括文本、图像、表格、公式等在内的每个元素特点： 1、原生多语言和多模态，支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素，包括图像、数学公式、表格以及 LaTeX 格式等，尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型，尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快，单节点每分钟可处理2000页 5、支持使用文档作为提示，以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral

111,943 次观看 • 1 年前

李飞飞的World Labs发新货了，给定单张图像或文本提示生成一个3D世界，无限时长、无变形，比之前版本风格多样、几何干净一次生成能在浏览器里自由行走，没有时限、视角跳变或背面空洞从给出的生成效果看还是比较惊艳的，细节清晰，没有明显的抖动或变形，光照氛围感也很好模型可以直接输出高斯溅射格式，可用Spark渲染库无缝集成到Three.js里支持卡通、动漫、科幻、写实、低多边形等多个风格，可以拼接多个场景组成超大世界目前只能生成3D环境，不支持人物或动物特写 #AI世界模型 #空间智能

李飞飞的World Labs发新货了，给定单张图像或文本提示生成一个3D世界，无限时长、无变形，比之前版本风格多样、几何干净一次生成能在浏览器里自由行走，没有时限、视角跳变或背面空洞从给出的生成效果看还是比较惊艳的，细节清晰，没有明显的抖动或变形，光照氛围感也很好模型可以直接输出高斯溅射格式，可用Spark渲染库无缝集成到Three.js里支持卡通、动漫、科幻、写实、低多边形等多个风格，可以拼接多个场景组成超大世界目前只能生成3D环境，不支持人物或动物特写 #AI世界模型 #空间智能

72,508 次观看 • 10 个月前

腾讯优图出的一款主动式设备端AI助手：Youtu-Tip，可以桌面自动化、Agent调用，能离线使用它可以模拟鼠标/键盘来实现桌面操纵，比如说，“帮我把Excel里低于60分的标红”、“总结文章发给XX微信” 支持热键、选中文本或者图像交互也可以教它技能，比如给它演示一遍“去官网搜最低价航班”，它能记录步骤下次一句命令自动跑还可以接入智能体、MCP服务器以及其他工具，来实现更复杂的任务 Tip基于Youtu-LLM驱动，1.96B，128K上下文，具备原生智能体能力，是开源的，也可以替换成其他模型它还有一个4B的Youtu-VL端侧多模态模型也马上要开源 #AI设备端助手 #YoutuTip

腾讯优图出的一款主动式设备端AI助手：Youtu-Tip，可以桌面自动化、Agent调用，能离线使用它可以模拟鼠标/键盘来实现桌面操纵，比如说，“帮我把Excel里低于60分的标红”、“总结文章发给XX微信” 支持热键、选中文本或者图像交互也可以教它技能，比如给它演示一遍“去官网搜最低价航班”，它能记录步骤下次一句命令自动跑还可以接入智能体、MCP服务器以及其他工具，来实现更复杂的任务 Tip基于Youtu-LLM驱动，1.96B，128K上下文，具备原生智能体能力，是开源的，也可以替换成其他模型它还有一个4B的Youtu-VL端侧多模态模型也马上要开源 #AI设备端助手 #YoutuTip

47,495 次观看 • 6 个月前

字节发布了一款端到端同声传译模型：Seed LiveInterpret 2.0，中英双向端到端同传，延迟为2-3秒从演示效果看，准确性、复杂场景的处理、声音情绪的表达、语音克隆音色转换的效果相对都还可以性能上，语音到语音翻译，中英互译平均翻译质量到了66.3分，接近专业真人同传水平延迟上，语音到文本输出首字平均延迟2.21秒，语音到语音输出延时2.53 秒功能上支持实时声音复刻，复刻不同说话人的音色擅长多人对话、非流利语音以及长音频场景对绕口令、诗词、美食文化等可相对自然互译 #AI同传 #SeedLiveInterpret #字节同传

字节发布了一款端到端同声传译模型：Seed LiveInterpret 2.0，中英双向端到端同传，延迟为2-3秒从演示效果看，准确性、复杂场景的处理、声音情绪的表达、语音克隆音色转换的效果相对都还可以性能上，语音到语音翻译，中英互译平均翻译质量到了66.3分，接近专业真人同传水平延迟上，语音到文本输出首字平均延迟2.21秒，语音到语音输出延时2.53 秒功能上支持实时声音复刻，复刻不同说话人的音色擅长多人对话、非流利语音以及长音频场景对绕口令、诗词、美食文化等可相对自然互译 #AI同传 #SeedLiveInterpret #字节同传

78,282 次观看 • 1 年前

AI教育领域的应用，一个AI数理化老师：TheoremExplainAgent，它可以生成5分钟动画视频来给学生讲解数学公式和科学定理，实用性很强双智能体架构设计：一个规划智能体，负责备课，设计教案，写讲稿一个编程智能体，负责制作课件，用Manim生成Python动画脚本及相应音频支持数学、物理、化学、计算机科学等学科代码即将开源 #AI教学工具 #AI老师 #TheoremExplainAgent #AI教学视频

AI教育领域的应用，一个AI数理化老师：TheoremExplainAgent，它可以生成5分钟动画视频来给学生讲解数学公式和科学定理，实用性很强双智能体架构设计：一个规划智能体，负责备课，设计教案，写讲稿一个编程智能体，负责制作课件，用Manim生成Python动画脚本及相应音频支持数学、物理、化学、计算机科学等学科代码即将开源 #AI教学工具 #AI老师 #TheoremExplainAgent #AI教学视频

100,900 次观看 • 1 年前

阿里刚刚放出了其首个千问具身智能体通用模型：Qwen-Robot ，也开始搞具身智能了！ Qwen-Robot由三个模型组成机器人的手+脚+大脑，三个模型可以独立用，也可以组合用比如，用它可以组成一个既能动手端盘子，又能走路送餐，还能预判端着热汤拐弯儿会不会洒的服务机器人 Qwen-RobotManip：其采用80维统一动作表征，把不同机器人的动作翻译成同一种通用语言，并基于摄像头画面的相对位置操作，不再依赖繁琐的绝对坐标计算，解决了换个机械臂、换个场景数据不通用的情况 Qwen-RobotNav：核心思路是把视觉分配策略本身参数化，而非固定，具体解法是把记多少、怎么记变成可调参数，根据任务类型自动配置，不同任务按需配置，比如目标追踪只关注最近几帧省算力，指令跟随保留长程上下文不迷路因为记忆策略参数化了，一套权重即统一五类导航任务在双层智能体系统（上层规划器+Qwen-RobotNav）中，EXPRESS-Bench提升15.4%，导航步数减少了77% 通用接口设计，其他上层AI可以直接调用它的导航能力，无需再为每个任务单独训练一个导航模型，原生支持多种智能体框架 Qwen-RobotWorld：相当于机器人的想象力基于对物理规律的理解，可推理和模拟下一时间点的合理动作和状态；能生成视频数据用于训练，缓解训练数据不足问题；可以在执行前推演未来动作轨迹，使操作更精准 Qwen-Robot相当于是一套模块化的具身智能系统，把导航、操作、世界预测三个专业的能力解耦又协同，让通用模型像调用软件工具一样，调用物理世界的行动能力 #QwenRobot #robot #具身智能

阿里刚刚放出了其首个千问具身智能体通用模型：Qwen-Robot ，也开始搞具身智能了！ Qwen-Robot由三个模型组成机器人的手+脚+大脑，三个模型可以独立用，也可以组合用比如，用它可以组成一个既能动手端盘子，又能走路送餐，还能预判端着热汤拐弯儿会不会洒的服务机器人 Qwen-RobotManip：其采用80维统一动作表征，把不同机器人的动作翻译成同一种通用语言，并基于摄像头画面的相对位置操作，不再依赖繁琐的绝对坐标计算，解决了换个机械臂、换个场景数据不通用的情况 Qwen-RobotNav：核心思路是把视觉分配策略本身参数化，而非固定，具体解法是把记多少、怎么记变成可调参数，根据任务类型自动配置，不同任务按需配置，比如目标追踪只关注最近几帧省算力，指令跟随保留长程上下文不迷路因为记忆策略参数化了，一套权重即统一五类导航任务在双层智能体系统（上层规划器+Qwen-RobotNav）中，EXPRESS-Bench提升15.4%，导航步数减少了77% 通用接口设计，其他上层AI可以直接调用它的导航能力，无需再为每个任务单独训练一个导航模型，原生支持多种智能体框架 Qwen-RobotWorld：相当于机器人的想象力基于对物理规律的理解，可推理和模拟下一时间点的合理动作和状态；能生成视频数据用于训练，缓解训练数据不足问题；可以在执行前推演未来动作轨迹，使操作更精准 Qwen-Robot相当于是一套模块化的具身智能系统，把导航、操作、世界预测三个专业的能力解耦又协同，让通用模型像调用软件工具一样，调用物理世界的行动能力 #QwenRobot #robot #具身智能

11,106 次观看 • 1 个月前

一键给龙虾OpenClaw体检加固工具，检查你的龙虾有没有在裸奔，openclaw-security-hardening 对话式完成体检和修复，自动扫描配置、出报告、给三档加固方案，选完直接帮你改 OpenClaw安全隐患除了黑客攻击，还可能是配置不当，比如门禁没锁、权限过大、群聊不设防等不想逐条对照配置文件的，可以用这套自动化skill 它可以：自动检查OpenClaw配置文件中的安全风险哪些配置有问题、风险等级是什么（CRITICAL/WARN 等）给三档安全加固方案选完方案后直接改配置，无需手动改JSON #OpenClaw #OpenClaw安全

一键给龙虾OpenClaw体检加固工具，检查你的龙虾有没有在裸奔，openclaw-security-hardening 对话式完成体检和修复，自动扫描配置、出报告、给三档加固方案，选完直接帮你改 OpenClaw安全隐患除了黑客攻击，还可能是配置不当，比如门禁没锁、权限过大、群聊不设防等不想逐条对照配置文件的，可以用这套自动化skill 它可以：自动检查OpenClaw配置文件中的安全风险哪些配置有问题、风险等级是什么（CRITICAL/WARN 等）给三档安全加固方案选完方案后直接改配置，无需手动改JSON #OpenClaw #OpenClaw安全

28,874 次观看 • 3 个月前

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

103,720 次观看 • 1 年前

一站式视频多语言转换工具：Krillin AI，集音视频翻译、配音、语音克隆于一体视频输入到输出自动化，一键完成字幕提取、翻译、配音、视频合成支持B站，小红书，抖音，视频号，快手，YouTube，TikTok等多个平台输入支持中，英，日，德，土耳其语等输出支持中英俄法等56种语言翻译可本地部署，是内容创作者们比较实用的一款工具 #AI配音 #AI字幕翻译 #AI视频配音转换

一站式视频多语言转换工具：Krillin AI，集音视频翻译、配音、语音克隆于一体视频输入到输出自动化，一键完成字幕提取、翻译、配音、视频合成支持B站，小红书，抖音，视频号，快手，YouTube，TikTok等多个平台输入支持中，英，日，德，土耳其语等输出支持中英俄法等56种语言翻译可本地部署，是内容创作者们比较实用的一款工具 #AI配音 #AI字幕翻译 #AI视频配音转换

76,388 次观看 • 1 年前