AIGCLINK's banner
AIGCLINK's profile picture

AIGCLINK

@aigclink36,193 subscribers

致力于让每个想拥抱AI的人都能找到适合自己的AI产品,助力企业定制AIGC应用

Shorts

谷歌的升级版医疗模型出来了,开源了:MedGemma 1.5,可离线运行 MedGemma 1.5在上一代基础上,增加了对3D CT、MRI扫描,以及全切片病理图像的支持 能分析胸片时间序列,这对疾病进展监测比较有用;还能解剖定位,在X光片中识别特定的解剖结构 能从医疗实验室报告中提取结构化数据,这对于整合患者信息、辅助决策很方便 另外,配套还发了一款医疗ASR:MedASR 专为医疗场景微调的语音识别模型,胸片口述词错误率 5.2%,比Whisper-large-v3降低了58% #AI医疗 #MedGemma #MedASR

谷歌的升级版医疗模型出来了,开源了:MedGemma 1.5,可离线运行 MedGemma 1.5在上一代基础上,增加了对3D CT、MRI扫描,以及全切片病理图像的支持 能分析胸片时间序列,这对疾病进展监测比较有用;还能解剖定位,在X光片中识别特定的解剖结构 能从医疗实验室报告中提取结构化数据,这对于整合患者信息、辅助决策很方便 另外,配套还发了一款医疗ASR:MedASR 专为医疗场景微调的语音识别模型,胸片口述词错误率 5.2%,比Whisper-large-v3降低了58% #AI医疗 #MedGemma #MedASR

146,730 次观看

阿里昨晚放出了最新款TTS:Qwen3-TTS,秒级克隆、一句话设计新音色、实时流式输出,0.6B 可跨语种多语,中文克隆后直接说英日韩德法俄西葡意+ 四川话、北京话等方言,音色不变 Dual-Track双轨架构,输入1个字就能出首包音频,端到端延迟97 ms,可以做直播、实时翻译、AI客服了 用它做有声书,可以一人分饰多角,情绪、方言全有了 有1.7B和0.6B两个尺寸,1.7B性能最优,具备控制能力,0.6B均衡性能与效率 #tts #Qwen3TTS

阿里昨晚放出了最新款TTS:Qwen3-TTS,秒级克隆、一句话设计新音色、实时流式输出,0.6B 可跨语种多语,中文克隆后直接说英日韩德法俄西葡意+ 四川话、北京话等方言,音色不变 Dual-Track双轨架构,输入1个字就能出首包音频,端到端延迟97 ms,可以做直播、实时翻译、AI客服了 用它做有声书,可以一人分饰多角,情绪、方言全有了 有1.7B和0.6B两个尺寸,1.7B性能最优,具备控制能力,0.6B均衡性能与效率 #tts #Qwen3TTS

123,048 次观看

清华最新的开源项目,OpenMAIC:AI多智能体互动课堂,给定任何主题或文档,AI自动生成完整的互动课程 有趣的是,里面有AI老师和AI同学,类似真实的虚拟教室,不止有AI老师讲课,还有AI同学陪学 集成了OpenClaw,可以直接在飞书、Slack、Telegram里生成课堂 给定主题一键生成课堂内容,包括幻灯片讲义、测验、HTML交互式模拟、项目制学习(PBL) 课堂中的AI老师和AI同学可以 语音讲解 在白板上画图、写公式 主动发起讨论或点名让学生发言 进行圆桌辩论 OpenMAIC相当于一个AI原生的教育基础设施,从慕课看视频时代升级到了和AI 一起上课的虚拟课堂时代 #AI虚拟课堂 #OpenMAIC

清华最新的开源项目,OpenMAIC:AI多智能体互动课堂,给定任何主题或文档,AI自动生成完整的互动课程 有趣的是,里面有AI老师和AI同学,类似真实的虚拟教室,不止有AI老师讲课,还有AI同学陪学 集成了OpenClaw,可以直接在飞书、Slack、Telegram里生成课堂 给定主题一键生成课堂内容,包括幻灯片讲义、测验、HTML交互式模拟、项目制学习(PBL) 课堂中的AI老师和AI同学可以 语音讲解 在白板上画图、写公式 主动发起讨论或点名让学生发言 进行圆桌辩论 OpenMAIC相当于一个AI原生的教育基础设施,从慕课看视频时代升级到了和AI 一起上课的虚拟课堂时代 #AI虚拟课堂 #OpenMAIC

40,675 次观看

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型:OmniShow,妥妥的电商广告专用模型 全模态,一个模型通吃图+音+姿势+文本输入 任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式,目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的 人脸保持、物理合理性、表现力及口型同步看起来效果都还可以 原生长镜头生成,最长可生成10秒连续视频 目前代码还没放出来 #人物视频生成模型 #OmniShow #电商视频生成

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型:OmniShow,妥妥的电商广告专用模型 全模态,一个模型通吃图+音+姿势+文本输入 任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式,目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的 人脸保持、物理合理性、表现力及口型同步看起来效果都还可以 原生长镜头生成,最长可生成10秒连续视频 目前代码还没放出来 #人物视频生成模型 #OmniShow #电商视频生成

22,556 次观看

一款主动式AI渗透测试工具:shannon,给它源码+测试网址,它自动把网站黑一遍,然后告诉你它咋黑的 在无提示有源码的XBOW基准中成功率96.15% 开发vibe-coding天天上线,Shannon也可以让每次发版都能“一键红队” 它用Claude跑侦察、并行漏洞分析、攻击、写报告,全程零人工,能打出SQL注入、XSS、SSRF、越权等20+真实漏洞并给出可直接复制的PoC 注意它会真的改数据、注册用户,千万别在生产环境跑 Lite版开源AGPL-3.0 #shannon #AI黑客

一款主动式AI渗透测试工具:shannon,给它源码+测试网址,它自动把网站黑一遍,然后告诉你它咋黑的 在无提示有源码的XBOW基准中成功率96.15% 开发vibe-coding天天上线,Shannon也可以让每次发版都能“一键红队” 它用Claude跑侦察、并行漏洞分析、攻击、写报告,全程零人工,能打出SQL注入、XSS、SSRF、越权等20+真实漏洞并给出可直接复制的PoC 注意它会真的改数据、注册用户,千万别在生产环境跑 Lite版开源AGPL-3.0 #shannon #AI黑客

49,918 次观看

这个工具火了,可以用自然语言一键生成安卓和iOS App,Emergent刚上的新功能 以前可以用vibecoding做网页,现在直接出Android / iOS 安装包,比如“帮我做个记账App”即可 另外还上了一个Emergent Pro模式,Agent能力更强,能处理错误、动态调整计划,内置Linux 虚拟机,可访问互联网 网友反馈Emergent的一键生成体验比较好,输入需求即可获得完整应用,从规划到编程、测试、调试和部署,端到端自动化 #AIagent #Emergent #APP生成工具

这个工具火了,可以用自然语言一键生成安卓和iOS App,Emergent刚上的新功能 以前可以用vibecoding做网页,现在直接出Android / iOS 安装包,比如“帮我做个记账App”即可 另外还上了一个Emergent Pro模式,Agent能力更强,能处理错误、动态调整计划,内置Linux 虚拟机,可访问互联网 网友反馈Emergent的一键生成体验比较好,输入需求即可获得完整应用,从规划到编程、测试、调试和部署,端到端自动化 #AIagent #Emergent #APP生成工具

64,099 次观看

阿里刚刚开源了TTS:Fun-CosyVoice3 0.5B,zero-shot音色克隆,可本地部署 还开源了款ASR【Fun-ASR-Nano 0.8B】,Fun-ASR的轻量化版本,推理成本更低,可以本地及定制化微调 另外,Fun-CosyVoice3模型做了升级,首包延迟比之前降低了50%,WER降低了56.4%,复杂场景字符错误率降低了26% 支持9种通用语言、18种中文方言、9种情感控制,可以跨语种音色复刻,比如说,用一段普通话录音可生成粤语、日语、英语等 支持双向流式合成,“输入即发声”,这个适用于语音助手、直播配音、无障碍阅读等等实时场景 Fun-ASR也升级了,噪声场景下准确率到了93%,新增歌词与说唱识别能力,支持31种语言自由混说无需预先指定语种 覆盖7大方言和26种地方口音,流式识别模型的首字延迟降低到了160ms #TTS #ASR

阿里刚刚开源了TTS:Fun-CosyVoice3 0.5B,zero-shot音色克隆,可本地部署 还开源了款ASR【Fun-ASR-Nano 0.8B】,Fun-ASR的轻量化版本,推理成本更低,可以本地及定制化微调 另外,Fun-CosyVoice3模型做了升级,首包延迟比之前降低了50%,WER降低了56.4%,复杂场景字符错误率降低了26% 支持9种通用语言、18种中文方言、9种情感控制,可以跨语种音色复刻,比如说,用一段普通话录音可生成粤语、日语、英语等 支持双向流式合成,“输入即发声”,这个适用于语音助手、直播配音、无障碍阅读等等实时场景 Fun-ASR也升级了,噪声场景下准确率到了93%,新增歌词与说唱识别能力,支持31种语言自由混说无需预先指定语种 覆盖7大方言和26种地方口音,流式识别模型的首字延迟降低到了160ms #TTS #ASR

35,020 次观看

成会玩儿,用MCP 让Claude控制ChatGPT 4o,自动生成吉卜力风格的分镜 代码作者Lovis Odin已开源见下条

成会玩儿,用MCP 让Claude控制ChatGPT 4o,自动生成吉卜力风格的分镜 代码作者Lovis Odin已开源见下条

66,130 次观看

一款5分钟即上线企业级AI应用的平台:Zion(国外版Momen),比coze、dify更强大 Zion是首个将AI Agent、前端、后端、数据库整合的AI应用构建托管平台,支持agent构建、托管,发布为小程序、网站、saas服务等 (重点是支持支付配置、登录注册都给封装好了,直接发布就可以提供agent收费服务,国外版叫Momen,国内版叫Zion) zion: Momen: youtube: #Zion #Momen #AIagent

一款5分钟即上线企业级AI应用的平台:Zion(国外版Momen),比coze、dify更强大 Zion是首个将AI Agent、前端、后端、数据库整合的AI应用构建托管平台,支持agent构建、托管,发布为小程序、网站、saas服务等 (重点是支持支付配置、登录注册都给封装好了,直接发布就可以提供agent收费服务,国外版叫Momen,国内版叫Zion) zion: Momen: youtube: #Zion #Momen #AIagent

76,834 次观看

让OpenClaw越用越聪明的自动学习系统:MetaClaw,即插即用,实时从对话中学习 和AI聊天,MetaClaw会在后台自动总结对话经验,提炼成技能注入后续对话,无需额外操作 相当于是在LLM和OpenClaw 之间架一个代理层,每轮对话自动注入最相关的技能指令,即时提升表现 每次对话结束后,会自动总结提炼新技能,技能库随着使用增长 全异步架构,服务、评分、训练解耦,AI正常响应的同时后台处理 支持两种模式,轻量技能模式无需GPU,RL模式可在Tinker云端训练并热更新权重 #MetaClaw #RL #AI助手训练 #openclaw

让OpenClaw越用越聪明的自动学习系统:MetaClaw,即插即用,实时从对话中学习 和AI聊天,MetaClaw会在后台自动总结对话经验,提炼成技能注入后续对话,无需额外操作 相当于是在LLM和OpenClaw 之间架一个代理层,每轮对话自动注入最相关的技能指令,即时提升表现 每次对话结束后,会自动总结提炼新技能,技能库随着使用增长 全异步架构,服务、评分、训练解耦,AI正常响应的同时后台处理 支持两种模式,轻量技能模式无需GPU,RL模式可在Tinker云端训练并热更新权重 #MetaClaw #RL #AI助手训练 #openclaw

15,617 次观看

英伟达版的“Banana”,英伟达开源了一款物理级图像编辑模型:ChronoEdit-14B,静态图+一句话,4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”,它能理解动作,比如说“推倒”、“拿起”这种动作,可以根据它学到的物理常识,画出这个动作发生后,世界应该变成什么样子 8 步扩散完成一次图像编辑,在H100上约4秒一张图 从效果看,预测动作发生结果的能力比较强,改变姿势后,人物、服装、背景风格的一致性也保持的比较好,光影、反射效果处理的也比较符合逻辑 可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

英伟达版的“Banana”,英伟达开源了一款物理级图像编辑模型:ChronoEdit-14B,静态图+一句话,4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”,它能理解动作,比如说“推倒”、“拿起”这种动作,可以根据它学到的物理常识,画出这个动作发生后,世界应该变成什么样子 8 步扩散完成一次图像编辑,在H100上约4秒一张图 从效果看,预测动作发生结果的能力比较强,改变姿势后,人物、服装、背景风格的一致性也保持的比较好,光影、反射效果处理的也比较符合逻辑 可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

26,735 次观看

一款轻量级、能在移动设备上实时运行的数字人模型:Ultralight-Digital-Human 需要准备一段3到5分钟的视频,视频中的人物需要全程露脸,声音清晰无噪音 项目提供了一个康辉老师的口播示例,整体看起来流畅自然,没有明显的卡顿 github: #数字人 (视频做为该项目效果演示,侵删)

一款轻量级、能在移动设备上实时运行的数字人模型:Ultralight-Digital-Human 需要准备一段3到5分钟的视频,视频中的人物需要全程露脸,声音清晰无噪音 项目提供了一个康辉老师的口播示例,整体看起来流畅自然,没有明显的卡顿 github: #数字人 (视频做为该项目效果演示,侵删)

55,105 次观看

一个AI提示词库资源,包括写作和内容创作、商业分析和决策、创意生成、编程和技术开发、市场营销等在内的500多个提示词 可以复制粘贴使用,也可以根据自己需求修改优化 资源地址见下条 #AI提示词 #Prompt #PromptLibrary

一个AI提示词库资源,包括写作和内容创作、商业分析和决策、创意生成、编程和技术开发、市场营销等在内的500多个提示词 可以复制粘贴使用,也可以根据自己需求修改优化 资源地址见下条 #AI提示词 #Prompt #PromptLibrary

39,640 次观看

牛,30.5K星,收集了包括Cursor、Manus、Devin、Windsurf等在内的AI工具系统提示词库 库里提供了6500+行、9个工具的系统提示词参考,包括开源和闭源的,可以了解不同AI工具的设计思路,用来学习研究 v0、Manus、Cursor、Same、Lovable、Devin、Replit Agent、Windsurf Agent以及VSCode Agent 这9个 Cursor的提示词强调了代码修改的安全性、可用性以及工具使用规范,来约束AI减少幻觉;Manus也有200多行 #提示词 #AI编程助手 #Cursor #Manus

牛,30.5K星,收集了包括Cursor、Manus、Devin、Windsurf等在内的AI工具系统提示词库 库里提供了6500+行、9个工具的系统提示词参考,包括开源和闭源的,可以了解不同AI工具的设计思路,用来学习研究 v0、Manus、Cursor、Same、Lovable、Devin、Replit Agent、Windsurf Agent以及VSCode Agent 这9个 Cursor的提示词强调了代码修改的安全性、可用性以及工具使用规范,来约束AI减少幻觉;Manus也有200多行 #提示词 #AI编程助手 #Cursor #Manus

39,825 次观看

酷,浙大、vivo最新出的一款视频虚拟试衣模型:MagicTryOn,服装的时空一致性、稳定性、服装细节都保持的不错,效果可以直接用于电商广告了 支持图像试穿、视频试穿,以及自定义试穿 擅长在比如跳舞这种人体大幅度运动,和复杂场景中试穿 具备泛化能力,可以在玩偶上进行虚拟试衣 其用扩散Transformer取代U-Net架构,来提升模型的表达能力;结合全自注意力机制联合建模视频的时空一致性,确保试衣效果在时间和空间维度上自然流畅 #虚拟试穿 #MagicTryOn #tryon #AI穿衣

酷,浙大、vivo最新出的一款视频虚拟试衣模型:MagicTryOn,服装的时空一致性、稳定性、服装细节都保持的不错,效果可以直接用于电商广告了 支持图像试穿、视频试穿,以及自定义试穿 擅长在比如跳舞这种人体大幅度运动,和复杂场景中试穿 具备泛化能力,可以在玩偶上进行虚拟试衣 其用扩散Transformer取代U-Net架构,来提升模型的表达能力;结合全自注意力机制联合建模视频的时空一致性,确保试衣效果在时间和空间维度上自然流畅 #虚拟试穿 #MagicTryOn #tryon #AI穿衣

28,402 次观看

集截屏、OCR、搜索、翻译、贴图、屏幕翻译、以图搜图、滚动截屏、录屏于一身的工具:eSearch OCR后可调用翻译,跨平台支持 github:

集截屏、OCR、搜索、翻译、贴图、屏幕翻译、以图搜图、滚动截屏、录屏于一身的工具:eSearch OCR后可调用翻译,跨平台支持 github:

40,099 次观看

一个轻量级的数字人项目:MiniMates,支持语音和表情两种驱动模式,可在普通电脑上实时运行 one-shot单图驱动,最低只需要一张图片 可以说话、眨眼、转头、做表情等 支持实时交互,实时摄像头表情捕捉、实时头部跟踪、实时语音对话 github: #数字人 #AI虚拟人

一个轻量级的数字人项目:MiniMates,支持语音和表情两种驱动模式,可在普通电脑上实时运行 one-shot单图驱动,最低只需要一张图片 可以说话、眨眼、转头、做表情等 支持实时交互,实时摄像头表情捕捉、实时头部跟踪、实时语音对话 github: #数字人 #AI虚拟人

35,360 次观看

这数字人效果看起来也太真实了 这是一个叫Tavus的产品,整合了视觉、语音和情感智能,让虚拟人拥有情感表达、情感理解能力 由三个核心模型组成 1、Phoenix-3 实时全脸渲染模型,能生成复杂的微表情和情绪,包括眉毛、脸庞、眼睛等,可以实时调整表情 2、Raven-0 能持续处理视觉上下文,读取情绪,理解情绪变化,并智能回应 3、Sparrow-0 用来控制对话的节奏,判断什么时候该说、什么时候该听,响应速度快 #数字人 #虚拟人 #AI数字人 #Tavus

这数字人效果看起来也太真实了 这是一个叫Tavus的产品,整合了视觉、语音和情感智能,让虚拟人拥有情感表达、情感理解能力 由三个核心模型组成 1、Phoenix-3 实时全脸渲染模型,能生成复杂的微表情和情绪,包括眉毛、脸庞、眼睛等,可以实时调整表情 2、Raven-0 能持续处理视觉上下文,读取情绪,理解情绪变化,并智能回应 3、Sparrow-0 用来控制对话的节奏,判断什么时候该说、什么时候该听,响应速度快 #数字人 #虚拟人 #AI数字人 #Tavus

28,738 次观看

基于Llama 3.2的轻量级开源OCR工具:llama-ocr,不到5行代码搞定 目前支持图像处理,输出markdown格式,它复杂的图像,比如收据或包含表格/图表的PDF等能力优秀 支持本地图片和网络图片OCR Npm包: Hassan高产,期待logo生成器 ocr #llamaocr

基于Llama 3.2的轻量级开源OCR工具:llama-ocr,不到5行代码搞定 目前支持图像处理,输出markdown格式,它复杂的图像,比如收据或包含表格/图表的PDF等能力优秀 支持本地图片和网络图片OCR Npm包: Hassan高产,期待logo生成器 ocr #llamaocr

28,941 次观看

Videos