Gorden Sun's banner

Gorden Sun

@Gorden_Sun • 59,753 subscribers

只发AI相关信息，个人维护的AI资讯日报（已连续日更3年）👇

Shorts

包饺子。Seedance 2.0还是太领先了。

包饺子。Seedance 2.0还是太领先了。

140,852 görüntüleme

你问别人怎么做的，我给你默默做好了CuiMao 在线玩： Github：

你问别人怎么做的，我给你默默做好了CuiMao 在线玩： Github：

99,624 görüntüleme

Grok跟Seedance一样，训练视频的时候，也把人声训练进去了，而且写中文的能力相当不错。

Grok跟Seedance一样，训练视频的时候，也把人声训练进去了，而且写中文的能力相当不错。

35,287 görüntüleme

我现在已经不在即梦用Seedance 2.0了，即使是年付最高会员也得排好几个小时才出视频。改在Yapper用，目前仅对邀请的创作者开放Seedance 2.0模型，15分钟就能生成15秒长度的视频，爽爆了。如果你是有影响力的创作者，我可以帮你引荐。Yapper 官网：

我现在已经不在即梦用Seedance 2.0了，即使是年付最高会员也得排好几个小时才出视频。改在Yapper用，目前仅对邀请的创作者开放Seedance 2.0模型，15分钟就能生成15秒长度的视频，爽爆了。如果你是有影响力的创作者，我可以帮你引荐。Yapper 官网：

90,265 görüntüleme

阿里的欢乐马发布了，效果远远比不上Seedance 2.0，而且价格也不便宜。使用地址：下方视频1是Seedance 2.0生成，视频2是欢乐马生成。

阿里的欢乐马发布了，效果远远比不上Seedance 2.0，而且价格也不便宜。使用地址：下方视频1是Seedance 2.0生成，视频2是欢乐马生成。

53,843 görüntüleme

有道开源Confucius4-TTS 1.3B大小的TTS模型，支持多语言，支持语音克隆，效果不错，速度特别快。 Github：在线使用：

有道开源Confucius4-TTS 1.3B大小的TTS模型，支持多语言，支持语音克隆，效果不错，速度特别快。 Github：在线使用：

20,621 görüntüleme

太好玩了，就是Seedance 2.0的汉字还是经常出错。

太好玩了，就是Seedance 2.0的汉字还是经常出错。

22,947 görüntüleme

火山引擎目前可以免费用Seedance 2.0，能免费生成8次15秒长度的视频，速度极快不用排队。使用地址：

火山引擎目前可以免费用Seedance 2.0，能免费生成8次15秒长度的视频，速度极快不用排队。使用地址：

65,641 görüntüleme

Fable 5的创意能力很好，写的视频元提示词很到位

Fable 5的创意能力很好，写的视频元提示词很到位

18,840 görüntüleme

帮你戒网瘾，很多人沉迷手游抽卡，我干脆做了个只有抽卡的游戏，就是抽二次元角色和图鉴，没任何其他游戏功能。也是Cursor一句话提示词出的。在线玩： Github：

帮你戒网瘾，很多人沉迷手游抽卡，我干脆做了个只有抽卡的游戏，就是抽二次元角色和图鉴，没任何其他游戏功能。也是Cursor一句话提示词出的。在线玩： Github：

22,342 görüntüleme

AI创意视频：小心那个PPT里的人

AI创意视频：小心那个PPT里的人

18,262 görüntüleme

《Veo 3 Prompt完全指南》结合我的使用经验，整理了Replicate和谷歌官方的Veo 3指南，写了一篇文章详细介绍Veo 3的提示词写法。

《Veo 3 Prompt完全指南》结合我的使用经验，整理了Replicate和谷歌官方的Veo 3指南，写了一篇文章详细介绍Veo 3的提示词写法。

111,254 görüntüleme

One-to-All Animation：让照片动起来能让照片人物，按参考视频的动作动起来，基于Wan2.1训练，效果比Wan2.2 Animate还好一些，支持大幅度的动作复刻。 Github： ComfyUI工作流：

One-to-All Animation：让照片动起来能让照片人物，按参考视频的动作动起来，基于Wan2.1训练，效果比Wan2.2 Animate还好一些，支持大幅度的动作复刻。 Github： ComfyUI工作流：

62,961 görüntüleme

HeyGen实现流程中的语音克隆，现在有最佳开源方案了：XTTS v2，单样本即可克隆语音，效果见视频。现在已经能实现：让一个明星的采访视频，变成他讲述任意小故事（内容可以GPT编）的视频，声音是他的声音，嘴型也能对上。 XTTS v2在线体验： Github：

HeyGen实现流程中的语音克隆，现在有最佳开源方案了：XTTS v2，单样本即可克隆语音，效果见视频。现在已经能实现：让一个明星的采访视频，变成他讲述任意小故事（内容可以GPT编）的视频，声音是他的声音，嘴型也能对上。 XTTS v2在线体验： Github：

170,197 görüntüleme

AI创意视频《小心滤镜》

AI创意视频《小心滤镜》

13,353 görüntüleme

Fun-CineForge：阿里开源的AI生成影视配音输入视频+文本，AI生成配音，能识别多个角色，能按要求设置配音风格，生成的配音节奏与视频里说话的唇形同步。演示视频的声音效果非常好。项目地址：模型：

Fun-CineForge：阿里开源的AI生成影视配音输入视频+文本，AI生成配音，能识别多个角色，能按要求设置配音风格，生成的配音节奏与视频里说话的唇形同步。演示视频的声音效果非常好。项目地址：模型：

26,823 görüntüleme

推上的朋友应该用不到，但是很有必要给国内的朋友做一个免费、双击就用的小白版本nano banana。我做了一个，无需登录、无需VPN、API Key我都覆盖了。双击打开本地html文件，输入提示词、上传要编辑的图片，几秒出结果。

推上的朋友应该用不到，但是很有必要给国内的朋友做一个免费、双击就用的小白版本nano banana。我做了一个，无需登录、无需VPN、API Key我都覆盖了。双击打开本地html文件，输入提示词、上传要编辑的图片，几秒出结果。

55,305 görüntüleme

B站上大分！IndexTTS2 名副其实的好！不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。

B站上大分！IndexTTS2 名副其实的好！不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。

52,940 görüntüleme

Grok上线Imagine 1.0版本了，可以生成10秒长度视频好，快，还免费。

Grok上线Imagine 1.0版本了，可以生成10秒长度视频好，快，还免费。

27,432 görüntüleme

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

ZOZO（日本最大服装电商）开源了他们内部的物理仿真接触求解器 ppf-contact-solver。这套工具专门解决布料、绳索、软体在仿真中的碰撞接触问题，能保证完全无穿透、面料拉伸严格不越界（不会像游戏一样穿模），单个场景能处理超过1.8亿个接触点，有Blender插件。 Github：

ZOZO（日本最大服装电商）开源了他们内部的物理仿真接触求解器 ppf-contact-solver。这套工具专门解决布料、绳索、软体在仿真中的碰撞接触问题，能保证完全无穿透、面料拉伸严格不越界（不会像游戏一样穿模），单个场景能处理超过1.8亿个接触点，有Blender插件。 Github：

665,248 görüntüleme • 1 ay önce

Kimi K3生成的效果，第一次生成的有明显缺陷，这是修复了一轮后的效果。快进快退实际还是有问题的。整体不错，但是速度太太太慢了，这么个前端任务跑了1个小时，Fable我记得也就20分钟。在线体验： Github：

Kimi K3生成的效果，第一次生成的有明显缺陷，这是修复了一轮后的效果。快进快退实际还是有问题的。整体不错，但是速度太太太慢了，这么个前端任务跑了1个小时，Fable我记得也就20分钟。在线体验： Github：

37,049 görüntüleme • 4 gün önce

我用Seedance 2.0半天做的视频，你就说牛逼不牛逼吧？教程放公众号文章里了：

我用Seedance 2.0半天做的视频，你就说牛逼不牛逼吧？教程放公众号文章里了：

312,193 görüntüleme • 5 ay önce

再开源一个技能：一键生成可视化数学讲解视频提示词：安装这个Skill：然后使用这个Skill给小学生讲解：给小学生讲解□+28=□x5 下方2个视频是我生成的效果。

再开源一个技能：一键生成可视化数学讲解视频提示词：安装这个Skill：然后使用这个Skill给小学生讲解：给小学生讲解□+28=□x5 下方2个视频是我生成的效果。

81,694 görüntüleme • 1 ay önce

开源版本及教程：在线体验： Github：

开源版本及教程：在线体验： Github：

106,201 görüntüleme • 2 ay önce

史上最强原生PPT Skill，更适合中国宝宝使用我创建的这个Skill，一句话即可生成复杂、豪华、可编辑的PPT文件。试一次，要是生成的效果不让你震惊，你来打我。几大特色： 1、能生成信息密度高、排版复杂、看起来高大上的PPT，也支持生成简约、商务风格的PPT。适合国企、互联网大厂使用。 2、兼容所有模型，DeepSeek、小米Mimo、Claude、GPT均实测过，国产模型也能完成的非常好。 3、技能自动更新机制：如果我更新了可选用的PPT模板，使用技能时会自动更新技能。技能像软件一样可以更新使用方法：在当前文件夹安装这个Skill：然后做一个复杂、豪华的PPT，来介绍XXX项目

史上最强原生PPT Skill，更适合中国宝宝使用我创建的这个Skill，一句话即可生成复杂、豪华、可编辑的PPT文件。试一次，要是生成的效果不让你震惊，你来打我。几大特色： 1、能生成信息密度高、排版复杂、看起来高大上的PPT，也支持生成简约、商务风格的PPT。适合国企、互联网大厂使用。 2、兼容所有模型，DeepSeek、小米Mimo、Claude、GPT均实测过，国产模型也能完成的非常好。 3、技能自动更新机制：如果我更新了可选用的PPT模板，使用技能时会自动更新技能。技能像软件一样可以更新使用方法：在当前文件夹安装这个Skill：然后做一个复杂、豪华的PPT，来介绍XXX项目

83,040 görüntüleme • 1 ay önce

HeyGen HeyGen太他妈牛了，在排队了7000个视频之后，我的视频翻译完成了，效果绝对目前最好，没有之一。口型完美，卡点和嘴型都对的上。声音克隆稍有缺陷但也很好了，毕竟HeyGen只通过40秒的视频来克隆音频。如果刻意对比原视频，情感还原度稍有欠缺。只需上传一段视频即可实现！！！

HeyGen HeyGen太他妈牛了，在排队了7000个视频之后，我的视频翻译完成了，效果绝对目前最好，没有之一。口型完美，卡点和嘴型都对的上。声音克隆稍有缺陷但也很好了，毕竟HeyGen只通过40秒的视频来克隆音频。如果刻意对比原视频，情感还原度稍有欠缺。只需上传一段视频即可实现！！！

1,190,386 görüntüleme • 2 yıl önce

🚀 Kling 1.6 has landed, and it’s a game-changer! 📷 Kling AI Forget boring, wrong results—this version delivers spot-on outcomes that match your vision. Need a car kicking up dust? Done. Just as you imagined. Big or small, your ideas come to life with Kling 1.6. Try it now! 📷#KlingAIupdate

🚀 Kling 1.6 has landed, and it’s a game-changer! 📷 Kling AI Forget boring, wrong results—this version delivers spot-on outcomes that match your vision. Need a car kicking up dust? Done. Just as you imagined. Big or small, your ideas come to life with Kling 1.6. Try it now! 📷#KlingAIupdate

337,663 görüntüleme • 1 yıl önce

Dokie：一键生成可编辑的PPT 如果你的老板让你给他汇报openclaw（Clawdbot）是什么，你可以直接用我这个PPT了。在Dokie里，上传要转换成PPT的文档，输入内容和排版要求，一键就能生成PPT。特点是可编辑、可导出pptx文件、自带动画，效果非常丝滑。采用的是HTML+SVG方案，没有使用Banana直接出图，但是也能实现逻辑复杂的布局方案，而且有Banana无法实现的可编辑和动画效果，平衡了美观性和可维护性，是非常巧妙的方案。PPT播放效果见下方视频。

Dokie：一键生成可编辑的PPT 如果你的老板让你给他汇报openclaw（Clawdbot）是什么，你可以直接用我这个PPT了。在Dokie里，上传要转换成PPT的文档，输入内容和排版要求，一键就能生成PPT。特点是可编辑、可导出pptx文件、自带动画，效果非常丝滑。采用的是HTML+SVG方案，没有使用Banana直接出图，但是也能实现逻辑复杂的布局方案，而且有Banana无法实现的可编辑和动画效果，平衡了美观性和可维护性，是非常巧妙的方案。PPT播放效果见下方视频。

90,755 görüntüleme • 5 ay önce

Tabbit：光年之外的AI浏览器美团收购的光年之外团队出的AI浏览器，支持Agent，支持Skill，国内版用国内模型，国外版可以用海外模型。官方介绍文章：国内版官网：国际版官网：

Tabbit：光年之外的AI浏览器美团收购的光年之外团队出的AI浏览器，支持Agent，支持Skill，国内版用国内模型，国外版可以用海外模型。官方介绍文章：国内版官网：国际版官网：

77,953 görüntüleme • 4 ay önce

Claude上线Computer Use功能能完全自动化操作你的电脑，这还只是第一个版本，效果就已经非常稳了。有MCP的应用，优先通过MCP来操作；没有MCP的，直接截屏一步步通过GUI操作，理论上讲能操作任意应用。单次执行任务可以长达几十分钟，而且是真的能完成。牛，太牛了。我下达的命令：打开微信，根据微信群“Gorden的AI交流群”里的最近30条消息，写一段话承接群里的消息，然后抛出新的可以讨论的话题，并把以上内容直接发送到群里。跑了20分钟完成了，我拍了整个过程，视频无删减只有加速。结合Dispatch，可以实现手机遥控电脑操作其他应用；结合定时任务，可以每天定时操作应用（这2个功能是之前就已经上线的）目前还有几个明显的缺点： 1、通过截屏操作太慢了，一步步截屏和识别非常费时间；MCP会好很多，以后应用CLI化会更好； 2、费token，上面的任务，费了我Pro订阅的30%的5h额度，就只是发了这么一条消息； 3、权限机制目前比较保守，需要你反复授权；

Claude上线Computer Use功能能完全自动化操作你的电脑，这还只是第一个版本，效果就已经非常稳了。有MCP的应用，优先通过MCP来操作；没有MCP的，直接截屏一步步通过GUI操作，理论上讲能操作任意应用。单次执行任务可以长达几十分钟，而且是真的能完成。牛，太牛了。我下达的命令：打开微信，根据微信群“Gorden的AI交流群”里的最近30条消息，写一段话承接群里的消息，然后抛出新的可以讨论的话题，并把以上内容直接发送到群里。跑了20分钟完成了，我拍了整个过程，视频无删减只有加速。结合Dispatch，可以实现手机遥控电脑操作其他应用；结合定时任务，可以每天定时操作应用（这2个功能是之前就已经上线的）目前还有几个明显的缺点： 1、通过截屏操作太慢了，一步步截屏和识别非常费时间；MCP会好很多，以后应用CLI化会更好； 2、费token，上面的任务，费了我Pro订阅的30%的5h额度，就只是发了这么一条消息； 3、权限机制目前比较保守，需要你反复授权；

49,090 görüntüleme • 3 ay önce

TinyFish：独立开发者必备的Web Agent API Web Agent是什么概念？相当于你同时雇了一批大学生，按你的文字要求上网点点点访问网页，找到你要的内容，然后按统一的格式把内容汇总起来。 Web Agent不是搜索，搜索只能获取搜索引擎返回的数据，不能一层层点击页面获取到深层的内容；Web Agent也不是Browser use，Browser use同时只能执行一个任务，Web Agent可以大规模并行任务。 Web Agent能做什么？ · 从多个电商网站查找商品价格、库存 · 查询酒店、餐厅是否营业、可预约时间 · 自动化网页测试下图是搜索、Browser use和Web Agent的能力对比，视频是Web Agent运行流程演示，实际调用API时是并行任务、响应速度快的多

TinyFish：独立开发者必备的Web Agent API Web Agent是什么概念？相当于你同时雇了一批大学生，按你的文字要求上网点点点访问网页，找到你要的内容，然后按统一的格式把内容汇总起来。 Web Agent不是搜索，搜索只能获取搜索引擎返回的数据，不能一层层点击页面获取到深层的内容；Web Agent也不是Browser use，Browser use同时只能执行一个任务，Web Agent可以大规模并行任务。 Web Agent能做什么？ · 从多个电商网站查找商品价格、库存 · 查询酒店、餐厅是否营业、可预约时间 · 自动化网页测试下图是搜索、Browser use和Web Agent的能力对比，视频是Web Agent运行流程演示，实际调用API时是并行任务、响应速度快的多

60,741 görüntüleme • 5 ay önce

MiniCPM-o4.5：首个开源全模态、全双工模型全模态：支持视频、音频、图片、文本输入，支持音频、文本输出。能实时生成音频，支持语音克隆，支持生成无限长度音频。全双工：不是一问一答，而是能边听边说。支持打断，不仅你可以打断MiniCPM-o4.5说话，MiniCPM-o4.5也会自主决策打断你说话，像是两个真实的人在沟通。这是首个能打断人类说话的模型，Gemini 3 Flash能实现你打断AI说话，但是AI不能主动打断你说话。完全开源，9B参数，本地即可运行。OpenBMB 模型：

MiniCPM-o4.5：首个开源全模态、全双工模型全模态：支持视频、音频、图片、文本输入，支持音频、文本输出。能实时生成音频，支持语音克隆，支持生成无限长度音频。全双工：不是一问一答，而是能边听边说。支持打断，不仅你可以打断MiniCPM-o4.5说话，MiniCPM-o4.5也会自主决策打断你说话，像是两个真实的人在沟通。这是首个能打断人类说话的模型，Gemini 3 Flash能实现你打断AI说话，但是AI不能主动打断你说话。完全开源，9B参数，本地即可运行。OpenBMB 模型：

55,078 görüntüleme • 5 ay önce

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

64,434 görüntüleme • 6 ay önce

《Veo 3 Prompt完全指南》结合我的使用经验，整理了Replicate和谷歌官方的Veo 3指南，写了一篇文章详细介绍Veo 3的提示词写法。

《Veo 3 Prompt完全指南》结合我的使用经验，整理了Replicate和谷歌官方的Veo 3指南，写了一篇文章详细介绍Veo 3的提示词写法。

111,254 görüntüleme • 1 yıl önce

我草ElevenLabs的v3语音模型，已经是Next Level级别了，超越Fish Audio成为最佳中文语音模型，同时也是多语言的首选模型。不知道是不是因为Alpha阶段的原因，现在没有屏蔽NSFW内容。不要在公开场合外放视频！不要在公开场合外放视频！不要在公开场合外放视频！

我草ElevenLabs的v3语音模型，已经是Next Level级别了，超越Fish Audio成为最佳中文语音模型，同时也是多语言的首选模型。不知道是不是因为Alpha阶段的原因，现在没有屏蔽NSFW内容。不要在公开场合外放视频！不要在公开场合外放视频！不要在公开场合外放视频！

95,217 görüntüleme • 1 yıl önce

Gemini Pro 3已经上线了，绝对的新王，不管懂不懂代码都可以用它写出极具美感的网页，每个人都值得一试。例如生成会转的电风扇SVG、画手机、画MacBook、漂亮交互的天气卡片。我视频里效果的提示词：画一个极具现代设计美学的时装秀的网站，要求有奢华的交互，前卫的设计除了官方Gemini渠道外，我推荐Zenmux，目前免费（每天限量）且国内直连可用，可以在线使用或API调用。黑五期间充值有优惠，额外送20%金额，价格比OpenRouter低。现在就已经能用，地址：

Gemini Pro 3已经上线了，绝对的新王，不管懂不懂代码都可以用它写出极具美感的网页，每个人都值得一试。例如生成会转的电风扇SVG、画手机、画MacBook、漂亮交互的天气卡片。我视频里效果的提示词：画一个极具现代设计美学的时装秀的网站，要求有奢华的交互，前卫的设计除了官方Gemini渠道外，我推荐Zenmux，目前免费（每天限量）且国内直连可用，可以在线使用或API调用。黑五期间充值有优惠，额外送20%金额，价格比OpenRouter低。现在就已经能用，地址：

58,825 görüntüleme • 8 ay önce

Articraft：用Agent写代码批量生成铰接3D资产铰接3D资产是指类似关节的、可活动的物体，例如笔记比电脑翻盖的地方、抽屉滑轨、剪刀等，这类物体对机器人仿真有重要作用。 Articraft使用一套面向LLM的领域SDK加上一个极简的Agent Harness，使得通用LLM无需微调即可高质量生成铰接资产，成本低，可大量生成。 Github：

Articraft：用Agent写代码批量生成铰接3D资产铰接3D资产是指类似关节的、可活动的物体，例如笔记比电脑翻盖的地方、抽屉滑轨、剪刀等，这类物体对机器人仿真有重要作用。 Articraft使用一套面向LLM的领域SDK加上一个极简的Agent Harness，使得通用LLM无需微调即可高质量生成铰接资产，成本低，可大量生成。 Github：

19,507 görüntüleme • 2 ay önce

RF-DETR：开源最佳实时识别模型实时识别画面中的物体，准确率和速度优于YOLO系列模型，开源可商用。官方介绍： Github：

RF-DETR：开源最佳实时识别模型实时识别画面中的物体，准确率和速度优于YOLO系列模型，开源可商用。官方介绍： Github：

92,703 görüntüleme • 1 yıl önce

Gemini 3 Flash已经能用了相比Pro版本，速度提升显著，前端效果基本没变，美学依旧领先于其他模型。 ZenMux首发，目前免费，使用地址：

Gemini 3 Flash已经能用了相比Pro版本，速度提升显著，前端效果基本没变，美学依旧领先于其他模型。 ZenMux首发，目前免费，使用地址：

45,340 görüntüleme • 7 ay önce