Jason Zhu's banner
Jason Zhu's profile picture

Jason Zhu

@GoSailGlobal32,643 subscribers

Cursor-certified 🌟|出海独立开发者 · Building AI Products in public Skills hub:https://t.co/x1VU8wWNj1 博客:https://t.co/ajYYIXGqFg 🤝 合作/培训 DM:GoSail_AI 📮:[email protected]

Shorts

GPT-Image-2 + Seedance 2.0目前已成AI视频标配 甚至可以根据给定图片推导过去和未来,制作storyboard,然后生成视频 使用方法: 1️⃣ 随便找一张图 2️⃣ 给以下提示词,然后制作storyboard 用以下提示词👇: Create a 3×3 cinematic storyboard grid based on the uploaded reference image. Use the uploaded image as the central moment of the story: Frame 5 must represent the exact “t” moment, matching the subject, scene, mood, composition, costume, environment, lighting style, and emotional tone of the reference image. The storyboard must show what happened before and after this moment as a time-based visual timeline. FRAME STRUCTURE: Frame 1: t-30: Establishing shot, the wider environment before the main event begins. Frame 2: t-10: The subject approaches or prepares for the key moment. Frame 3: t-5: Tension builds, body language and atmosphere lead toward the reference image. Frame 4: t-1: Final instant before the reference image, close emotional or action transition. Frame 5: t: Recreate the uploaded reference image as the central key frame. Frame 6: t+1: Immediate reaction or continuation right after the key moment. Frame 7: t+5: Alternate angle showing the consequence of the moment. Frame 8: t+15: Candid transition frame, natural movement, emotional aftermath. Frame 9: t+30: Strong final cinematic frame that clearly resolves the scene. STYLE: Ultra-realistic cinematic storyboard, 3×3 grid layout, cohesive visual tone across all frames, consistent character identity, consistent costume, consistent environment, cinematic lighting, shallow depth of field, realistic camera angles, natural motion continuity, no text labels, no numbers, no arrows, no captions inside the image. 3️⃣ seedance2.0 一键成片

GPT-Image-2 + Seedance 2.0目前已成AI视频标配 甚至可以根据给定图片推导过去和未来,制作storyboard,然后生成视频 使用方法: 1️⃣ 随便找一张图 2️⃣ 给以下提示词,然后制作storyboard 用以下提示词👇: Create a 3×3 cinematic storyboard grid based on the uploaded reference image. Use the uploaded image as the central moment of the story: Frame 5 must represent the exact “t” moment, matching the subject, scene, mood, composition, costume, environment, lighting style, and emotional tone of the reference image. The storyboard must show what happened before and after this moment as a time-based visual timeline. FRAME STRUCTURE: Frame 1: t-30: Establishing shot, the wider environment before the main event begins. Frame 2: t-10: The subject approaches or prepares for the key moment. Frame 3: t-5: Tension builds, body language and atmosphere lead toward the reference image. Frame 4: t-1: Final instant before the reference image, close emotional or action transition. Frame 5: t: Recreate the uploaded reference image as the central key frame. Frame 6: t+1: Immediate reaction or continuation right after the key moment. Frame 7: t+5: Alternate angle showing the consequence of the moment. Frame 8: t+15: Candid transition frame, natural movement, emotional aftermath. Frame 9: t+30: Strong final cinematic frame that clearly resolves the scene. STYLE: Ultra-realistic cinematic storyboard, 3×3 grid layout, cohesive visual tone across all frames, consistent character identity, consistent costume, consistent environment, cinematic lighting, shallow depth of field, realistic camera angles, natural motion continuity, no text labels, no numbers, no arrows, no captions inside the image. 3️⃣ seedance2.0 一键成片

34,160 Aufrufe

Videos

GoSailGlobal's profile picture

过年那段时间和 Neo Reid(AgentReach 作者 Neo)聊天,他给我演示了他怎么用龙虾 OpenClaw 最骚的是他演示的姿势:人在咖啡厅,掏出手机,远程操控他家里那台 PC 跑 OpenClaw 整个过程我看呆了 不是因为 OpenClaw 多强(它确实强),是因为他手机端的操控丝滑到我以为是在本地操作:4K 画面、144 帧、几乎零延迟,还能直接调出远程终端看 agent 跑到哪一步 我问他用的什么远控。他说:UU远程 没想到之前折腾的各种方案(免费的不丝滑、付费的限速)全部都是在凑合,回家立刻装了,用到了现在 说说我搬过去之后的真实工作流: 🔥 核心是 手机端远控电脑 + UU远程的终端功能 我家里那台 24h 在线的老macbook pro上挂着 Claude Code + OpenClaw + agent loop 出门时打开 UU远程 App → 手机里直接进远程命令行入口(不用配 SSH、不用挂穿透) → tmux attach → agent 跑到哪一步、reward 曲线、GPU 利用率,全在手机上看 用下来体感最特别的一点:流量真的省。我经常在地铁上挂 1G 流量包用一上午,等于把"看 agent 跑到哪了"这件事的成本压到接近 0 真要动手改代码的时候,iPad + 蓝牙键盘 / 手机 + UU远程的 4K 桌面远控顶上去,延迟低到我经常忘了不是本地 多屏协作把家里两块屏分别拖到 iPad 上更舒服 一开始我以为这种体验肯定要开会员。装完用了两天后翻了一下设置,发现没找到付费入口,不绑会员、不限画质、不限速、没广告弹窗。后来才知道是网易出品的,安全那边也过了 ISO 27001 + 27701 双认证。 我自己用得最顺手的两个小功能: - 一键远程开机:家里 PC 平时不用开着,出门前忘了启动也没事,要用的时候手机点一下唤醒; - 被控端一键防窥黑屏:咖啡厅里远控的时候,家里那块屏自动黑掉静音,路过的人看不到内容。 最近产品两周年周年庆的时候,预告了一个功能,叫共享文件夹,应该是能在控制端显示被控端的本地磁盘,对Vibe Coding的效率肯定会有明显提升。 如果你也在搭家里那套 always-on AI 工作机,这是 Neo 给我打开新世界的工具,原原本本传给你

Jason Zhu

202,429 Aufrufe • vor 8 Tagen

GoSailGlobal's profile picture

Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Jason Zhu

534,612 Aufrufe • vor 1 Monat

GoSailGlobal's profile picture

DeepSeek 像一把抵在硅谷模型公司背后的枪 🔫 硅谷101 今天上线了一期炸裂对谈:OpenAI 前研究员 Jenny Xiao × 芯片架构师肖志斌,两个硅谷内部人聊 DeepSeek v4 带来的生存危机 刚好也看到国内比较喜欢的AI博主大聪明“赛博禅心”,在解读这个视频,直播中的两个嘉宾很有料: - 肖志斌:ZFLOW AI 创始人兼 CEO,前华美半导体协会主席,资深芯片架构师 - Jenny Xiao:前 OpenAI 研究员,Leonis Capital 合伙人,专注 AI 投资 I've heard a similar point on an A16z podcast before, and it seems like reality has proven it right again. Marc Andreessen 🇺🇸 Justine Moore Olivia Moore 最狠的三句话: 1️⃣ "If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero." 这不是技术竞争,这是生死线(kill line) 2️⃣ "硅谷公司钱太多,反而没动力优化效率。中国模型厂商被资源倒逼,更早进入 token efficiency 创新",资源约束 = 创新加速器 3️⃣ "没有效率,AGI 就只能是个 demo。有了效率,AGI 才能成为真正的产品" ,DeepSeek v4:计算成本 1/3,内存占用 1/10 核心观点 - Anthropic 估值超过 OpenAI 的真相:专注 > 什么都做 - GPT-5.5 比 GPT-5 贵 2 倍,DeepSeek v4 便宜 10 倍,谁在裸泳? - 英伟达短期安全,长期推理市场会被 TPU / 升腾 / 寒武纪瓜分 - Claude Code 为什么是 Anthropic 的定义时刻 完整对谈👇

Jason Zhu

224,124 Aufrufe • vor 1 Monat

GoSailGlobal's profile picture

发现海外的人真牛逼,AI真的可以做游戏啦❗️❗️ 这是 AI 做整套游戏角色目前唯一能跑通的工作流 99% 的人卡在 walk cycle(走路循环动画,左右腿交替的连续动作)上,是因为他们一直试图用 GPT Image 2.0(OpenAI 最新的图像生成模型)/ Nano Banana 2(Google Gemini 的图像生成模型代号)解决 无论怎么 prompt(给 AI 的文字指令)、怎么传参考图,图像模型就是做不出对的走路循环 左右腿对不上、人物飘出画框、scaling(缩放比例)会乱 🌟 视频模型在这一步反而无敌 Seedance 2.0 image-to-video(字节跳动的视频生成模型,输入一张静态图,输出一段动态视频) 4 秒长度,吐出 80-120 帧(一帧 = 一张画面) 关键 prompt:让角色「原地跑」,不能跑出画框 绝对不要传任何画布或网格(图像模型那一套在这里全失效,视频模型会把网格融进画面) 然后从这 100 多帧里挑 8-12 帧拼成 sprite sheet(精灵图:把所有动画帧拼在一张图里的格式,游戏引擎按帧切片使用) 🧵 完整工作流 ↓ 1️⃣ 先做 anchor(锚定图:后续所有素材都基于这一张衍生的基准图) 必须南向,必须中性姿势(不要让它拿武器或法球,否则走路动画里它会一直跟着你) 让 GPT Image 2.0 出真像素风有个偏方:除了 prompt,再传一张黑白格子图当第二参考,强制它按格子纪律出图 2️⃣ 从 anchor 扩 4 方向(南 / 北 / 东 / 西,2D 游戏里角色面朝的四个方向) 南向 → 让模型生成西向 → 再生成北向 东向直接把西向水平翻转,省一次生成的钱 翻转时背包 / 武器位置可能错乱,prompt 里加一句「不要让效果出现在背后」 3️⃣ idle 和 attack 用图像模型 + 网格画布 传 anchor + 一张 1280×512 的 5×2 像素网格画布 按 frame sequence(帧序列:一个完整动作里的连续画面顺序)出动画 出来后再让 AI 重新提取每一帧居中(模型自己排版的间距经常是错的) 4️⃣ walk cycle 用视频模型(上面那一段) 5️⃣ 背景统一用 chroma(色键:统一颜色的背景,方便后期一键抠掉)紫色 GPT Image 2.0 和 Nano Banana 2 都不支持透明背景 所以全程用亮紫色,后期 fal( AI 模型 API 的平台,相当于 AI 模型的 1688)上的 birefnet(开源的智能抠图模型)一键去背 6️⃣ sprite normalization(精灵图规范化:把所有帧统一对齐和裁剪的清洗步骤) 所有帧统一裁剪、脚底对齐、高度校正、锚点、补边 不对齐脚底的后果:角色会在游戏里跳来跳去 📕 整套跑完,一个不会画画的人,能做出 4 方向 × 4 动作的完整 RPG(Role Playing Game:角色扮演游戏)角色 现在不会画画的人,也能 1:1 还原他脑子里那个游戏

Jason Zhu

132,696 Aufrufe • vor 1 Monat

GoSailGlobal's profile picture

刚看完 Anthropic 一个研究员的演讲 看了好几遍才反应过来这不是 demo 他们刚把一个 22000 行的 PR 合进生产环境 强化学习的核心代码库 几乎全是 Claude 写的 没有任何一个人逐行读过 研究员叫 Eric,去年骑车摔断手 那两个月里所有代码他都用 Claude 写,所以这套方法他练得很扎实 他把「怎么在生产环境放手让 AI 写代码」总结成一句话 「忘记代码存在 但别忘记产品存在」 我看到这句话的时候停了一下 vibe coding 这个词原本是 Karpathy 提的 原意是「彻底交给 vibes 忘记代码存在」 你用 Cursor 一边补全一边 review 那只算「用 AI 用得多」 离真正的 vibe coding 还差很远 至于为什么得开始练 Eric 的理由我反驳不了 AI 能独立完成的任务长度 每 7 个月翻一倍 现在差不多 1 小时 明年一天 后年一周 你还坚持每行都看 那一周的活你刚审完就已经过期了 你就只剩瓶颈这个角色了 但放手不等于闭眼 他给了一套挺细的做法 1️⃣ 把自己当成 Claude 的 PM 别再当它的同事 多数人写 prompt 像在 chat 正确的做法是当成新人入职 你不能跟一个第一天上班的新人说「实现这个功能」然后就走 你得带他逛代码库 讲清需求 把约束列出来 Eric 自己的做法 真正干活之前 先花 15-20 分钟 跟 Claude 在另一个对话里来回讨论 让它读代码 做计划 一起选要改哪几个文件 这段聊完 把整段计划喂回去 再让它跑 他说这一步做完之后 Claude 一次跑通的概率非常高 2️⃣ 只在「叶子节点」放手 代码库像一棵树 主干和粗枝是核心架构 别的代码都依赖它 这部分人必须读懂 叶子节点是端点 一个 UI 角落 一个一次性脚本 没人依赖它 就算屎了也不会扩散 目前还没人能 不读代码 就判断技术债 所以只能控制范围 让屎山别长在重要的位置 3️⃣ 设计可验证的 checkpoint 那 22000 行 PR 是怎么验过的 改动集中在叶子节点 关键架构部分人审过 输入输出做成人能看懂的样子 跑了几轮长时间压力测试 Eric 这里讲的一段我特别喜欢 他说 CTO 怎么管自己不懂的领域专家 PM 怎么审自己读不懂的代码 CEO 怎么核对自己看不懂的财务模型 这种事人类已经干了几百年 软件工程师只是没习惯换成「管理」那个视角 读不懂代码不可怕 没办法验证才可怕 4️⃣ 别低估指数 Eric 引了 Dario 那句 Machines of Loving Grace 那篇文章其实就是产品路线图 大家都把它当科幻在读 20 年后模型会比现在好一百万倍 90 年代谁能想到今天电脑里塞着 TB 级内存 我们对未来一样 整场分享最戳我的是这句收尾 今天你不 vibe code 还行 明年后年 你还在坚持每行都读 你就是团队最大的瓶颈 模型不会淘汰人 拒绝放手的工程师会被自己淘汰

Jason Zhu

51,413 Aufrufe • vor 1 Monat

GoSailGlobal's profile picture

Shopify 创始人 Toby 最新一期访谈 看完我对 CEO 这个角色的认知被重写了一遍 他说看到自己几年前写的代码,觉得写得还不错 那是他人生最难过的一天,因为这意味着 他停止了进步 这种心态贯穿他过去 21 年所有的决策 最戏剧性的一段是 COVID 那两年 Shopify 2015 年 IPO 的时候,Toby 当时是个 30 多岁的程序员 一夜之间,他觉得自己应该 cosplay 成一个 60 岁的西装公司 CEO 这是硅谷规则书里写好的范本,大家都这么做 差点毁了 Shopify 直到 COVID 砸下来,所有假设瓦解,计划失效 他被迫坐下来,一个项目一个项目过 发现的事让他自己都发疯 - 多伦多有个团队在专门给「超市行业」开发 Shopify 模块 他完全不知道这件事 - 公司 8000 人,居然有 5500 个不同的职级 title - 他过去几年的所有 executives,全程都在帮他 cosplay 一个不属于他自己的角色 那一年他亲自审完每个项目,砍掉了 60%,12 个月内换掉了所有的高管 1️⃣ 最重要的一步,是他打开了一个叫 Founders 的内部 Slack 频道 那个频道里都是他过去几年收购回来的公司的创始人 他在里面发了一句话「兄弟们 救救我」 这件事改变了他对人才的整个判断 他发现,收购来的那些创始人在 COVID 期间反而最不舒服 因为 Shopify 内部把他们当 irritants(刺头) 他们见到 shit 就直接说 shit,不接受现状 不会「成熟地放下」 大公司一般怎么处理这种人,扔进 skunkworks 或者 founder daycare 隔起来 Toby 说这种做法整个反了 这种人应该被放到现有 executives 头上 他后来把好几个工程师从 individual contributor 一口气提到 VP 之上,「每一个都成功了」 这是他的第一条 belief 2️⃣ 公司应该被「工程化」 COVID 之后他亲自启动了一个项目叫 Shopify OS 他用 Python 写了一个程序 把整个公司变成代码 每个职位 每个层级 每个汇报关系都是配置文件 工资和市场数据是机器可读的 JSON 跑一遍 set solver 算出公司「应该长什么样」 工程师管这种东西叫 desire state system 你定义「应该是什么」 然后系统算出把当前状态推到目标状态需要的最少步骤,React 就是这个原理 副作用是把整个公司的政治杀死了 销售总监跑来说「我需要再招 50 个销售」 以前是 Toby 在高尔夫球场上拍板批了 然后 HR 去工程团队「砍一磅肉」 现在系统会直接吐出反事实「招 50 个销售 意味着工程团队减员 X 人 你还要吗」 3️⃣ 关于薪酬 COVID 期间 Shopify 股价跌了 80% Toby 当时的第一反应 是松了一口气 因为高点估值已经做到 50 倍 PS 「那种估值已经在你能控制的范围之外 是别人在赌一个未来 你只是被动接受」 但员工的体验完全不一样 他们的股票是在高位发的 一夜归零 而且这个过程里他们没有 agency 所以 Shopify 把整个薪酬系统重写 每个员工每个季度可以自己调 slider 「我这季度想要多少现金 / 多少股票 / 多少 RSU / 多少 ShopCash」,如果股票跌了,下一季度同样的总薪酬数字可以兑换更多股票,自动 rebalance 听起来是技术细节,但 Toby 强调它的真正意义 「我不希望任何一个员工觉得 Shopify 是无意中走到现在这一步的 我们对每一件事都是有意识做了选择」 Toby 这套打法底层有一句话我反复在想 公司能给员工的最大产品 是这个:让员工每天被他自己崇敬的人围绕

Jason Zhu

22,027 Aufrufe • vor 1 Monat

Keine weiteren Inhalte verfügbar