
Jason Zhu
@GoSailGlobal • 32,217 subscribers
Cursor-certified 🌟|出海独立开发者 · Building AI Products in public Skills hub:https://t.co/x1VU8wWftt 博客:https://t.co/ajYYIXFSPI 🤝 合作/培训 DM:GoSail_AI
Shorts
Videos

介绍下 GOSAIL LAB:一个专门做 AI 产品营销推广的工作室 我们不做万金油代运营,只做一件事:帮 AI 产品 Founder 和独立开发者,把"好产品没人知道"这个问题解决掉 具体能做: ✅ 平台冷启动:X / 小红书 / 知乎 / B 站,从内容定位到首批用户 ✅ 创始人 IP:把你和你的产品故事写成能传播的内容 ✅ PMF 验证:用真实流量帮你判断哪个钩子最能打中市场 ✅ 顶流 KOC/KOL 联动:圈层内的真实创作者,不是水军 号 如果你的产品确实做得好,但卡在"没人知道",欢迎来聊 🎥 介绍视频在这👇
Jason Zhu282,029 просмотров • 6 дней назад

Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住
Jason Zhu532,591 просмотров • 29 дней назад

DeepSeek 像一把抵在硅谷模型公司背后的枪 🔫 硅谷101 今天上线了一期炸裂对谈:OpenAI 前研究员 Jenny Xiao × 芯片架构师肖志斌,两个硅谷内部人聊 DeepSeek v4 带来的生存危机 刚好也看到国内比较喜欢的AI博主大聪明“赛博禅心”,在解读这个视频,直播中的两个嘉宾很有料: - 肖志斌:ZFLOW AI 创始人兼 CEO,前华美半导体协会主席,资深芯片架构师 - Jenny Xiao:前 OpenAI 研究员,Leonis Capital 合伙人,专注 AI 投资 I've heard a similar point on an A16z podcast before, and it seems like reality has proven it right again. Marc Andreessen 🇺🇸 Justine Moore Olivia Moore 最狠的三句话: 1️⃣ "If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero." 这不是技术竞争,这是生死线(kill line) 2️⃣ "硅谷公司钱太多,反而没动力优化效率。中国模型厂商被资源倒逼,更早进入 token efficiency 创新",资源约束 = 创新加速器 3️⃣ "没有效率,AGI 就只能是个 demo。有了效率,AGI 才能成为真正的产品" ,DeepSeek v4:计算成本 1/3,内存占用 1/10 核心观点 - Anthropic 估值超过 OpenAI 的真相:专注 > 什么都做 - GPT-5.5 比 GPT-5 贵 2 倍,DeepSeek v4 便宜 10 倍,谁在裸泳? - 英伟达短期安全,长期推理市场会被 TPU / 升腾 / 寒武纪瓜分 - Claude Code 为什么是 Anthropic 的定义时刻 完整对谈👇
Jason Zhu223,685 просмотров • 1 месяц назад

发现海外的人真牛逼,AI真的可以做游戏啦❗️❗️ 这是 AI 做整套游戏角色目前唯一能跑通的工作流 99% 的人卡在 walk cycle(走路循环动画,左右腿交替的连续动作)上,是因为他们一直试图用 GPT Image 2.0(OpenAI 最新的图像生成模型)/ Nano Banana 2(Google Gemini 的图像生成模型代号)解决 无论怎么 prompt(给 AI 的文字指令)、怎么传参考图,图像模型就是做不出对的走路循环 左右腿对不上、人物飘出画框、scaling(缩放比例)会乱 🌟 视频模型在这一步反而无敌 Seedance 2.0 image-to-video(字节跳动的视频生成模型,输入一张静态图,输出一段动态视频) 4 秒长度,吐出 80-120 帧(一帧 = 一张画面) 关键 prompt:让角色「原地跑」,不能跑出画框 绝对不要传任何画布或网格(图像模型那一套在这里全失效,视频模型会把网格融进画面) 然后从这 100 多帧里挑 8-12 帧拼成 sprite sheet(精灵图:把所有动画帧拼在一张图里的格式,游戏引擎按帧切片使用) 🧵 完整工作流 ↓ 1️⃣ 先做 anchor(锚定图:后续所有素材都基于这一张衍生的基准图) 必须南向,必须中性姿势(不要让它拿武器或法球,否则走路动画里它会一直跟着你) 让 GPT Image 2.0 出真像素风有个偏方:除了 prompt,再传一张黑白格子图当第二参考,强制它按格子纪律出图 2️⃣ 从 anchor 扩 4 方向(南 / 北 / 东 / 西,2D 游戏里角色面朝的四个方向) 南向 → 让模型生成西向 → 再生成北向 东向直接把西向水平翻转,省一次生成的钱 翻转时背包 / 武器位置可能错乱,prompt 里加一句「不要让效果出现在背后」 3️⃣ idle 和 attack 用图像模型 + 网格画布 传 anchor + 一张 1280×512 的 5×2 像素网格画布 按 frame sequence(帧序列:一个完整动作里的连续画面顺序)出动画 出来后再让 AI 重新提取每一帧居中(模型自己排版的间距经常是错的) 4️⃣ walk cycle 用视频模型(上面那一段) 5️⃣ 背景统一用 chroma(色键:统一颜色的背景,方便后期一键抠掉)紫色 GPT Image 2.0 和 Nano Banana 2 都不支持透明背景 所以全程用亮紫色,后期 fal( AI 模型 API 的平台,相当于 AI 模型的 1688)上的 birefnet(开源的智能抠图模型)一键去背 6️⃣ sprite normalization(精灵图规范化:把所有帧统一对齐和裁剪的清洗步骤) 所有帧统一裁剪、脚底对齐、高度校正、锚点、补边 不对齐脚底的后果:角色会在游戏里跳来跳去 📕 整套跑完,一个不会画画的人,能做出 4 方向 × 4 动作的完整 RPG(Role Playing Game:角色扮演游戏)角色 现在不会画画的人,也能 1:1 还原他脑子里那个游戏
Jason Zhu132,696 просмотров • 1 месяц назад

One of the most common challenges of indie hacker is product demand positioning and marketing. On March 8, I launched a Skill collection website in just three days, and I’ve been maintaining it ever since. Along the way, I’ve done a lot of work: optimizing features, updating content, adjusting positioning... but something always seems missing. Recently, I came across a very impressive AI research product that helps validate product feasibility and avoids falling into the trap of self-indulgence. It’s called atypica.AI. Let me break down why this product is actually impressive How it works? It's very simple. After you give it a business problem, it first clarifies your needs and plans the research approach like a research team. It will help you step into the perspective of your target users and validate whether a product is worth building — before you commit.
Jason Zhu84,576 просмотров • 21 дней назад

9个多月 3W粉丝总结视频 自媒体达克效应 1、愚昧山峰:认为自媒体博主,特别是AI博主每天产出那么多高质量内容,很厉害,收藏从未停过 2、绝望之谷:7.27开始尝试X自媒体,第一篇故事贴直接涨粉2k,然后开始一段很长的方向探索期,比如: - 自己到底适合写什么 - 涨粉和变现的权衡 - 内容质量和受众的匹配度问题 - 社群管理问题 3、开悟之坡:C端涨粉变现和C端变现在AI博主这块,很难把控,所以还是C端提供价值内容输出,B端变现 4、持续平稳高原:2月底开了公司,有3位实习生,收入也从2月的四位数到4月的六位数,目前稳住基本盘的同时,开拓其他领域
Jason Zhu90,932 просмотров • 26 дней назад

字节悄悄把 GUI Agent 这条路线开源了,而且做得比想象中扎实 UI-TARS-desktop(GitHub 29.4k ⭐)一个仓库里塞了两个东西: · Agent TARS:通用多模态 Agent 框架,CLI 一键启动,能在终端 / 浏览器 / 电脑里跑真实任务(订机票、订酒店、画图都演示过) · UI-TARS Desktop:本地 GUI Agent,看屏幕、点鼠标、敲键盘,全部本地跑,不上传 Apache 2.0、原生支持 MCP,背后是字节自家的 UI-TARS 视觉模型 + Seed-1.5-VL 国产开源 Computer Use 这条线,目前最完整的一份 🔗
Jason Zhu28,522 просмотров • 8 дней назад

昨晚刷到的抖音视频 和我之前的经历很相似,其实当时考研只是为了想去电网上班,因为之前在供电所帮忙,感觉他们很惬意,早9晚5,中间还能休息好几个小时 读研完后去互联网公司,其实也没有改变想法,直到我出来后探索了很久才懂得视频里说的两句话: 1️⃣ 看到有风险的东西你不敢碰,但是你没有看到风险背后的利益; 2️⃣ 看到有利益的东西你就想碰,但你没有看到利益背后的风险。 最近有国企的研究生同学问我一些事情,说想辞职,工资太低了 我问他想好没出来后要做啥,他说我看你做的不错,能不能和你学,我一下子不知道怎么回复 当习惯了确定性的时候,不确定性是你所恐惧的
Jason Zhu196,572 просмотров • 2 месяцев назад

刚看完 Anthropic 一个研究员的演讲 看了好几遍才反应过来这不是 demo 他们刚把一个 22000 行的 PR 合进生产环境 强化学习的核心代码库 几乎全是 Claude 写的 没有任何一个人逐行读过 研究员叫 Eric,去年骑车摔断手 那两个月里所有代码他都用 Claude 写,所以这套方法他练得很扎实 他把「怎么在生产环境放手让 AI 写代码」总结成一句话 「忘记代码存在 但别忘记产品存在」 我看到这句话的时候停了一下 vibe coding 这个词原本是 Karpathy 提的 原意是「彻底交给 vibes 忘记代码存在」 你用 Cursor 一边补全一边 review 那只算「用 AI 用得多」 离真正的 vibe coding 还差很远 至于为什么得开始练 Eric 的理由我反驳不了 AI 能独立完成的任务长度 每 7 个月翻一倍 现在差不多 1 小时 明年一天 后年一周 你还坚持每行都看 那一周的活你刚审完就已经过期了 你就只剩瓶颈这个角色了 但放手不等于闭眼 他给了一套挺细的做法 1️⃣ 把自己当成 Claude 的 PM 别再当它的同事 多数人写 prompt 像在 chat 正确的做法是当成新人入职 你不能跟一个第一天上班的新人说「实现这个功能」然后就走 你得带他逛代码库 讲清需求 把约束列出来 Eric 自己的做法 真正干活之前 先花 15-20 分钟 跟 Claude 在另一个对话里来回讨论 让它读代码 做计划 一起选要改哪几个文件 这段聊完 把整段计划喂回去 再让它跑 他说这一步做完之后 Claude 一次跑通的概率非常高 2️⃣ 只在「叶子节点」放手 代码库像一棵树 主干和粗枝是核心架构 别的代码都依赖它 这部分人必须读懂 叶子节点是端点 一个 UI 角落 一个一次性脚本 没人依赖它 就算屎了也不会扩散 目前还没人能 不读代码 就判断技术债 所以只能控制范围 让屎山别长在重要的位置 3️⃣ 设计可验证的 checkpoint 那 22000 行 PR 是怎么验过的 改动集中在叶子节点 关键架构部分人审过 输入输出做成人能看懂的样子 跑了几轮长时间压力测试 Eric 这里讲的一段我特别喜欢 他说 CTO 怎么管自己不懂的领域专家 PM 怎么审自己读不懂的代码 CEO 怎么核对自己看不懂的财务模型 这种事人类已经干了几百年 软件工程师只是没习惯换成「管理」那个视角 读不懂代码不可怕 没办法验证才可怕 4️⃣ 别低估指数 Eric 引了 Dario 那句 Machines of Loving Grace 那篇文章其实就是产品路线图 大家都把它当科幻在读 20 年后模型会比现在好一百万倍 90 年代谁能想到今天电脑里塞着 TB 级内存 我们对未来一样 整场分享最戳我的是这句收尾 今天你不 vibe code 还行 明年后年 你还在坚持每行都读 你就是团队最大的瓶颈 模型不会淘汰人 拒绝放手的工程师会被自己淘汰
Jason Zhu51,413 просмотров • 1 месяц назад

我发现挺多做 X 增长的人, 实际上对 X 本身并不熟。 不是“不会用”, 而是没形成对平台结构的理解。 比如左侧导航栏这些功能: Home、Explore、Notifications、Lists、Bookmarks、Profile…… 大多数人都点过, 但不知道它们分别对应哪一类行为设计。 如果你是来做增长的,你至少要分清三件事: 1️⃣ 哪些区域决定「你看到什么」(For You / Following / Explore) 2️⃣ 哪些功能决定「别人怎么看你」(Profile / Article / Threads) 3️⃣ 哪些工具决定「你如何复盘与放大」(Analytics / Bookmarks / Lists) 不理解这三层, 去谈 X 增长,本质上是在蒙着眼睛调参数。 功能本身不复杂,复杂的是你要先想清楚:你是来消费信息、输出内容,还是做系统性放大? 在这个问题没想清楚之前,把时间花在“增长技巧”上,基本都是噪音。
Jason Zhu13,392 просмотров • 4 месяцев назад
Больше нет контента для загрузки