Jason Zhu's banner

Jason Zhu

@GoSailGlobal • 34,023 subscribers

Show In Public ｜ SaaS 出海｜克尔凯郭尔种草🌿 Skills hub：https://t.co/x1VU8wWNj1 博客：https://t.co/ajYYIXGqFg 🤝 合作DM：GoSail_AI 📮：[email protected] MCN：[email protected]

Shorts

AI视频工具现在遍地都是，生成一段好看的画面已经不难但说实话，好看的片段和电影感之间差的不是画质，是"导演意图"，演员的微表情要能控制，镜头语言要有选择，场景空间关系要能提前规划，特效要服务于叙事而不是炫技，最后还得有统一的视觉风格把一切串起来这些东西以前在AI工作流里基本不存在，你只能提示词抽卡，出来什么算什么 Topview Film Studio TopviewAI 把这些电影级的控制全部整合进了一个创作画布： 1️⃣ 表演指导：控制细微表情、情绪节奏、眼神方向 2️⃣ 摄影机控制：构图、景别、镜头运动、焦段语言 3️⃣ 3D白盒预演：在生成之前就把角色站位、机位、空间关系规划好 4️⃣ 电影特效：有运动逻辑和氛围感的叙事型VFX 5️⃣ 人像细节优化：去掉AI生成常见的塑料感和过度处理 6️⃣ 调色与风格：肤色、对比度、氛围、整体电影质感从"生成片段"到"导演镜头"，这个转变终于发生了

AI视频工具现在遍地都是，生成一段好看的画面已经不难但说实话，好看的片段和电影感之间差的不是画质，是"导演意图"，演员的微表情要能控制，镜头语言要有选择，场景空间关系要能提前规划，特效要服务于叙事而不是炫技，最后还得有统一的视觉风格把一切串起来这些东西以前在AI工作流里基本不存在，你只能提示词抽卡，出来什么算什么 Topview Film Studio TopviewAI 把这些电影级的控制全部整合进了一个创作画布： 1️⃣ 表演指导：控制细微表情、情绪节奏、眼神方向 2️⃣ 摄影机控制：构图、景别、镜头运动、焦段语言 3️⃣ 3D白盒预演：在生成之前就把角色站位、机位、空间关系规划好 4️⃣ 电影特效：有运动逻辑和氛围感的叙事型VFX 5️⃣ 人像细节优化：去掉AI生成常见的塑料感和过度处理 6️⃣ 调色与风格：肤色、对比度、氛围、整体电影质感从"生成片段"到"导演镜头"，这个转变终于发生了

23,431 Aufrufe

🎬 apimart 上新：豆包 doubao-seedance-2.0-mini apimart に Doubao Seedance 2.0 mini 登場 🇯🇵 同 9 张关键帧、同 prompt、同 15s、R2V 实测 doubao-seedance-2.0-mini vs HappyHorse 1.0 ✅ 价格官方原价（比 HH 便宜 3-5×） ✅ 不卡人脸（face 变体直出真人） ✅ 7 月 Seedance 2.5 上线，依然原价；有官方折扣同步透传 🔗 同一个忠犬八公，9 张关键帧 R2V 实测「忠犬ハチ公」9 枚キーフレーム R2V 实测 HappyHorse 1.0 vs Seedance mini 价格便宜 3-5×，不卡人脸，画风电影感 💰 便宜 3-5×・激安 👤 不卡人脸・顔OK 🎬 画风更电影感・映画的 📊 数据对比（同输入） HappyHorse vs Seedance mini 比特率 6.98 Mbps vs 5.30 Mbps 画风暖萌插画感 vs 冷调电影感节奏慢 vs 快推进 1-2 panel 真人脸 ❌ 卡 vs ✅ face 变体放行费用 ~$1.49 vs ~$0.30-0.50 doubao-seedance-2.0-mini 更忠于参考图，HappyHorse 更"图画书翻页" mini はリファレンスに忠実・映画的構図

🎬 apimart 上新：豆包 doubao-seedance-2.0-mini apimart に Doubao Seedance 2.0 mini 登場 🇯🇵 同 9 张关键帧、同 prompt、同 15s、R2V 实测 doubao-seedance-2.0-mini vs HappyHorse 1.0 ✅ 价格官方原价（比 HH 便宜 3-5×） ✅ 不卡人脸（face 变体直出真人） ✅ 7 月 Seedance 2.5 上线，依然原价；有官方折扣同步透传 🔗 同一个忠犬八公，9 张关键帧 R2V 实测「忠犬ハチ公」9 枚キーフレーム R2V 实测 HappyHorse 1.0 vs Seedance mini 价格便宜 3-5×，不卡人脸，画风电影感 💰 便宜 3-5×・激安 👤 不卡人脸・顔OK 🎬 画风更电影感・映画的 📊 数据对比（同输入） HappyHorse vs Seedance mini 比特率 6.98 Mbps vs 5.30 Mbps 画风暖萌插画感 vs 冷调电影感节奏慢 vs 快推进 1-2 panel 真人脸 ❌ 卡 vs ✅ face 变体放行费用 ~$1.49 vs ~$0.30-0.50 doubao-seedance-2.0-mini 更忠于参考图，HappyHorse 更"图画书翻页" mini はリファレンスに忠実・映画的構図

57,369 Aufrufe

之前推荐的 APIMart，又快速上了阿里的 HappyHorse-1.0，我用它跑了一个 15 秒的吉卜力短片，全程没开过剪映工作流就 3 步： 1️⃣ GPT-Image-2 出 3×3 吉卜力故事板，9 张连贯关键帧，主角衣服、光线、镜头都对得上 2️⃣ 把每张图丢给 Claude Opus，让它看图写 i2v prompt，相机运动、角色动作、节奏一行一行写出来 3️⃣ HappyHorse-1.0 接住图 + prompt，按图生视频，15 秒一镜，人物不漂、衣服不变色整套下来便宜一大截，关键是 i2v 一致性肉眼能看出来，HappyHorse 可以在你给它锚点后，它老老实实地演国产视频模型今年最值得放进 pipeline 的一个，apimart 还把它和 GPT-Image-2 拼到了同一条 API 上，省去自己接两家的麻烦目前价格官方原价，这两天会有个折扣价附 demo 视频 ↓

之前推荐的 APIMart，又快速上了阿里的 HappyHorse-1.0，我用它跑了一个 15 秒的吉卜力短片，全程没开过剪映工作流就 3 步： 1️⃣ GPT-Image-2 出 3×3 吉卜力故事板，9 张连贯关键帧，主角衣服、光线、镜头都对得上 2️⃣ 把每张图丢给 Claude Opus，让它看图写 i2v prompt，相机运动、角色动作、节奏一行一行写出来 3️⃣ HappyHorse-1.0 接住图 + prompt，按图生视频，15 秒一镜，人物不漂、衣服不变色整套下来便宜一大截，关键是 i2v 一致性肉眼能看出来，HappyHorse 可以在你给它锚点后，它老老实实地演国产视频模型今年最值得放进 pipeline 的一个，apimart 还把它和 GPT-Image-2 拼到了同一条 API 上，省去自己接两家的麻烦目前价格官方原价，这两天会有个折扣价附 demo 视频 ↓

140,270 Aufrufe

GPT-Image-2 + Seedance 2.0目前已成AI视频标配甚至可以根据给定图片推导过去和未来，制作storyboard，然后生成视频使用方法： 1️⃣ 随便找一张图 2️⃣ 给以下提示词，然后制作storyboard 用以下提示词👇： Create a 3×3 cinematic storyboard grid based on the uploaded reference image. Use the uploaded image as the central moment of the story: Frame 5 must represent the exact “t” moment, matching the subject, scene, mood, composition, costume, environment, lighting style, and emotional tone of the reference image. The storyboard must show what happened before and after this moment as a time-based visual timeline. FRAME STRUCTURE: Frame 1: t-30: Establishing shot, the wider environment before the main event begins. Frame 2: t-10: The subject approaches or prepares for the key moment. Frame 3: t-5: Tension builds, body language and atmosphere lead toward the reference image. Frame 4: t-1: Final instant before the reference image, close emotional or action transition. Frame 5: t: Recreate the uploaded reference image as the central key frame. Frame 6: t+1: Immediate reaction or continuation right after the key moment. Frame 7: t+5: Alternate angle showing the consequence of the moment. Frame 8: t+15: Candid transition frame, natural movement, emotional aftermath. Frame 9: t+30: Strong final cinematic frame that clearly resolves the scene. STYLE: Ultra-realistic cinematic storyboard, 3×3 grid layout, cohesive visual tone across all frames, consistent character identity, consistent costume, consistent environment, cinematic lighting, shallow depth of field, realistic camera angles, natural motion continuity, no text labels, no numbers, no arrows, no captions inside the image. 3️⃣ seedance2.0 一键成片

GPT-Image-2 + Seedance 2.0目前已成AI视频标配甚至可以根据给定图片推导过去和未来，制作storyboard，然后生成视频使用方法： 1️⃣ 随便找一张图 2️⃣ 给以下提示词，然后制作storyboard 用以下提示词👇： Create a 3×3 cinematic storyboard grid based on the uploaded reference image. Use the uploaded image as the central moment of the story: Frame 5 must represent the exact “t” moment, matching the subject, scene, mood, composition, costume, environment, lighting style, and emotional tone of the reference image. The storyboard must show what happened before and after this moment as a time-based visual timeline. FRAME STRUCTURE: Frame 1: t-30: Establishing shot, the wider environment before the main event begins. Frame 2: t-10: The subject approaches or prepares for the key moment. Frame 3: t-5: Tension builds, body language and atmosphere lead toward the reference image. Frame 4: t-1: Final instant before the reference image, close emotional or action transition. Frame 5: t: Recreate the uploaded reference image as the central key frame. Frame 6: t+1: Immediate reaction or continuation right after the key moment. Frame 7: t+5: Alternate angle showing the consequence of the moment. Frame 8: t+15: Candid transition frame, natural movement, emotional aftermath. Frame 9: t+30: Strong final cinematic frame that clearly resolves the scene. STYLE: Ultra-realistic cinematic storyboard, 3×3 grid layout, cohesive visual tone across all frames, consistent character identity, consistent costume, consistent environment, cinematic lighting, shallow depth of field, realistic camera angles, natural motion continuity, no text labels, no numbers, no arrows, no captions inside the image. 3️⃣ seedance2.0 一键成片

34,160 Aufrufe

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

介绍下 GOSAIL LAB：一个专门做 AI 产品营销推广的工作室我们不做万金油代运营，只做一件事：帮 AI 产品 Founder 和独立开发者，把"好产品没人知道"这个问题解决掉具体能做： ✅ 平台冷启动：X / 小红书 / 知乎 / B 站，从内容定位到首批用户 ✅ 创始人 IP：把你和你的产品故事写成能传播的内容 ✅ PMF 验证：用真实流量帮你判断哪个钩子最能打中市场 ✅ 顶流 KOC/KOL 联动：圈层内的真实创作者，不是水军号如果你的产品确实做得好，但卡在"没人知道"，欢迎来聊 🎥 介绍视频在这👇

介绍下 GOSAIL LAB：一个专门做 AI 产品营销推广的工作室我们不做万金油代运营，只做一件事：帮 AI 产品 Founder 和独立开发者，把"好产品没人知道"这个问题解决掉具体能做： ✅ 平台冷启动：X / 小红书 / 知乎 / B 站，从内容定位到首批用户 ✅ 创始人 IP：把你和你的产品故事写成能传播的内容 ✅ PMF 验证：用真实流量帮你判断哪个钩子最能打中市场 ✅ 顶流 KOC/KOL 联动：圈层内的真实创作者，不是水军号如果你的产品确实做得好，但卡在"没人知道"，欢迎来聊 🎥 介绍视频在这👇

736,822 Aufrufe • vor 2 Monaten

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

539,586 Aufrufe • vor 2 Monaten

过年那段时间和 Neo Reid（AgentReach 作者 Neo）聊天，他给我演示了他怎么用龙虾 OpenClaw 最骚的是他演示的姿势：人在咖啡厅，掏出手机，远程操控他家里那台 PC 跑 OpenClaw 整个过程我看呆了不是因为 OpenClaw 多强（它确实强），是因为他手机端的操控丝滑到我以为是在本地操作：4K 画面、144 帧、几乎零延迟，还能直接调出远程终端看 agent 跑到哪一步我问他用的什么远控。他说：UU远程没想到之前折腾的各种方案（免费的不丝滑、付费的限速）全部都是在凑合，回家立刻装了，用到了现在说说我搬过去之后的真实工作流： 🔥 核心是手机端远控电脑 + UU远程的终端功能我家里那台 24h 在线的老macbook pro上挂着 Claude Code + OpenClaw + agent loop 出门时打开 UU远程 App → 手机里直接进远程命令行入口（不用配 SSH、不用挂穿透） → tmux attach → agent 跑到哪一步、reward 曲线、GPU 利用率，全在手机上看用下来体感最特别的一点：流量真的省。我经常在地铁上挂 1G 流量包用一上午，等于把"看 agent 跑到哪了"这件事的成本压到接近 0 真要动手改代码的时候，iPad + 蓝牙键盘 / 手机 + UU远程的 4K 桌面远控顶上去，延迟低到我经常忘了不是本地多屏协作把家里两块屏分别拖到 iPad 上更舒服一开始我以为这种体验肯定要开会员。装完用了两天后翻了一下设置，发现没找到付费入口，不绑会员、不限画质、不限速、没广告弹窗。后来才知道是网易出品的，安全那边也过了 ISO 27001 + 27701 双认证。我自己用得最顺手的两个小功能： - 一键远程开机：家里 PC 平时不用开着，出门前忘了启动也没事，要用的时候手机点一下唤醒； - 被控端一键防窥黑屏：咖啡厅里远控的时候，家里那块屏自动黑掉静音，路过的人看不到内容。最近产品两周年周年庆的时候，预告了一个功能，叫共享文件夹，应该是能在控制端显示被控端的本地磁盘，对Vibe Coding的效率肯定会有明显提升。如果你也在搭家里那套 always-on AI 工作机，这是 Neo 给我打开新世界的工具，原原本本传给你

过年那段时间和 Neo Reid（AgentReach 作者 Neo）聊天，他给我演示了他怎么用龙虾 OpenClaw 最骚的是他演示的姿势：人在咖啡厅，掏出手机，远程操控他家里那台 PC 跑 OpenClaw 整个过程我看呆了不是因为 OpenClaw 多强（它确实强），是因为他手机端的操控丝滑到我以为是在本地操作：4K 画面、144 帧、几乎零延迟，还能直接调出远程终端看 agent 跑到哪一步我问他用的什么远控。他说：UU远程没想到之前折腾的各种方案（免费的不丝滑、付费的限速）全部都是在凑合，回家立刻装了，用到了现在说说我搬过去之后的真实工作流： 🔥 核心是手机端远控电脑 + UU远程的终端功能我家里那台 24h 在线的老macbook pro上挂着 Claude Code + OpenClaw + agent loop 出门时打开 UU远程 App → 手机里直接进远程命令行入口（不用配 SSH、不用挂穿透） → tmux attach → agent 跑到哪一步、reward 曲线、GPU 利用率，全在手机上看用下来体感最特别的一点：流量真的省。我经常在地铁上挂 1G 流量包用一上午，等于把"看 agent 跑到哪了"这件事的成本压到接近 0 真要动手改代码的时候，iPad + 蓝牙键盘 / 手机 + UU远程的 4K 桌面远控顶上去，延迟低到我经常忘了不是本地多屏协作把家里两块屏分别拖到 iPad 上更舒服一开始我以为这种体验肯定要开会员。装完用了两天后翻了一下设置，发现没找到付费入口，不绑会员、不限画质、不限速、没广告弹窗。后来才知道是网易出品的，安全那边也过了 ISO 27001 + 27701 双认证。我自己用得最顺手的两个小功能： - 一键远程开机：家里 PC 平时不用开着，出门前忘了启动也没事，要用的时候手机点一下唤醒； - 被控端一键防窥黑屏：咖啡厅里远控的时候，家里那块屏自动黑掉静音，路过的人看不到内容。最近产品两周年周年庆的时候，预告了一个功能，叫共享文件夹，应该是能在控制端显示被控端的本地磁盘，对Vibe Coding的效率肯定会有明显提升。如果你也在搭家里那套 always-on AI 工作机，这是 Neo 给我打开新世界的工具，原原本本传给你

204,627 Aufrufe • vor 1 Monat

大家最近都在看世界杯，经常听到解说喊破喉咙特别是在梅西帽子戏法那一秒： 🇦🇷 阿根廷解说员喉咙劈了："¡Gooool! ¡Hat-trick! ¡3 a 0!" 🇫🇷 法国 TF1 抢着喊："Triplé de Messi !" 🇯🇵 日本 DAZN 主播炸屏："ハットトリック！" 🇩🇪 德国一句 "Hattrick! Argentinien drei null!" 每一个人都激动到破音你只听得懂其中一个球迷群里有人问："能不能把西语这段的癫，用日语也这样喊一遍？" 以前这问题无解，因为情绪，是翻译不出来的最近发现了一款开源TTS 它做了一件魔法般的事：把原解说员的声音、语速、拉长音、破音、那股癫，完整迁移到 14 种语言。那股癫，一段都不丢在线体验的制作流程，也很简单： 1️⃣ 上传音频，选择需要翻译的语言，输入待合成文本 2️⃣ 点击“生成”按钮，即可完成翻译更有开源版本，可以自部署无限使用，在保持相同声音的同时无缝切换语言，提供流畅、自然、富有表现力的语音 #有道TTS

大家最近都在看世界杯，经常听到解说喊破喉咙特别是在梅西帽子戏法那一秒： 🇦🇷 阿根廷解说员喉咙劈了："¡Gooool! ¡Hat-trick! ¡3 a 0!" 🇫🇷 法国 TF1 抢着喊："Triplé de Messi !" 🇯🇵 日本 DAZN 主播炸屏："ハットトリック！" 🇩🇪 德国一句 "Hattrick! Argentinien drei null!" 每一个人都激动到破音你只听得懂其中一个球迷群里有人问："能不能把西语这段的癫，用日语也这样喊一遍？" 以前这问题无解，因为情绪，是翻译不出来的最近发现了一款开源TTS 它做了一件魔法般的事：把原解说员的声音、语速、拉长音、破音、那股癫，完整迁移到 14 种语言。那股癫，一段都不丢在线体验的制作流程，也很简单： 1️⃣ 上传音频，选择需要翻译的语言，输入待合成文本 2️⃣ 点击“生成”按钮，即可完成翻译更有开源版本，可以自部署无限使用，在保持相同声音的同时无缝切换语言，提供流畅、自然、富有表现力的语音 #有道TTS

65,175 Aufrufe • vor 24 Tagen

DeepSeek 像一把抵在硅谷模型公司背后的枪 🔫 硅谷101 今天上线了一期炸裂对谈：OpenAI 前研究员 Jenny Xiao × 芯片架构师肖志斌，两个硅谷内部人聊 DeepSeek v4 带来的生存危机刚好也看到国内比较喜欢的AI博主大聪明“赛博禅心”，在解读这个视频，直播中的两个嘉宾很有料： - 肖志斌：ZFLOW AI 创始人兼 CEO，前华美半导体协会主席，资深芯片架构师 - Jenny Xiao：前 OpenAI 研究员，Leonis Capital 合伙人，专注 AI 投资 I've heard a similar point on an A16z podcast before, and it seems like reality has proven it right again. Marc Andreessen 🇺🇸 Justine Moore Olivia Moore 最狠的三句话： 1️⃣ "If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero." 这不是技术竞争，这是生死线（kill line） 2️⃣ "硅谷公司钱太多，反而没动力优化效率。中国模型厂商被资源倒逼，更早进入 token efficiency 创新"，资源约束 = 创新加速器 3️⃣ "没有效率，AGI 就只能是个 demo。有了效率，AGI 才能成为真正的产品" ，DeepSeek v4：计算成本 1/3，内存占用 1/10 核心观点 - Anthropic 估值超过 OpenAI 的真相：专注 > 什么都做 - GPT-5.5 比 GPT-5 贵 2 倍，DeepSeek v4 便宜 10 倍，谁在裸泳？ - 英伟达短期安全，长期推理市场会被 TPU / 升腾 / 寒武纪瓜分 - Claude Code 为什么是 Anthropic 的定义时刻完整对谈👇

DeepSeek 像一把抵在硅谷模型公司背后的枪 🔫 硅谷101 今天上线了一期炸裂对谈：OpenAI 前研究员 Jenny Xiao × 芯片架构师肖志斌，两个硅谷内部人聊 DeepSeek v4 带来的生存危机刚好也看到国内比较喜欢的AI博主大聪明“赛博禅心”，在解读这个视频，直播中的两个嘉宾很有料： - 肖志斌：ZFLOW AI 创始人兼 CEO，前华美半导体协会主席，资深芯片架构师 - Jenny Xiao：前 OpenAI 研究员，Leonis Capital 合伙人，专注 AI 投资 I've heard a similar point on an A16z podcast before, and it seems like reality has proven it right again. Marc Andreessen 🇺🇸 Justine Moore Olivia Moore 最狠的三句话： 1️⃣ "If you're a foundation model company and you get surpassed by open source, the value of your business is essentially zero." 这不是技术竞争，这是生死线（kill line） 2️⃣ "硅谷公司钱太多，反而没动力优化效率。中国模型厂商被资源倒逼，更早进入 token efficiency 创新"，资源约束 = 创新加速器 3️⃣ "没有效率，AGI 就只能是个 demo。有了效率，AGI 才能成为真正的产品" ，DeepSeek v4：计算成本 1/3，内存占用 1/10 核心观点 - Anthropic 估值超过 OpenAI 的真相：专注 > 什么都做 - GPT-5.5 比 GPT-5 贵 2 倍，DeepSeek v4 便宜 10 倍，谁在裸泳？ - 英伟达短期安全，长期推理市场会被 TPU / 升腾 / 寒武纪瓜分 - Claude Code 为什么是 Anthropic 的定义时刻完整对谈👇

224,935 Aufrufe • vor 3 Monaten

做 agent 的迟早撞上一个问题：模型再强，一旦要它去做真实、实时的活，就抓瞎大家用 agent 解决实际问题时，经常发现它抓瞎根子常常在搜索这一层：你没给它配搜索，它就只能靠旧知识脑补没有搜索能力的 agent，等于给大脑没装眼睛拿最近很热的Intel股票，我实测了一把 🌟 问题都一样：英特尔最近半年涨幅、最新财报营收、华尔街怎么看下一季先用普通谷歌搜：它给的涨幅 88%，营收 Q1 136 亿，华尔街看法就泛泛几句可我三四月就买了英特尔，88% 这个数，明显偏低了再看一个没装搜索能力的 agent：它把涨幅报成了 168%，又飘到另一个极端评级也只采了 31 位分析师，给个总体印象就完事一个没眼睛的大脑，数字基本靠脑补，两次给你两个都不太对的答案最后给 agent 挂上 AnySearch 的 skill，再问同一句：涨幅约 100%，这回对上了我自己的持仓体感它还顺手拉了 K 线、50 周的高低点、50 / 200 均线评级采了 84 位分析师，主流是持有加买入，卖出只有 7 位每个数都能点回出处，可溯源差别就在这一层：没搜索，agent 靠旧知识脑补，强烈推荐我最近一直在使用的AnySearch🌟

做 agent 的迟早撞上一个问题：模型再强，一旦要它去做真实、实时的活，就抓瞎大家用 agent 解决实际问题时，经常发现它抓瞎根子常常在搜索这一层：你没给它配搜索，它就只能靠旧知识脑补没有搜索能力的 agent，等于给大脑没装眼睛拿最近很热的Intel股票，我实测了一把 🌟 问题都一样：英特尔最近半年涨幅、最新财报营收、华尔街怎么看下一季先用普通谷歌搜：它给的涨幅 88%，营收 Q1 136 亿，华尔街看法就泛泛几句可我三四月就买了英特尔，88% 这个数，明显偏低了再看一个没装搜索能力的 agent：它把涨幅报成了 168%，又飘到另一个极端评级也只采了 31 位分析师，给个总体印象就完事一个没眼睛的大脑，数字基本靠脑补，两次给你两个都不太对的答案最后给 agent 挂上 AnySearch 的 skill，再问同一句：涨幅约 100%，这回对上了我自己的持仓体感它还顺手拉了 K 线、50 周的高低点、50 / 200 均线评级采了 84 位分析师，主流是持有加买入，卖出只有 7 位每个数都能点回出处，可溯源差别就在这一层：没搜索，agent 靠旧知识脑补，强烈推荐我最近一直在使用的AnySearch🌟

47,986 Aufrufe • vor 20 Tagen

你做的海外产品、SaaS网站、Notion 模板、AI prompt 合集，想卖到全球收美元产品你早做完了，真正卡住你的是收款注册海外公司、税号、合规、Stripe 对个人各种不友好连Creem都需要邀请码才能注册一套搞下来，比写产品还累 Waffo Pancake Waffo Pancake：AI 时代的全球收款平台，专为开发者、初创公司和 AI Agent 而生 - 5 行代码，或者一句 prompt 丢给 Claude / Cursor - 钱直连你的银行卡 / 支付宝，全球 135+ 国家税务它全包 - 不用公司，不用海外主体手里有东西能卖，就能开始收全球的钱官网链接：

你做的海外产品、SaaS网站、Notion 模板、AI prompt 合集，想卖到全球收美元产品你早做完了，真正卡住你的是收款注册海外公司、税号、合规、Stripe 对个人各种不友好连Creem都需要邀请码才能注册一套搞下来，比写产品还累 Waffo Pancake Waffo Pancake：AI 时代的全球收款平台，专为开发者、初创公司和 AI Agent 而生 - 5 行代码，或者一句 prompt 丢给 Claude / Cursor - 钱直连你的银行卡 / 支付宝，全球 135+ 国家税务它全包 - 不用公司，不用海外主体手里有东西能卖，就能开始收全球的钱官网链接：

108,185 Aufrufe • vor 1 Monat

设计师有 Figma，程序员有 Cursor，视频创作者一直被困在一个 prompt 框里 TopviewAI 刚刚把这事改了 🌟 Topview Canvas：一个分镜优先的无限画布 · 用 GPT-image-2 直接生成分镜 · 在 Figma 风格的画布上自由排版、调整节奏 · 内置 AI agent 陪你头脑风暴、打磨剧情 · 一键交给 Seedance 2.0 出成片可视化规划，掌控故事，不再为废稿烧钱跨境电商广告片都不用愁了👇

设计师有 Figma，程序员有 Cursor，视频创作者一直被困在一个 prompt 框里 TopviewAI 刚刚把这事改了 🌟 Topview Canvas：一个分镜优先的无限画布 · 用 GPT-image-2 直接生成分镜 · 在 Figma 风格的画布上自由排版、调整节奏 · 内置 AI agent 陪你头脑风暴、打磨剧情 · 一键交给 Seedance 2.0 出成片可视化规划，掌控故事，不再为废稿烧钱跨境电商广告片都不用愁了👇

118,924 Aufrufe • vor 2 Monaten

昨晚刷到的抖音视频和我之前的经历很相似，其实当时考研只是为了想去电网上班，因为之前在供电所帮忙，感觉他们很惬意，早9晚5，中间还能休息好几个小时读研完后去互联网公司，其实也没有改变想法，直到我出来后探索了很久才懂得视频里说的两句话： 1️⃣ 看到有风险的东西你不敢碰，但是你没有看到风险背后的利益； 2️⃣ 看到有利益的东西你就想碰，但你没有看到利益背后的风险。最近有国企的研究生同学问我一些事情，说想辞职，工资太低了我问他想好没出来后要做啥，他说我看你做的不错，能不能和你学，我一下子不知道怎么回复当习惯了确定性的时候，不确定性是你所恐惧的

昨晚刷到的抖音视频和我之前的经历很相似，其实当时考研只是为了想去电网上班，因为之前在供电所帮忙，感觉他们很惬意，早9晚5，中间还能休息好几个小时读研完后去互联网公司，其实也没有改变想法，直到我出来后探索了很久才懂得视频里说的两句话： 1️⃣ 看到有风险的东西你不敢碰，但是你没有看到风险背后的利益； 2️⃣ 看到有利益的东西你就想碰，但你没有看到利益背后的风险。最近有国企的研究生同学问我一些事情，说想辞职，工资太低了我问他想好没出来后要做啥，他说我看你做的不错，能不能和你学，我一下子不知道怎么回复当习惯了确定性的时候，不确定性是你所恐惧的

202,113 Aufrufe • vor 4 Monaten

发现海外的人真牛逼，AI真的可以做游戏啦❗️❗️ 这是 AI 做整套游戏角色目前唯一能跑通的工作流 99% 的人卡在 walk cycle（走路循环动画，左右腿交替的连续动作）上，是因为他们一直试图用 GPT Image 2.0（OpenAI 最新的图像生成模型）/ Nano Banana 2（Google Gemini 的图像生成模型代号）解决无论怎么 prompt（给 AI 的文字指令）、怎么传参考图，图像模型就是做不出对的走路循环左右腿对不上、人物飘出画框、scaling（缩放比例）会乱 🌟 视频模型在这一步反而无敌 Seedance 2.0 image-to-video（字节跳动的视频生成模型，输入一张静态图，输出一段动态视频） 4 秒长度，吐出 80-120 帧（一帧 = 一张画面）关键 prompt：让角色「原地跑」，不能跑出画框绝对不要传任何画布或网格（图像模型那一套在这里全失效，视频模型会把网格融进画面）然后从这 100 多帧里挑 8-12 帧拼成 sprite sheet（精灵图：把所有动画帧拼在一张图里的格式，游戏引擎按帧切片使用） 🧵 完整工作流 ↓ 1️⃣ 先做 anchor（锚定图：后续所有素材都基于这一张衍生的基准图）必须南向，必须中性姿势（不要让它拿武器或法球，否则走路动画里它会一直跟着你）让 GPT Image 2.0 出真像素风有个偏方：除了 prompt，再传一张黑白格子图当第二参考，强制它按格子纪律出图 2️⃣ 从 anchor 扩 4 方向（南 / 北 / 东 / 西，2D 游戏里角色面朝的四个方向）南向 → 让模型生成西向 → 再生成北向东向直接把西向水平翻转，省一次生成的钱翻转时背包 / 武器位置可能错乱，prompt 里加一句「不要让效果出现在背后」 3️⃣ idle 和 attack 用图像模型 + 网格画布传 anchor + 一张 1280×512 的 5×2 像素网格画布按 frame sequence（帧序列：一个完整动作里的连续画面顺序）出动画出来后再让 AI 重新提取每一帧居中（模型自己排版的间距经常是错的） 4️⃣ walk cycle 用视频模型（上面那一段） 5️⃣ 背景统一用 chroma（色键：统一颜色的背景，方便后期一键抠掉）紫色 GPT Image 2.0 和 Nano Banana 2 都不支持透明背景所以全程用亮紫色，后期 fal（ AI 模型 API 的平台，相当于 AI 模型的 1688）上的 birefnet（开源的智能抠图模型）一键去背 6️⃣ sprite normalization（精灵图规范化：把所有帧统一对齐和裁剪的清洗步骤）所有帧统一裁剪、脚底对齐、高度校正、锚点、补边不对齐脚底的后果：角色会在游戏里跳来跳去 📕 整套跑完，一个不会画画的人，能做出 4 方向 × 4 动作的完整 RPG（Role Playing Game：角色扮演游戏）角色现在不会画画的人，也能 1:1 还原他脑子里那个游戏

发现海外的人真牛逼，AI真的可以做游戏啦❗️❗️ 这是 AI 做整套游戏角色目前唯一能跑通的工作流 99% 的人卡在 walk cycle（走路循环动画，左右腿交替的连续动作）上，是因为他们一直试图用 GPT Image 2.0（OpenAI 最新的图像生成模型）/ Nano Banana 2（Google Gemini 的图像生成模型代号）解决无论怎么 prompt（给 AI 的文字指令）、怎么传参考图，图像模型就是做不出对的走路循环左右腿对不上、人物飘出画框、scaling（缩放比例）会乱 🌟 视频模型在这一步反而无敌 Seedance 2.0 image-to-video（字节跳动的视频生成模型，输入一张静态图，输出一段动态视频） 4 秒长度，吐出 80-120 帧（一帧 = 一张画面）关键 prompt：让角色「原地跑」，不能跑出画框绝对不要传任何画布或网格（图像模型那一套在这里全失效，视频模型会把网格融进画面）然后从这 100 多帧里挑 8-12 帧拼成 sprite sheet（精灵图：把所有动画帧拼在一张图里的格式，游戏引擎按帧切片使用） 🧵 完整工作流 ↓ 1️⃣ 先做 anchor（锚定图：后续所有素材都基于这一张衍生的基准图）必须南向，必须中性姿势（不要让它拿武器或法球，否则走路动画里它会一直跟着你）让 GPT Image 2.0 出真像素风有个偏方：除了 prompt，再传一张黑白格子图当第二参考，强制它按格子纪律出图 2️⃣ 从 anchor 扩 4 方向（南 / 北 / 东 / 西，2D 游戏里角色面朝的四个方向）南向 → 让模型生成西向 → 再生成北向东向直接把西向水平翻转，省一次生成的钱翻转时背包 / 武器位置可能错乱，prompt 里加一句「不要让效果出现在背后」 3️⃣ idle 和 attack 用图像模型 + 网格画布传 anchor + 一张 1280×512 的 5×2 像素网格画布按 frame sequence（帧序列：一个完整动作里的连续画面顺序）出动画出来后再让 AI 重新提取每一帧居中（模型自己排版的间距经常是错的） 4️⃣ walk cycle 用视频模型（上面那一段） 5️⃣ 背景统一用 chroma（色键：统一颜色的背景，方便后期一键抠掉）紫色 GPT Image 2.0 和 Nano Banana 2 都不支持透明背景所以全程用亮紫色，后期 fal（ AI 模型 API 的平台，相当于 AI 模型的 1688）上的 birefnet（开源的智能抠图模型）一键去背 6️⃣ sprite normalization（精灵图规范化：把所有帧统一对齐和裁剪的清洗步骤）所有帧统一裁剪、脚底对齐、高度校正、锚点、补边不对齐脚底的后果：角色会在游戏里跳来跳去 📕 整套跑完，一个不会画画的人，能做出 4 方向 × 4 动作的完整 RPG（Role Playing Game：角色扮演游戏）角色现在不会画画的人，也能 1:1 还原他脑子里那个游戏

132,696 Aufrufe • vor 3 Monaten

我觉得Kimi肯定赢了微信公众号，我刷了5分钟没到底

我觉得Kimi肯定赢了微信公众号，我刷了5分钟没到底

19,276 Aufrufe • vor 13 Tagen

9个多月 3W粉丝总结视频自媒体达克效应 1、愚昧山峰：认为自媒体博主，特别是AI博主每天产出那么多高质量内容，很厉害，收藏从未停过 2、绝望之谷：7.27开始尝试X自媒体，第一篇故事贴直接涨粉2k，然后开始一段很长的方向探索期，比如： - 自己到底适合写什么 - 涨粉和变现的权衡 - 内容质量和受众的匹配度问题 - 社群管理问题 3、开悟之坡：C端涨粉变现和C端变现在AI博主这块，很难把控，所以还是C端提供价值内容输出，B端变现 4、持续平稳高原：2月底开了公司，有3位实习生，收入也从2月的四位数到4月的六位数，目前稳住基本盘的同时，开拓其他领域

9个多月 3W粉丝总结视频自媒体达克效应 1、愚昧山峰：认为自媒体博主，特别是AI博主每天产出那么多高质量内容，很厉害，收藏从未停过 2、绝望之谷：7.27开始尝试X自媒体，第一篇故事贴直接涨粉2k，然后开始一段很长的方向探索期，比如： - 自己到底适合写什么 - 涨粉和变现的权衡 - 内容质量和受众的匹配度问题 - 社群管理问题 3、开悟之坡：C端涨粉变现和C端变现在AI博主这块，很难把控，所以还是C端提供价值内容输出，B端变现 4、持续平稳高原：2月底开了公司，有3位实习生，收入也从2月的四位数到4月的六位数，目前稳住基本盘的同时，开拓其他领域

90,932 Aufrufe • vor 2 Monaten

One of the most common challenges of indie hacker is product demand positioning and marketing. On March 8, I launched a Skill collection website in just three days, and I’ve been maintaining it ever since. Along the way, I’ve done a lot of work: optimizing features, updating content, adjusting positioning... but something always seems missing. Recently, I came across a very impressive AI research product that helps validate product feasibility and avoids falling into the trap of self-indulgence. It’s called atypica.AI. Let me break down why this product is actually impressive How it works？ It's very simple. After you give it a business problem, it first clarifies your needs and plans the research approach like a research team. It will help you step into the perspective of your target users and validate whether a product is worth building — before you commit.

One of the most common challenges of indie hacker is product demand positioning and marketing. On March 8, I launched a Skill collection website in just three days, and I’ve been maintaining it ever since. Along the way, I’ve done a lot of work: optimizing features, updating content, adjusting positioning... but something always seems missing. Recently, I came across a very impressive AI research product that helps validate product feasibility and avoids falling into the trap of self-indulgence. It’s called atypica.AI. Let me break down why this product is actually impressive How it works？ It's very simple. After you give it a business problem, it first clarifies your needs and plans the research approach like a research team. It will help you step into the perspective of your target users and validate whether a product is worth building — before you commit.

84,745 Aufrufe • vor 2 Monaten

前两天病倒了，招人加硬扛，直接躺下这条 2026 上半年的营收复盘，来得晚了点半年，跨过了 100 万但比数字更想记的，是它的「结构」：对公 / 工对工，40% 多海外收入，接近三成加密、云账户这些灵活入口，补上一块还有一笔美股，躺着不动现金流第一次真正多元不押在任何单一篮子里 · 海外那三成，是我下半年最想继续做大的方向美股那块长期持有，不占精力，就当一个不操心的账三月才开的公司，已经顶起 40% · 下半年想再开一两条线目标，往 150 万走

前两天病倒了，招人加硬扛，直接躺下这条 2026 上半年的营收复盘，来得晚了点半年，跨过了 100 万但比数字更想记的，是它的「结构」：对公 / 工对工，40% 多海外收入，接近三成加密、云账户这些灵活入口，补上一块还有一笔美股，躺着不动现金流第一次真正多元不押在任何单一篮子里 · 海外那三成，是我下半年最想继续做大的方向美股那块长期持有，不占精力，就当一个不操心的账三月才开的公司，已经顶起 40% · 下半年想再开一两条线目标，往 150 万走

27,540 Aufrufe • vor 27 Tagen

昨晚看了极客公园「今夜科技谈」的直播，张鹏对谈黄碧薇教授 Biwei Huang，聊的是因果大模型本来只想随便听听，结果完整看完了，有几个点想分享黄教授的经历挺特别，因果发现（Causal Discovery）是个小众但很深的领域，1989 年由 CMU 的 Clark Glymour 和 Peter Spirtes 开创，这两位是她的博士导师；后来推动第二代方法的 Kun Zhang、Bernhard Schölkopf，也是她的导师今年她从学校出来创办了 Aether AI（这期直播最值得记住的,是她那张"四代范式"2×2(模型大小 × 学相关还是学因果): ① 90 年代：相关性 × 小模型 ② 2010 年代：因果 × 小模型 ③ 现在：相关性 × 大模型 = LLM ④ 下一站：因果 × 大模型她的解释也很直觉：语言和代码的信息比较浅、数据离散，堆相关性就能做得很好；但物理世界变量太多，VLA 的 demo 再漂亮，桌面高两厘米可能任务就做不了。机器人需要的不只是预测下一帧，而是理解"为什么" 整场对谈把学术的东西讲得很白，不在这个领域的人也能跟上回放🔗在这里：

昨晚看了极客公园「今夜科技谈」的直播，张鹏对谈黄碧薇教授 Biwei Huang，聊的是因果大模型本来只想随便听听，结果完整看完了，有几个点想分享黄教授的经历挺特别，因果发现（Causal Discovery）是个小众但很深的领域，1989 年由 CMU 的 Clark Glymour 和 Peter Spirtes 开创，这两位是她的博士导师；后来推动第二代方法的 Kun Zhang、Bernhard Schölkopf，也是她的导师今年她从学校出来创办了 Aether AI（这期直播最值得记住的,是她那张"四代范式"2×2(模型大小 × 学相关还是学因果): ① 90 年代：相关性 × 小模型 ② 2010 年代：因果 × 小模型 ③ 现在：相关性 × 大模型 = LLM ④ 下一站：因果 × 大模型她的解释也很直觉：语言和代码的信息比较浅、数据离散，堆相关性就能做得很好；但物理世界变量太多，VLA 的 demo 再漂亮，桌面高两厘米可能任务就做不了。机器人需要的不只是预测下一帧，而是理解"为什么" 整场对谈把学术的东西讲得很白，不在这个领域的人也能跟上回放🔗在这里：

43,708 Aufrufe • vor 1 Monat

刚看完 Anthropic 一个研究员的演讲看了好几遍才反应过来这不是 demo 他们刚把一个 22000 行的 PR 合进生产环境强化学习的核心代码库几乎全是 Claude 写的没有任何一个人逐行读过研究员叫 Eric，去年骑车摔断手那两个月里所有代码他都用 Claude 写，所以这套方法他练得很扎实他把「怎么在生产环境放手让 AI 写代码」总结成一句话「忘记代码存在但别忘记产品存在」我看到这句话的时候停了一下 vibe coding 这个词原本是 Karpathy 提的原意是「彻底交给 vibes 忘记代码存在」你用 Cursor 一边补全一边 review 那只算「用 AI 用得多」离真正的 vibe coding 还差很远至于为什么得开始练 Eric 的理由我反驳不了 AI 能独立完成的任务长度每 7 个月翻一倍现在差不多 1 小时明年一天后年一周你还坚持每行都看那一周的活你刚审完就已经过期了你就只剩瓶颈这个角色了但放手不等于闭眼他给了一套挺细的做法 1️⃣ 把自己当成 Claude 的 PM 别再当它的同事多数人写 prompt 像在 chat 正确的做法是当成新人入职你不能跟一个第一天上班的新人说「实现这个功能」然后就走你得带他逛代码库讲清需求把约束列出来 Eric 自己的做法真正干活之前先花 15-20 分钟跟 Claude 在另一个对话里来回讨论让它读代码做计划一起选要改哪几个文件这段聊完把整段计划喂回去再让它跑他说这一步做完之后 Claude 一次跑通的概率非常高 2️⃣ 只在「叶子节点」放手代码库像一棵树主干和粗枝是核心架构别的代码都依赖它这部分人必须读懂叶子节点是端点一个 UI 角落一个一次性脚本没人依赖它就算屎了也不会扩散目前还没人能不读代码就判断技术债所以只能控制范围让屎山别长在重要的位置 3️⃣ 设计可验证的 checkpoint 那 22000 行 PR 是怎么验过的改动集中在叶子节点关键架构部分人审过输入输出做成人能看懂的样子跑了几轮长时间压力测试 Eric 这里讲的一段我特别喜欢他说 CTO 怎么管自己不懂的领域专家 PM 怎么审自己读不懂的代码 CEO 怎么核对自己看不懂的财务模型这种事人类已经干了几百年软件工程师只是没习惯换成「管理」那个视角读不懂代码不可怕没办法验证才可怕 4️⃣ 别低估指数 Eric 引了 Dario 那句 Machines of Loving Grace 那篇文章其实就是产品路线图大家都把它当科幻在读 20 年后模型会比现在好一百万倍 90 年代谁能想到今天电脑里塞着 TB 级内存我们对未来一样整场分享最戳我的是这句收尾今天你不 vibe code 还行明年后年你还在坚持每行都读你就是团队最大的瓶颈模型不会淘汰人拒绝放手的工程师会被自己淘汰

刚看完 Anthropic 一个研究员的演讲看了好几遍才反应过来这不是 demo 他们刚把一个 22000 行的 PR 合进生产环境强化学习的核心代码库几乎全是 Claude 写的没有任何一个人逐行读过研究员叫 Eric，去年骑车摔断手那两个月里所有代码他都用 Claude 写，所以这套方法他练得很扎实他把「怎么在生产环境放手让 AI 写代码」总结成一句话「忘记代码存在但别忘记产品存在」我看到这句话的时候停了一下 vibe coding 这个词原本是 Karpathy 提的原意是「彻底交给 vibes 忘记代码存在」你用 Cursor 一边补全一边 review 那只算「用 AI 用得多」离真正的 vibe coding 还差很远至于为什么得开始练 Eric 的理由我反驳不了 AI 能独立完成的任务长度每 7 个月翻一倍现在差不多 1 小时明年一天后年一周你还坚持每行都看那一周的活你刚审完就已经过期了你就只剩瓶颈这个角色了但放手不等于闭眼他给了一套挺细的做法 1️⃣ 把自己当成 Claude 的 PM 别再当它的同事多数人写 prompt 像在 chat 正确的做法是当成新人入职你不能跟一个第一天上班的新人说「实现这个功能」然后就走你得带他逛代码库讲清需求把约束列出来 Eric 自己的做法真正干活之前先花 15-20 分钟跟 Claude 在另一个对话里来回讨论让它读代码做计划一起选要改哪几个文件这段聊完把整段计划喂回去再让它跑他说这一步做完之后 Claude 一次跑通的概率非常高 2️⃣ 只在「叶子节点」放手代码库像一棵树主干和粗枝是核心架构别的代码都依赖它这部分人必须读懂叶子节点是端点一个 UI 角落一个一次性脚本没人依赖它就算屎了也不会扩散目前还没人能不读代码就判断技术债所以只能控制范围让屎山别长在重要的位置 3️⃣ 设计可验证的 checkpoint 那 22000 行 PR 是怎么验过的改动集中在叶子节点关键架构部分人审过输入输出做成人能看懂的样子跑了几轮长时间压力测试 Eric 这里讲的一段我特别喜欢他说 CTO 怎么管自己不懂的领域专家 PM 怎么审自己读不懂的代码 CEO 怎么核对自己看不懂的财务模型这种事人类已经干了几百年软件工程师只是没习惯换成「管理」那个视角读不懂代码不可怕没办法验证才可怕 4️⃣ 别低估指数 Eric 引了 Dario 那句 Machines of Loving Grace 那篇文章其实就是产品路线图大家都把它当科幻在读 20 年后模型会比现在好一百万倍 90 年代谁能想到今天电脑里塞着 TB 级内存我们对未来一样整场分享最戳我的是这句收尾今天你不 vibe code 还行明年后年你还在坚持每行都读你就是团队最大的瓶颈模型不会淘汰人拒绝放手的工程师会被自己淘汰

51,800 Aufrufe • vor 2 Monaten

Hermes Agent 刚发布 Mixture of Agents 2.0，把多个前沿模型混合成一个虚拟模型使用原理很直接：GPT-5.5、DeepSeek V4、Sonnet 4.6 作为参考模型同时处理同一个问题，Opus 4.8 作为聚合器综合最终答案跑分结果比单独用 Opus 4.8 高 8%，比 GPT-5.5 高 11% 最关键的是在 Hermes 里就像普通模型一样调用，/model 命令切换就行，不需要自己搭框架单个模型都有盲区，混着用反而能互补，开源社区找到了一条弯道超车路线你觉得 MoA 这种「模型组合拳」会成为主流用法吗？

Hermes Agent 刚发布 Mixture of Agents 2.0，把多个前沿模型混合成一个虚拟模型使用原理很直接：GPT-5.5、DeepSeek V4、Sonnet 4.6 作为参考模型同时处理同一个问题，Opus 4.8 作为聚合器综合最终答案跑分结果比单独用 Opus 4.8 高 8%，比 GPT-5.5 高 11% 最关键的是在 Hermes 里就像普通模型一样调用，/model 命令切换就行，不需要自己搭框架单个模型都有盲区，混着用反而能互补，开源社区找到了一条弯道超车路线你觉得 MoA 这种「模型组合拳」会成为主流用法吗？

16,473 Aufrufe • vor 1 Monat

字节悄悄把 GUI Agent 这条路线开源了，而且做得比想象中扎实 UI-TARS-desktop（GitHub 29.4k ⭐）一个仓库里塞了两个东西： · Agent TARS：通用多模态 Agent 框架，CLI 一键启动，能在终端 / 浏览器 / 电脑里跑真实任务（订机票、订酒店、画图都演示过） · UI-TARS Desktop：本地 GUI Agent，看屏幕、点鼠标、敲键盘，全部本地跑，不上传 Apache 2.0、原生支持 MCP，背后是字节自家的 UI-TARS 视觉模型 + Seed-1.5-VL 国产开源 Computer Use 这条线，目前最完整的一份 🔗

字节悄悄把 GUI Agent 这条路线开源了，而且做得比想象中扎实 UI-TARS-desktop（GitHub 29.4k ⭐）一个仓库里塞了两个东西： · Agent TARS：通用多模态 Agent 框架，CLI 一键启动，能在终端 / 浏览器 / 电脑里跑真实任务（订机票、订酒店、画图都演示过） · UI-TARS Desktop：本地 GUI Agent，看屏幕、点鼠标、敲键盘，全部本地跑，不上传 Apache 2.0、原生支持 MCP，背后是字节自家的 UI-TARS 视觉模型 + Seed-1.5-VL 国产开源 Computer Use 这条线，目前最完整的一份 🔗

29,253 Aufrufe • vor 2 Monaten

教育/培训材料制作教学视频制作全流程这四个skills就够了，实现课件 PDF → 提取内容 → 生成练习题/思维导图/视频的流程： 1、paddleocr-doc-parsing_： 2、wshuyi/remotion-video-skill： 3、joeseesun/knowledge-site-creator： 4、coleam00/excalidraw-diagram-skill：

教育/培训材料制作教学视频制作全流程这四个skills就够了，实现课件 PDF → 提取内容 → 生成练习题/思维导图/视频的流程： 1、paddleocr-doc-parsing_： 2、wshuyi/remotion-video-skill： 3、joeseesun/knowledge-site-creator： 4、coleam00/excalidraw-diagram-skill：

46,228 Aufrufe • vor 4 Monaten

被骂擦边却狂揽1亿票房深扒公狗剧场的商业底牌昨天完整听完了钦文这个抖音的采访，对商业、企业有很大启发（上一次对我有很大启发的两个人还是ban总banboo 和锤哥铁锤人）葛俊逸（公狗剧场创始人）思维框架与金句提炼一、商业模型框架群狼文化（矩阵打法）不靠单一 IP 和大流量，50 个演员就是 50 个矩阵号，每个人都有粉丝群、都在做内容、都在引流获客。所有人一起发力形成大群像，萝卜青菜各有所爱利润公式：成本压到最低，效率提到最高，中间叫利润演员数量：9 个 180+ 强壮演员占满舞台 vs 传统 30 人装台时间：3.5 小时 vs 传统 2-3 天产品开发：3-4 个月 vs 传统 1-2 年成本比传统低 60-70%，演出数量是传统的 10 倍全链路自营（司机、搭建、运输），夜间运输不浪费白天时间核心数据： 15 个月 / 800 场 / 80 万观众 / 票房过亿 / 演员月均收入 3-4 万（传统 3-5 千）二、管理哲学框架两力模型：向心力 + 执行力向心力（信任和认可）是前提，有了向心力才有执行力。200 人拧成一股绳靠的是这个管理最高境界： - 被管理而感知不到"管理这个词背后逻辑就是强迫。 - 最高境界是大家知道什么可以做什么不可以做，但没人感觉到谁在管我" 无为管理：全部选择权给他想做互联网就做互联网，想跳舞就跳舞。不强硬管理，散养。一切都是你决定，不是我决定一开一招传递价值观"公司到了某个阶段，用人是一门艺术。 - 我一开除一个人，全公司都知道不要这样的人。 - 我一重用一个人，全公司都知道这是方向" 三、用人框架天赋 = 不累 - "如果他累、沮丧、消耗、低迷，那他没错，我错了，我用错人了。 - 天赋就取决于不累。合适的人放在合适的岗位上，不累，很爽，得心应手" 选择大于培养" - 人是改变不了的。你能成功，你小时候就带着这个使命。释放吸引力，人才涌向你，你才能选择最对的人" 零到一是学校的事，一到十是企业的事"企业的责任不是零到一，你的零到一没解决掉，企业没有这个责任" 面试哲学一对一面试（给足尊重），一分钟看完（行家一眼就知道水平），当场邀请加入（给一个好的迎接感）四、领导力框架老板的核心工作：让每一个指令够准"我发指令前会不停问自己：够准吗？够对吗？大家听到会怎么想？会提什么问题？我先把问题解决掉，最后发一道很准确的指令。公司不准任何人做一个多余的动作" 只跟一把手对话，下面的人只爱护一把手谈事、谈责任、拿结果。下面的人谈"累不累、苦不苦、有什么问题" 与一把手建立深厚感情的方式"没有常胜将军。当他失败的时候，站在他身后帮他解决问题的那个人。要在第一时间出现，理解他，给他试错空间，给他正确方向" 善用财务和人事做左右手"一个企业把钱和人管住了，基本就管住了" 五、金句精选 1️⃣ 关于赚钱 "网红明星都能赚这么多钱，我们是童子工，五岁开始学舞蹈，凭什么不能赚钱。我就是要带他们赚钱" 2️⃣ 关于管理 "如果这场演出还需要老板坐在现场才能演，这个商业模式是没跑通的" 3️⃣ 关于离职 "如果你让我觉得你想走了，我会让你当下立刻走。不需要交接，立刻再见，遥望祝好" "一家企业不会因为任何一个人的离开而动摇。如果动摇了，说明这个老板要面壁思过了，能力太弱" 4️⃣关于画饼 "画饼一定是个褒义词。所有说画饼是贬义词的人全是被害妄想症。能有高手给我画个饼，那是贵人" "给合适的人画合适的饼，还要推着他吃着为止" "跟士兵画明年后年能吃到的饼，跟将军画十年以后的饼。每个人的期待不同" 5️⃣ 关于贵人 "除了给你钱和帮你做，第三件事都不叫贵人" "好为人师的人太多了。你谁你觉得？你什么结果？你了解我的牌吗？你看到全貌了吗？" 6️⃣关于成长 "什么叫勇士？你老待在原地干最简单的事，你懂的东西固然就没有。你敢出去折腾、琢磨、尝试，认知全大了一圈" 7️⃣关于失败 "巨马面前无沟壑" "我那个阶段不配成功就不配，不配赚钱就不配。配不配也不是我说了算，是市场和财务报表说了算" 8️⃣关于成功 "成功不是激情，不是要面子逞强，不是消费欲望。成功是你发自内心想做到" "创业没个二十年都上不了牌桌。我这种八年的小朋友，倒茶的那边排不要" 9️⃣关于效率的三个关键词 "精准、不累、效率" 原文链接：

被骂擦边却狂揽1亿票房深扒公狗剧场的商业底牌昨天完整听完了钦文这个抖音的采访，对商业、企业有很大启发（上一次对我有很大启发的两个人还是ban总banboo 和锤哥铁锤人）葛俊逸（公狗剧场创始人）思维框架与金句提炼一、商业模型框架群狼文化（矩阵打法）不靠单一 IP 和大流量，50 个演员就是 50 个矩阵号，每个人都有粉丝群、都在做内容、都在引流获客。所有人一起发力形成大群像，萝卜青菜各有所爱利润公式：成本压到最低，效率提到最高，中间叫利润演员数量：9 个 180+ 强壮演员占满舞台 vs 传统 30 人装台时间：3.5 小时 vs 传统 2-3 天产品开发：3-4 个月 vs 传统 1-2 年成本比传统低 60-70%，演出数量是传统的 10 倍全链路自营（司机、搭建、运输），夜间运输不浪费白天时间核心数据： 15 个月 / 800 场 / 80 万观众 / 票房过亿 / 演员月均收入 3-4 万（传统 3-5 千）二、管理哲学框架两力模型：向心力 + 执行力向心力（信任和认可）是前提，有了向心力才有执行力。200 人拧成一股绳靠的是这个管理最高境界： - 被管理而感知不到"管理这个词背后逻辑就是强迫。 - 最高境界是大家知道什么可以做什么不可以做，但没人感觉到谁在管我" 无为管理：全部选择权给他想做互联网就做互联网，想跳舞就跳舞。不强硬管理，散养。一切都是你决定，不是我决定一开一招传递价值观"公司到了某个阶段，用人是一门艺术。 - 我一开除一个人，全公司都知道不要这样的人。 - 我一重用一个人，全公司都知道这是方向" 三、用人框架天赋 = 不累 - "如果他累、沮丧、消耗、低迷，那他没错，我错了，我用错人了。 - 天赋就取决于不累。合适的人放在合适的岗位上，不累，很爽，得心应手" 选择大于培养" - 人是改变不了的。你能成功，你小时候就带着这个使命。释放吸引力，人才涌向你，你才能选择最对的人" 零到一是学校的事，一到十是企业的事"企业的责任不是零到一，你的零到一没解决掉，企业没有这个责任" 面试哲学一对一面试（给足尊重），一分钟看完（行家一眼就知道水平），当场邀请加入（给一个好的迎接感）四、领导力框架老板的核心工作：让每一个指令够准"我发指令前会不停问自己：够准吗？够对吗？大家听到会怎么想？会提什么问题？我先把问题解决掉，最后发一道很准确的指令。公司不准任何人做一个多余的动作" 只跟一把手对话，下面的人只爱护一把手谈事、谈责任、拿结果。下面的人谈"累不累、苦不苦、有什么问题" 与一把手建立深厚感情的方式"没有常胜将军。当他失败的时候，站在他身后帮他解决问题的那个人。要在第一时间出现，理解他，给他试错空间，给他正确方向" 善用财务和人事做左右手"一个企业把钱和人管住了，基本就管住了" 五、金句精选 1️⃣ 关于赚钱 "网红明星都能赚这么多钱，我们是童子工，五岁开始学舞蹈，凭什么不能赚钱。我就是要带他们赚钱" 2️⃣ 关于管理 "如果这场演出还需要老板坐在现场才能演，这个商业模式是没跑通的" 3️⃣ 关于离职 "如果你让我觉得你想走了，我会让你当下立刻走。不需要交接，立刻再见，遥望祝好" "一家企业不会因为任何一个人的离开而动摇。如果动摇了，说明这个老板要面壁思过了，能力太弱" 4️⃣关于画饼 "画饼一定是个褒义词。所有说画饼是贬义词的人全是被害妄想症。能有高手给我画个饼，那是贵人" "给合适的人画合适的饼，还要推着他吃着为止" "跟士兵画明年后年能吃到的饼，跟将军画十年以后的饼。每个人的期待不同" 5️⃣ 关于贵人 "除了给你钱和帮你做，第三件事都不叫贵人" "好为人师的人太多了。你谁你觉得？你什么结果？你了解我的牌吗？你看到全貌了吗？" 6️⃣关于成长 "什么叫勇士？你老待在原地干最简单的事，你懂的东西固然就没有。你敢出去折腾、琢磨、尝试，认知全大了一圈" 7️⃣关于失败 "巨马面前无沟壑" "我那个阶段不配成功就不配，不配赚钱就不配。配不配也不是我说了算，是市场和财务报表说了算" 8️⃣关于成功 "成功不是激情，不是要面子逞强，不是消费欲望。成功是你发自内心想做到" "创业没个二十年都上不了牌桌。我这种八年的小朋友，倒茶的那边排不要" 9️⃣关于效率的三个关键词 "精准、不累、效率" 原文链接：

16,795 Aufrufe • vor 1 Monat