正在加载视频...

视频加载失败

最近 FLUX 生成擦边视频和网红图看起来很火啊。 其实我有个比较成体系的网红图生成方案。 主要是一些保证正式感的参数和流程,还有一些保证擦边内容质量的东西。 之前的问题是已有的视频模型面部表情过于僵硬,海螺刚好解决了这个问题。 看看要不要整理一下。

164,496 次观看 • 1 年前 •via X (Twitter)

10 条评论

歸藏(guizang.ai) 的头像
歸藏(guizang.ai)1 年前

刚刷到的,新号,这几天搞的,这就起量了

歸藏(guizang.ai) 的头像
歸藏(guizang.ai)1 年前

AI图片检测结果:

歸藏(guizang.ai) 的头像
歸藏(guizang.ai)1 年前

西乔老师这个也很厉害,这类流程商业价值都很大也相对复杂。

奇点 的头像
奇点1 年前

国内的生图平台还是太敏感了,很多都不能生成,生成视频又走样。海螺勉强好点。

今天午餐吃甚麼? 的头像
今天午餐吃甚麼?1 年前

昨天看到黎明的新歌MV,馬上想起藏師傅 他這個是全AI視頻,超級複雜繁瑣,平均兩三秒一個畫面,總抽卡數起碼是以千為單位的,還得搭配歌詞,想分鏡,修後期🤒

歸藏(guizang.ai) 的头像
歸藏(guizang.ai)1 年前

工作量太大了

August 的头像
August1 年前

感觉以后不管生产内容的都是先生图,再用视频模型让图动起来的模式了。

通透马说 的头像
通透马说1 年前

晃头的动作很欧美

AI geesehoward 的头像
AI geesehoward1 年前

要是图生视频能本地运行就好了, 现在在线的本质还是抽卡,花钱抽卡抽到自己不想要的成本太高,也不符合经济学,利润不够成本

歸藏(guizang.ai) 的头像
歸藏(guizang.ai)1 年前

luma 有 Comfyui 插件,价格也不贵,可以接受了

相关视频

Pixverse 发布 R1 实时视频世界模型 藏师傅也试了一下 前几天测试的 Pixverse R1 终于发布了,这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。 极限情况下可以实时生成 1080P 的高清视频,感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验,目前他们在一个单独的平台测试需要邀请码。 你可以选择预制的的三个主题进行体验,三个主题分别是巨龙巢穴、二战主题、海底世界,正式版本会增加到 6 个。 也可以创建自己的主题,选择画面比例、风格输入主题相关提示词就可以了。 生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。 而且这里生成的视频居然还是带音乐、音效混合旁白的,比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有: 这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流,接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构,用来实现无限连续的生成,还使用了增加注意力机制,确保长时间生成的内容一致性。 为了适配实时视频生成的性能,他们将原来的迭代降噪逻辑进行了多项优化,他们叫瞬时响应引擎 (IRE),主要包括三个优化: Temporal Trajectory Folding:传统模型从噪点到清晰图像需要迭代几十步,他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification:直接将传统的 CFG 逻辑蒸馏到了模型参数内部,节省了时间。 Adaptive Sparse Attention:生成高分辨率的视频的时候让模型学会学会“抓大放小”,自动识别重要区域进行精细计算,大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试,生成的分辨率是 480P,过几天会提高到 720P。

歸藏(guizang.ai)

16,373 次观看 • 5 个月前

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:

宝玉

300,591 次观看 • 1 年前

熟悉Prompt的同学们应该都知道,通常在写Prompt的时候要先设定角色:“你是XX方面的专家”,这并非玄学,而是有科学根据的。 GPT在训练的时候,有各种训练数据,有的质量高有的质量低,而默认情况下,生成高质量数据和低质量数据的概率差不多,但是当你给它设定XX专家的角色时,它会尽可能把概率分布在高质量的解决方案上。 详细内容建议看下面这段Andrej Karpathy在State of GPT中的一段演讲。 以下是这段视频的文字文字内容: ---------- 下面我要讲的这点对LLM的理解非常有趣,我觉得这算是LLM的一种心理特性:LLM并不追求成功,而是追求模仿。你希望它成功,那就需要向它明确要求。这里的意思是,在训练Transformer的过程中,它们有各种训练集,而这些训练数据中可能涵盖了各种不同质量的表现。比如,可能有一个关于物理问题的提示,然后可能有学生的解答完全错误,但也可能有专家的答案完全正确。尽管Transformer可以识别出低质量的解决方案和高质量的解决方案,但默认情况下,它们只会模仿所有的数据,因为它们仅仅是基于语言模型进行训练的。 在实际测试中,你其实需要明确要求它表现得好。在这篇论文的实验中,他们尝试了各种提示。例如,“让我们逐步思考”这种提示就很有效,因为它把推理过程分散到了许多记号上。但效果更好的是这样的提示:“让我们以一步一步的方式解决问题,以确保我们得到正确的答案。” 这就好像是在引导Transformer去得出正确的答案,这会使Transformer的表现更好,因为此时Transformer不再需要把它的概率质量分散到低质量的解决方案上,尽管这听起来很荒谬。 基本上,你可以自由地要求一个高质量的解决方案。比如,你可以告诉它,“你是这个话题的领先专家。假装你的智商是120。” 但不要尝试要求太高的智商,因为如果你要求智商400,可能就超出了数据分布的范围,更糟糕的是,你可能落入了类似科幻内容的数据分布,它可能会开始展现一些科幻的,或者说角色扮演类的东西。所以,你需要找到适合的智商要求。我想这可能是一个U型曲线的关系。

宝玉

348,453 次观看 • 3 年前