Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

今天玩 seedance2 越玩越心里害怕,下午即梦已经做人物生成限制了。 非常可怕在于,基于大量视频数据集(可能是抖音?),我试着把上周年会活动随便找张照片发上去生成视频,画面是包厢里的一角,结果视频能把画面外大差不差给还原回来,包括另外两面墙和天花板。这只是一家不出名也开没几年的普通饭店。 影视飓风 Tim 也紧急发了一条影片,讲了只要用他的照片,就能自动生成他的声音,以及也能生成他办公室前后的对应画面。 可以说 seedance2.0 是一个掌握大量现实世界的空间和声音的模型,这可能是未来世界模型的极高起点。 人类可能已经打开了潘多拉的魔盒?

36,418 Aufrufe • vor 4 Monaten •via X (Twitter)

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 Aufrufe • vor 6 Monaten

AI 视频制作也接近了 GPT 时刻,视频智能体背后的工作原理🧵 AI 产品都有个可用性易用性的临界点,临界点之下,属于专业玩家的玩具,需要各种提示词技巧、专业知识才能用起来;临界点之上,就真正变成了普通人也可以用起来并且有用的工具。就像 AI 聊天,在 ChatGPT 之前,我们常笑话它们是人工智障,在 ChatGPT 之后,它是真的变成了一个有帮助的助手,能帮助我们完成很多任务,所以我们通常把 AI 产品跨过可用性通用型临界点叫 GPT 时刻。 类似的比如前不久 GPT-4o 发布的图片模型,提示词很简单,不需要像 MidJourney 那样需要专业的提示词才能生成好的图片作品,普通人都可以把自己天马行空的想法变成真实有趣的作品,我这样非专业的都玩了好一段时间。 像 AI 视频类产品我一直没怎么玩,因为对于我这样的非专业人士来说,做好视频太难了,创意和提示词反倒相对容易一点,主要是得写脚本、画图、声音、多条视频,剪辑,做好一条视频要费很多时间精力。 不过上面这条视频倒是没花我多少时间,我就输入了一条提示词: > 生成视频,主题是“西游记人物自拍视频,用自拍的方式来讲述《西游记》经典场景”,视频长度为2分钟。 发送到纳米AI然后等着就成了,整体看着还挺有趣,有画面有声音有剧情。让我觉得 AI 视频终于也接近了 GPT 时刻,普通人也可以通过简单的提示词就能做出还不错的视频作品,动动嘴就能出视频。对于创作者,也可以快速制作视频 Demo,将创意想法快速落地。

宝玉

26,286 Aufrufe • vor 11 Monaten

Pixverse 发布 R1 实时视频世界模型 藏师傅也试了一下 前几天测试的 Pixverse R1 终于发布了,这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。 极限情况下可以实时生成 1080P 的高清视频,感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验,目前他们在一个单独的平台测试需要邀请码。 你可以选择预制的的三个主题进行体验,三个主题分别是巨龙巢穴、二战主题、海底世界,正式版本会增加到 6 个。 也可以创建自己的主题,选择画面比例、风格输入主题相关提示词就可以了。 生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。 而且这里生成的视频居然还是带音乐、音效混合旁白的,比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有: 这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流,接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构,用来实现无限连续的生成,还使用了增加注意力机制,确保长时间生成的内容一致性。 为了适配实时视频生成的性能,他们将原来的迭代降噪逻辑进行了多项优化,他们叫瞬时响应引擎 (IRE),主要包括三个优化: Temporal Trajectory Folding:传统模型从噪点到清晰图像需要迭代几十步,他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification:直接将传统的 CFG 逻辑蒸馏到了模型参数内部,节省了时间。 Adaptive Sparse Attention:生成高分辨率的视频的时候让模型学会学会“抓大放小”,自动识别重要区域进行精细计算,大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试,生成的分辨率是 480P,过几天会提高到 720P。

歸藏(guizang.ai)

16,295 Aufrufe • vor 4 Monaten