Uploaded: 2025-07-07T08:50:28.000Z
Duration: PT18.000S
Channel: karminski-牙医

做RAG的朋友一定要看看 Google 这个新论文——MUVERA：让多向量检索与单向量搜索一样快大家在RAG的检索内容过程都会遇到这种情况，如果用传统搜索（例如ElasticSearch），文档 = 1 个向量 → 快速但不准确。如果用向量数据库，现代多向量搜索：文档... = 数百个向量 → 准确但极其缓慢。于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量，同时保留相似性关系。其神奇之处在于，两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集，使其既能够抵抗数据分布的变化，又适合流式应用。此外，与模型产生的单向量不同，FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此，在重排序阶段之后，MUVERA 保证能够找到最相似的多向量表示。所以这个新方法能有效地提升RAG检索阶段的效率，现阶段连Python库都有了，需要的同学可以试试。论文地址： Chamfer 相似度： python库：show more

karminski-牙医

30,043 просмотров • 11 месяцев назад

在 GitHub 上发现一个开源项目：Memvid，颠覆传统的向量数据库处理方式，直接将文本数据编码成视频文件。通过将数百万文本块压缩到单个 MP4 文件中，不仅实现了 10 倍的存储压缩率，还能在亚秒级时间内完成语义搜索，完全无需数据库服务器。 GitHub：... show more

GitHubDaily

57,587 просмотров • 1 год назад

Distil-Whisper：让语音识别的速度提高 5.8 倍，参数减少 51%，准确度保持在 99%。 Whisper 在语音识别方面表现卓著，但是它有一个明显的缺点：训练出来的小模型支持的语言比较少，而大模型推理速度又很慢。如果你有海量的数据需要处理，或者对实时性要求略高，那使用 Whisper 可能会让你比较头疼。... 你可以使用工程手段来加速推理，例如将语音分片后并发处理然后合并结果，但这里涉及到本地计算资源瓶颈的问题，以及合并分片时容错处理的问题，工程复杂度比较高。《Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling 》， Whisper 的 Large-v2 model 生成了一系列的 soft targets（也就是概率分布），然后复制 Whisper 网络的第一层和最后一层解码器，最后生成了一个更小、更快效果更好的蒸馏模型 Distil-Whisper。论文数据写的是：速度提高了 5.8 倍，参数减少了 51%，准确度保持在 99%。这个模型的效果之所以不错，主要还是得益于训练数据的完备，它结合了九个公开可用的语音识别数据集，合并后包含 21170 小时的语音数据，涵盖超过 18260 名说话者和 10 个不同的领域；自从 Whisper 大力出奇迹（它从互联网爬取了 68w 小时的数据，未公开）以后，相信后续语音领域的论文都会配置更庞大的数据集。 Distil-Whisper 目前开源在 Hugging Face 上，模型地址： Demo： Demo 会把模型下载到本地，然后通过 WebGPU 直接在网页上跑起来，测试了下效果，还是挺不错的。目前仅支持英文，如果想让它支持中文，需要使用同样海量的中文语料数据，重新做一次知识蒸馏，但我觉得即便是这样做，效果也不一定好，因为 Whisper 本身对中文、韩语等支持就不太优秀，这个信息可以从 Whisper 的论文中找到数据支撑。下面这个视频是 Whisper 和 Distil-Whisper 的对比效果：show more

Barret李靖

124,227 просмотров • 2 лет назад

.Irys (✧ᴗ✧) 主网的脚步越来越近，叙事正在悄然转变。别再只当它是存储协议。它的新身份：数据执行层。目标从来不只是存储。而是让数据真正活起来——结构化、可验证、可交互。过去需要多层架构才能实现的功能，Irys 用一个统一接口全部搞定，将存储、索引、权限控制和可编程读写融为一体。... 拿 AI 验证网络来说。它通过多模型共识来保证 AI 输出的准确性，这会源源不断地产生海量结构化数据。如果底层设施无法支撑快速的写入、验证和复用，整个模式根本无法运转。 Irys 正是支撑这一切的底层。起初，Irys 只是 Mira 的验证数据存储方。但最新的动向显示，这些验证记录未来可能会被其他智能合约直接引用。这个趋势至关重要：存下来的不再是冰冷的归档，而是可以被随时调用的热数据。主网即将上线。与其听各种天花乱坠的解读，不如多关注真正在上面构建的项目。那里，才是真相。show more

阿毛

13,685 просмотров • 8 месяцев назад

暴力，Google直接把31GB向量干到4GB，压缩率92%！本地跑大模型RAG，以前要服务器，现在笔记本+RTX4090直接猛干！意味着：以后手机、笔记本就能跑百万token长上下文（million-token long context），隐私数据全本地搞，再也不用给大厂喂数据！开源利器 turbovec给力了：... - 向量存储：1000万条数据原来占31GB，现在只用4GB（10M vectors: 31GB → 4GB），效果和FAISS几乎一样好 - 零训练在线添加：不用训练、不用调参，新数据实时加进去，索引秒级更新，越用越大也不用重建 - 搜索速度更快：苹果M3芯片比FAISS快12-20%，英特尔/AMD电脑也一样快或更快 - 带过滤搜索：可以直接筛选指定数据，混合搜索（文字+向量）非常丝滑，完全不损失准确率 - TurboQuant核心更强：KV Cache压缩到3bit，注意力计算速度提升8倍，精度几乎无损失 AI除云端可有其他选择，普通人也能随便玩转本地私域知识库了！本地 RAG / 边缘部署 / 离线大模型的终极福音！show more

HankAI

266,531 просмотров • 18 дней назад

Qrs 二维码传输文件的小工具有了重大更新：传输速度大幅提升！用了 Luby Transform 编码。它是喷泉码（Fountain Codes）的一种。基本原理是将原始数据分成多个小块，然后通过编码生成无限数量的编码块。接收方只需收到足够多的编码块（通常比原始块稍多）就可以重建原始数据。

绚香音 Rizumu

168,648 просмотров • 1 год назад

今天出差路上，突然意识到命运这东西确实存在。不然怎么解释，有人日夜奔波勉强温饱，有人却云淡风轻就拥有了一切？那些不争不抢却拥有一切的人，绝大多数并不是天生好命，而是在某个关键节点，做了一个当时看起来不起眼、事后被证明无比正确的选择。可能是十年前咬牙买下的一套房子，可能是五年前毅然转行的一个决定，也可能是三年前认准了一个新兴平台开始深耕。记住：你的选择决定了你会遇见谁，经历什么，成为怎样的人。在重要的十字路口，谨慎选择但不要逃避选择。因为不去选择，本身就是一种选择——你选择了让命运替你决定人生。很多人一辈子都在埋头苦干，却从没抬头看路。他们相信勤劳致富，却不知道选择致富比勤劳致富快十倍。当新趋势来临的时候，他们的第一反应是怀疑、否定、嘲笑，等到别人已经靠这个趋势赚得盆满钵满时，他们才后知后觉地想要入场，却发现最好的时机已经过去。选择的价值在于它是指数级的。一个正确的选择带来的不是线性增长，而是阶跃式的飞跃。就像滚雪球，最重要的不是初始的雪量，而是找到那条足够长的坡道。你的每一个选择，都是在为这个雪球选择滚动的方向。这个时代的残酷在于，它不会因为你的努力而给予回报。真正的回报只给那些在正确方向上努力的人。在传统行业拼死拼活，可能不如一个新赛道上的简单尝试。这不是命运不公，而是认知的差距。所以，别一味相信命运的安排。要相信选择的力量。人生的分水岭，不在起点，不在终点，而在那些关键的选择点上。选择比努力重要，方向比速度重要。你的每一个选择，都在悄悄改变你人生的轨迹。命运或许更像是一副牌局。有人天生拿了一手好牌，这不可否认。但真正决定结局的，往往不是牌的好坏，而是出牌的选择。一个好的选择，其力量足以扭转整局游戏的走向。

免费进微信认证项目群//赚钱/网赚/挣钱/野路子/搞钱/0成本创业/非黑u搬砖跑分灰产/完全合法副业

12,965 просмотров • 9 месяцев назад

东京。晚霞。东京大学教授说，日本是非移民国家，但对中国和韩国的移民不排斥。所以，印度人很难占领日本？他说是的。印度的持续人口扩张，不只限于它国内，而是向全球扩张。在与印度关系“更近”的西方国家，尤其是同为英语母语的国家，印度裔人口的规模更是有过之无不及。在英国，印度裔不仅数量惊人，甚至还出了个大英首相，大有“反向殖民”之势。那么，印裔如何在十年间成为加拿大的“主人”？

亚洲金融 Asia Finance

338,721 просмотров • 1 год назад

以时速80公里把自己从时速80公里的卡车上发射出去。会发生什么？答案是：原地落下。教科书上的物理学，有人用身体去验证了。向前的速度，正好被向后的发射速度抵消。相对于地面，速度为零。这背后是一个关于能量效率的简单道理。就像动画《高达》里，为什么战舰不从后方弹射机体出击？因为那是巨大的能量浪费。... show more

战斗室

572,169 просмотров • 4 месяцев назад

重构 Meme 资产的链上使用方式是 MemeMax 的本质。大多数人理解 Meme，停留在两个层面。一个是价格波动。一个是情绪传播。... 但如果你长期在链上，你会发现一个更底层的问题。 Meme 的交易量很大，但使用深度极浅。大多数 Meme 只完成了一件事，被买卖。一旦热度消失，它们在链上的存在感几乎归零。 MemeMax 的价值，并不在于又做了一个永续 DEX。而在于它第一次让 Meme 资产，具备了持续被使用的结构。在传统现货市场，Meme 的生命周期非常短。从注意力爆发，到交易高峰，再到流动性枯竭，节奏极快。因为现货市场只能承载单向行为，买或者卖。 MemeMax 引入永续之后，直接改变了这一点。资产不再只在一个方向上消耗情绪。而是开始承载双向博弈。多头并不是为了长期持有。空头也不只是为了对冲。双方的存在，本身就在持续制造成交和费用。这会带来一个非常关键的变化。 Meme 的价值开始从叙事价值，转向使用价值。当一个 Meme 拥有足够深的合约市场时。它就不再只是一个情绪符号。而是一个可以被反复参与、反复交易、反复定价的资产。 MemeMax 把这一层做成了基础设施。它不是在筛选最强的 Meme。而是在给 Meme 一个延长生命周期的工具。这也是为什么 MemeMax 更像 MemeCore 生态里的中枢。不是流量入口，而是行为聚合器。你会看到一个趋势。随着合约深度增加，链上讨论不再只围绕价格。而是围绕仓位结构，资金费率，情绪倾斜。这其实是 Meme 资产成熟的标志。从纯粹注意力，进入可持续博弈。如果你只把 MemeMax 当成一个交易所。那你一定会低估它。它真正做的，是让 Meme 从一次性叙事，变成可以反复被使用的金融对象。这一步一旦成立。 Meme 赛道就不再是短线玩家的游乐场。而是会诞生真正长期存在的资产。 #Mememax #kaitoshow more

草帽 boy

86,536 просмотров • 5 месяцев назад

一个人的概念量，尤其是清晰准确的概念量，是衡量智能水平的最佳数据指标。而最佳落地实践工具一直近在眼前👀 这种概念量，最好的管理、迭代、积累方式就是logseq。用了一年多logseq，我积累了接近 6000 条概念笔记，相互之间建立了12000 个链接，共同构成了一个不小的 LCM（大概念模型，meta 最新提出的理论，我还没细看，但是和我的实践差不多🤣）。对比之下，我 2009... 年使用 evernote，到 2020 年停用之前，我也只有 15000 条笔记，而且不是概念笔记，无法在概念砖块之间灵活建立丰富的链接。大语言模型这两年，胜过人类的两千年，两万年！语言的边界，就是思想的边界。而最好的落地方式，就是费曼学习法 + logseq + chatgpt。（我在 X 上一直碎碎念讲这个历年，就不展开了🤣show more

howie.serious

105,522 просмотров • 1 год назад

LongWriter 是一个由清华大学数据挖掘研究小组（THUDM）开发的开源项目旨在让LLMs生成超长文本 LongWriter解决了LLMs生成内容的时候容易出现上下文不连贯或信息重复的情况同时能在不到一分钟内，生成超过 10000 字，甚至20000 字连贯性、结构合理且逻辑清晰、条理分明的超长内容。 LongWriter是通过一种基于代理的“计划-写作”方法，将复杂的长文本生成任务分解为多个子任务，每个子任务只需生成一段文本。... show more

小互

19,742 просмотров • 1 год назад

在抖音越来越多的人采用这种方式了，据说要评论她才能拿到钱，评论区里都是“万一只差一个逗号呢”之类的留言，所以这类视频的流量通常都很不错。

iGeekbb

1,043,997 просмотров • 6 месяцев назад

我竟然看懂这篇文章了😂 类似于Karparthy知识库的逻辑，个人知识库可以有更多延伸的方式的。这个知识库分了5层，把博主以往发出的所有内容进行归档拆分，在继续创作的时候，可以用skill调取相关节点的内容进行重组。 🆚对比自己的知识库，训练的意义在于重塑所有信息之间的联系，让理解方式融会贯通

LISA

15,309 просмотров • 23 дней назад

一晚上没睡翻看了这几年的相册感慨很多这两年我一直专注自己我远离所有低能量的人去激活自己的高能量喝酒只是想喝酒不再是负能量的发泄准确的来说我没有负能量可能能量效应的原因我也在越来越好我永远记得穷途末路时心里那种天差地别的滋味... show more

Rinoa

65,428 просмотров • 8 месяцев назад

把 iPhone 17 PM 放到狗狗的不锈钢饭盆里传数据，真的快了好多… 我老婆手机数据量只有500多G，我有1T多，但我最终用时比她的少了2h！这一代用起来没啥变化，我唯一感到舒服的就是信号貌似变好了？总之不建议换…我是为了给老婆换机子才顺带换的，这下至少又能用3年…🤣

Crypto_Painter

25,483 просмотров • 8 месяцев назад

很多人在研究 StandX 的时候，习惯性地会把它归类为又一个永续合约交易所，然后就开始机械地对比手续费或者奖励政策。说实话，如果你的视角只停留在这些表面参数上，那大概率会错过它真正想做的那次底层取舍。它真正动刀子的地方，其实不在于交易撮合有多快，也不在于界面做得多华丽，而是在于清算这件事本身。如果你在币圈待得够久，你就会发现，链上衍生品发展到今天，最大的系统性风险从来不是成交深度够不够，而是清算过程中的那种失序感。别只盯着深度看，清算才是协议的死穴现在的链上衍生品市场，看起来挺热闹，但其实逻辑挺脆弱的。一旦行情出现那种极端的剧烈波动，清算价格往往会被预言机牵着鼻子走，导致大量的仓位在短时间内集中爆掉。... 这时候，系统要么得靠保险基金硬扛，要么就得面对直接产生的坏账。这也是为什么很多协议在小规模运行的时候看着挺好，可一旦交易量和持仓量上去了，整个系统就会变得特别脆。 StandX 的切入点其实挺让人意外的，甚至有点反直觉。它并没有跟着大流去研究怎么把清算的速度做得更快，而是换了个思路，把清算这个原本是断裂的，瞬间发生的动作，拆解成了一个可以被定价，且有缓冲余地的持续过程。它不是在火烧眉毛的时候才去救火，而是把风险管理的工作做到了最前面。把风险前移，让保证金不再是死钱在 StandX 的这套设计逻辑里，保证金不再是一个死气沉沉的抵押物，而是一个能持续参与系统博弈的变量。这里就不得不提到 DUSD 的作用了。通过这种设计，仓位在还没真正进入高风险区间的时候，其实就已经在为整个系统积累缓冲层了。你仔细想想，这种缓冲并不是事后的补救措施，而是一种事前就已经完成的风险定价。换句话讲，StandX 是把清算的风险给前移了。它不需要等到你的仓位快要爆仓了才去急急忙忙处理，而是在你整个持仓的周期里面，通过收益流和资金费率的变化，不断地在吸收那些潜在的风险波动。这就带来了一个非常关键的改变，清算不再是系统的某个断点，而是变成了一段连续过程的一部分。它把那种爆发式的价格波动给拆解到了时间的长河里，而不是让它集中在某个特定的价格区间内爆发。为什么低波动环境反而能体现它的优势我们平时见到的传统永续协议，最怕的就是行情平淡。一旦市场没波动了，交易量就会下滑，资金费率也会枯竭，最后导致提供流动性的人收益下降，整个系统的稳定性反而会变差。 StandX 在这种低波动的环境下，它的模型反而跑得更顺。因为 DUSD 的收益流和那套做市机制是一直在工作的，风险在这里被缓慢地累积，同时也在被缓慢地消化掉。从协议的角度来看，这其实是一次风险管理思维的彻底转向。它不再寄希望于外部的保险基金来兜底，而是让每一笔仓位在它的生命周期里，都在为自己可能带来的清算风险买单。最聪明的地方在于，这个成本对用户来说是隐性的，它是通过整个收益结构的优化来完成的，而不是让你直接感觉到手续费变贵了。做一个风险定价引擎，而不是单纯的交易台这也解释了为什么 StandX 好像并不急着去宣传那些百倍杠杆之类的噱头。因为它更关心的是，在允许高杠杆存在的前提下，系统到底还能不能保持一种线性的响应。你得明白，只有当清算变成了一个可控的变量，高杠杆这件事才有真正的金融意义。很多协议把风控当成了一种不得不加的限制条件，而 StandX 显然是把风控当成了它的核心产品。所以说，StandX 的本质其实更接近一个风险定价引擎，而不仅仅是一个交易平台。你在前端看到的那些交易行为，只是冰山露出来的尖端，而在底层跑的那套把波动转化为系统收入的机制，才是它最厚实的底座。如果这套逻辑能在各种复杂的行情里持续跑通，那它解决的就不只是某一轮牛熊市里的流量问题，而是链上衍生品长期以来无法规模化扩张的那个根本矛盾。在这个行业里，谁能吸引更多交易者固然重要，但谁能在不失控的情况下承载更多的风险，谁才能真正笑到最后。这条路确实不好走，短期内可能也没法通过几个简单的数据指标来验证它的优越性。但一旦这种模式被市场验证是可行的，StandX 的位置就不再是去参与那些同质化的竞争，而是会变成那个定义规则的人。 #StandX #kaitoshow more

草帽 boy

12,435 просмотров • 5 месяцев назад

谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。项目简介：它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。 VLOGGER 包含两个关键组件: 1) 一个随机的人体到 3D 运动的扩散模型;... 2) 一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。这种方法可以生成高质量、可变长度的视频,并且可以通过人脸和身体的高级表示进行便捷控制。与之前的工作相比,我们的方法具有以下优势:不需要为每个人单独训练模型;不依赖人脸检测和裁剪;能生成完整的图像(而非仅限于脸部或嘴唇);适用于广泛场景(如躯干可见或身份多样化),这对于正确合成具有沟通能力的虚拟人至关重要。项目地址：show more

歸藏(guizang.ai)

31,171 просмотров • 2 лет назад

全自动科学论文工厂，它真的来了。你该看看这个新仓库。之前那个中国大学生搞了个MiroFish，做实时社会模拟；字节跳动那边出了OpenViking，把记忆结构化；还有Percepta，把数学计算直接嵌进大模型的权重里；吴恩达那边也推了个Context Hub，相当于给代理加了一层自己标注的文档系统。 👉 Polymarket 官方入口：现在，AutoResearchClaw 刚在... GitHub 上线——一个全自动的科学论文生成器。仓库上线几个小时，就拿了差不多 4k 星。给一个原始的想法进去，出来的就是一篇 6000 字、能直接用的 PDF 论文。关键它不是那种垃圾玩意儿。它背后跑的是真正的代理系统： · 自己做实验：写代码、跑测试、读日志，崩了还能自己调 · 几乎没有幻觉：走硬核四层验证，对接真实科学数据库，没有假引用 · 格式也挑不出毛病：图表自动生成，LaTeX 排版，直接对标 NeurIPS / ICML 的标准挺有意思的悖论是：这东西不会把 arXiv 搞死。仓库：当生成一篇论文的成本几乎为零，真正的权力就到了“筛选者”手里。行业里的新神，会是那些活人审稿人——他们要在无穷无尽的 AI 论文洪流里，手动淘出真东西。愿安息吧，五年磨一篇的突破性论文——可能一夜之间就被批量淹没了。把这几样东西拼在一起看： MiroFish 的集群 + OpenViking 的记忆 + Percepta 的真实数学 + Context Hub 的干净文档 + AutoResearchClaw 的自主研究你就得到了一类代理——能自己跑完整个研究闭环，用真数学去验证假设，反复推敲，以远超人类的速度做出真正的突破。这不就是在 Polymarket 和各类条件市场上，搭建下一代预测机器人要用的那套东西吗？代理自己去研究、模拟、验证概率，用科学的方法更新判断，而不是靠猜。一个真正能发现、能证明的预测超级代理时代，就这么来了。存好这套配置。如果想在 Polymarket 上搞跟单交易，我推荐用这个： #Polymarketshow more

区块链行情研究

62,073 просмотров • 3 месяцев назад

MiMo推出1000 Token/s超高速模型｜体验测评 MiMo 推出了 MiMo V2.5 Pro UltraSpeed 超高速的模型版本，能够实现每秒输出超过... 1,000 Token 的速度。同时，这应该也是全球第一个达到这个速度的万亿（1T）参数模型。藏师傅提前试了一下，做了三个测试，确实爽。第一个跑了一个比较复杂的 3D 采矿小游戏测试。在没有素材的情况下，我让它全部用 Three.js 前端代码来生成素材。整体要求比较完整，虽然第一次实践时出了一些小问题，但在跟他沟通修改建议后，非常完美地实现了任务。这次测试的各项指标如下：思考的 TPS：804 Token/s，峰值速度：810 Token/s，首次响应时间：4.71 秒。第二个测试给了一个官网，其头部包含一个相对复杂的 3D 动画。这次的输出速度快了非常多：峰值达到了 1426 Token/s，首次响应只用了 0.83 秒，在 32 秒内输出了 25624 个 Token，总计生成了 1000 行代码。第三个测试给了一个更复杂的官网。我要求这个官网的 Header 头部包含以下 3D 效果：地球边缘、轨道上的飞船、星际尘埃、航线图、舷窗的 HUD 样式。这个效果非常好，整体的视觉样式、状态、SVG 动画和驾驶卡片都非常精细，还有滚动的视差效果这个输出的 TPS 达到了 1136 tokens/s，首次响应是 4.5 秒官方测试平台下面有个数据展示，会显示相关信息在流式输出的情况下，当你看着它只用 20 秒就产生一个非常复杂的 3D 游戏时，那种场景还是比较震撼的之前的这些（比如说 Groq 之类的）超高速推理方案，在模型能力或者是整体水平上都会有所下降，但是 MiMo 这个在测试的时候，我没有看到这种迹象最近很多公司都开始推出这种超高速的 API 服务，比如之前 OpenAI 和 Anthropic 都有 Fast 模式在 Agent 场景下，模型输出效率的提升会直接带动每一步 Agent 操作的效率：如果一个任务预估一分钟完成，你就会盯着它直到结束，然后立刻投入测试。如果需要五分钟才完成，你可能就会去干别的事，然后再回来看，难免会浪费一些时间这种效率提升在 Sub-Agent 和并发场景下更加明显。因为它可以更快地产出大量结果，想象一下，如果同时启动一两百个 Sub-Agent，在模型能力没有衰减的前提下，速度提高 10 倍，体验是非常爽的毕竟这本质上是面向那种对效率有极高要求的 To B 客户所推出的希望后面大家卷起来，优化一下成本，让普通用户也能放开用这种 UltraSpeed 模型show more

歸藏(guizang.ai)

26,223 просмотров • 17 дней назад

Google推出了一种在 StableDiffusion 图像生成中保证内容特征一致性的方式。这个其实是现在图像生成中一个非常重要的问题，故事可视化、游戏开发资产设计、广告等都需要在生成的时候具备角色或者内容的一致性。从演示来看效果非常好人物角色和其他内容的特征都保持的非常好，他们有一个示例是一个男人的一生十几张不同年龄段的图片都很像能看出来是一个人。而且这个项目还可以跟 SD 已有的控制方式结合，比如局部重绘和 Controlnet... 等。下面是具体的介绍：实现方法：身份聚类：这一步骤涉及首先生成一系列图像，然后将这些图像嵌入到一个语义空间中。接着，使用聚类算法将这些图像分组，每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像，从而确定角色的主要视觉特征。身份提取：在确定了一组具有高内聚性的图像之后，接下来的步骤是通过在这些图像上训练模型来提炼出一个更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征，以便在未来的生成中更准确地重现这些特征。收敛性：方法的最后一个步骤是迭代过程，该过程在达到一定的收敛标准时停止。在每次迭代中，模型基于最新的训练数据生成新的图像，并重新进行聚类和身份提取。这个过程重复进行，直到模型能够可靠地生成具有一致视觉身份的角色为止。效果验证：定性和定量比较：在这一部分，作者将他们的方法与其他个性化文本到图像生成技术进行比较。这包括通过视觉和数值指标来评估生成图像的一致性和质量。用户研究：作者还进行了一项用户研究，以评估他们的方法在实际使用中的效果。这包括让用户评价生成图像的一致性和吸引力。消融研究：这部分是对方法中不同组件的效果进行评估。通过修改或移除方法的某些部分，作者能够理解每个组成部分对最终结果的贡献。论文链接：show more

歸藏(guizang.ai)

125,770 просмотров • 2 лет назад

Live Cam