Video yükleniyor...
Video Yüklenemedi
NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。🤯 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得也准。 不管是找视频里的物体,还是识别UI界面、OCR文字,它都能搞定。 最关键是模型很小,只有 3B 参数(约7.8GB),消费级显卡也能本地跑!🏠💻 做计算机视觉或者多模态的朋友,这个必须得试试。 项目已开源,手慢无!👇
36,715 görüntüleme • 10 gün önce •via X (Twitter)
0 Yorum
Yorum bulunmuyor
Orijinal gönderinin yorumları burada görünecek
Benzer Videolar
0:25
Sensitive content
现在图生视频都在5秒或10秒,10秒的看上去像5秒的慢放,这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说,如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版,那就显得太不划算了。这里尝试一个方案:从商业闭源模型生成5秒视频,然后用插帧模型生成10秒视频,以下是使用Topaz插帧和原生的对比,供 这里尝试一个方案:从商业闭源模型生成5秒视频,然后用插帧模型生成10秒视频,以下是使用Topaz插帧和原生的对比,供大家参考。 #女s #les #女仆 #AI视频
獨自懵逼
18,922 görüntüleme • 1 yıl önce
