Video wird geladen...
Video konnte nicht geladen werden
又一个Phone Use开源项目:android-action-kernel,让AI直接动手操作原生Android应用,单次调用成本降低95%、延迟<1秒 它主路径不用视觉模型,而是利用Android系统原生的Accessibility API,拿到界面XML树,包括按钮文字、坐标、是否可点状态等,直接获取屏幕语义信息给LLM决策 省掉截图-OCR-视觉模型的高成本,每次操作$0.01,便宜了95%;延迟从3-5秒缩短到<1秒,快了5倍;准确性提升至99%+ 项目来自 #phoneuse #AndroidUse #手机AI
149,924 Aufrufe • vor 5 Monaten •via X (Twitter)
0 Kommentare
Keine Kommentare verfügbar
Kommentare vom Original-Post werden hier angezeigt
Ähnliche Videos
2:56
Sensitive content
一个相当牛的开源项目 Windows-Use,让任何大语言模型直接控制操作 Windows 系统。 支持打开应用、按钮点击、文字输入等基础交互,可自动化执行命令,实现系统级别的自动化操作。 GitHub: 同时可实时捕获和理解界面状态,智能判断下一步操作,不依赖传统的计算机视觉模型。 支持 Windows 7 到 Windows 11 全系列系统,可直接语音输入,动动嘴皮就能控制电脑。
GitHubDaily
35,658 Aufrufe • vor 9 Monaten
0:25
Sensitive content
现在图生视频都在5秒或10秒,10秒的看上去像5秒的慢放,这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说,如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版,那就显得太不划算了。这里尝试一个方案:从商业闭源模型生成5秒视频,然后用插帧模型生成10秒视频,以下是使用Topaz插帧和原生的对比,供 这里尝试一个方案:从商业闭源模型生成5秒视频,然后用插帧模型生成10秒视频,以下是使用Topaz插帧和原生的对比,供大家参考。 #女s #les #女仆 #AI视频
獨自懵逼
18,922 Aufrufe • vor 1 Jahr
