Name: 基于Llama 3.2的轻量级开源OCR工具：llama-ocr，不到5行代码搞定 目前支持图像处理，输出markdown格式，它复杂的图像，比如收据或包含表格/图表的PDF等能力优秀 支持本地图片和网络图片OCR Npm包： Hassan高产，期待logo生成器 ocr #llamaocr
Uploaded: 2024-11-13T00:58:09.000Z
Duration: PT13.233S
Channel: AIGCLINK
Description: AIGCLINK shorts video about 基于Llama 3.2的轻量级开源OCR工具：llama-ocr，不到5行代码搞定 目前支持图像处理，输出markdown格式，它复杂的图像，比如收据或包含表格/图表的PDF等能力优秀 支持本地图片和网络图片OCR Npm包： Hassan高产，期待logo生成器 ocr #llamaocr

基于Llama 3.2的轻量级开源OCR工具：llama-ocr，不到5行代码搞定目前支持图像处理，输出markdown格式，它复杂的图像，比如收据或包含表格/图表的PDF等能力优秀支持本地图片和网络图片OCR Npm包： Hassan高产，期待logo生成器 ocr #llamaocr

AIGCLINK

28,941 просмотров • 1 год назад

集截屏、OCR、搜索、翻译、贴图、屏幕翻译、以图搜图、滚动截屏、录屏于一身的工具：eSearch OCR后可调用翻译，跨平台支持 github：

AIGCLINK

40,099 просмотров • 1 год назад

结构化数据提取工具：knowledge-table，它可以以自然语言查询的方式从非结构化文档中提取结构化数据，并以表格或图表的形式展现提供了类似于电子表格的用户界面，非技术也能使用 1、可自定义提取规则，支持数据追溯 2、支持链式提取，可基于之前提取的信息继续提问 3、支持导出为CSV或图形三元组 github： #数据结构化 #数据提取

AIGCLINK

17,292 просмотров • 1 год назад

这个图片处理的工具，只要你用过就会立马路转粉😊 能快速轻松地将 JPEG 和 PNG 位图转换为 SVG 矢量，可无限量放大，目前支持的最大图像像素大小为2万像素，不用登录，还能免费使用 🔗

千寻 🌸

79,851 просмотров • 2 лет назад

英伟达版的“Banana”，英伟达开源了一款物理级图像编辑模型：ChronoEdit-14B，静态图+一句话，4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”，它能理解动作，比如说“推倒”、“拿起”这种动作，可以根据它学到的物理常识，画出这个动作发生后，世界应该变成什么样子 8 步扩散完成一次图像编辑，在H100上约4秒一张图从效果看，预测动作发生结果的能力比较强，改变姿势后，人物、服装、背景风格的一致性也保持的比较好，光影、反射效果处理的也比较符合逻辑可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

AIGCLINK

26,735 просмотров • 7 месяцев назад

二、介绍 DomoAI ｜DomoAI official Domo AI 是一个智能艺术生成器，可以快速创建高质量的动漫图片🏙️+头像👩⚕️ 支持：... show more

老白（每日干货分享✊）

15,870 просмотров • 1 год назад

实现0.5秒出图改图 Black Forest Labs 推出亚秒级速度图像生成模型：FLUX.2 [klein] ⚡ 0.5 秒内生成或编辑图像... 🧩 同时支持：文字生成、图像编辑、多图融合功能 💻 消费级显卡即可运行（13GB VRAM 起） 🖼️ 输出接近商业级成品，质量≈ Midjourney V6 🚀延迟降低 5–10 倍，同时保持领先的图像保真度与风格多样性 4B 模型：Apache 2.0 全开源，可自由商用与再训练 9B 模型：FLUX NCL（非商业许可），用于研究与原型开发show more

小互

24,961 просмотров • 4 месяцев назад

notebooklm 可以生成非常精美的ppt，但是有时候大家需要合成一张图片，便于后续分享、加工做成海报。我在网上看了现成的，发现居然要收19.9$/月，无语了。。。于是自己vibe 了一个 pdf 转图片的网站，分享给大家使用：支持合成一张长图或者组合成一张A4大小的图片，支持提交自己名称水印可直接使用的地址：开源仓库地址：

岚叔

48,137 просмотров • 6 месяцев назад

一个轻量级的数字人项目：MiniMates，支持语音和表情两种驱动模式，可在普通电脑上实时运行 one-shot单图驱动，最低只需要一张图片可以说话、眨眼、转头、做表情等支持实时交互，实时摄像头表情捕捉、实时头部跟踪、实时语音对话 github： #数字人 #AI虚拟人

AIGCLINK

35,360 просмотров • 1 год назад

谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。项目简介：它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。 VLOGGER 包含两个关键组件: 1) 一个随机的人体到 3D 运动的扩散模型;... 2) 一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。这种方法可以生成高质量、可变长度的视频,并且可以通过人脸和身体的高级表示进行便捷控制。与之前的工作相比,我们的方法具有以下优势:不需要为每个人单独训练模型;不依赖人脸检测和裁剪;能生成完整的图像(而非仅限于脸部或嘴唇);适用于广泛场景(如躯干可见或身份多样化),这对于正确合成具有沟通能力的虚拟人至关重要。项目地址：show more

歸藏(guizang.ai)

31,171 просмотров • 2 лет назад

短视频内容制作神器！北大等高校开源的一个可控制的人物图像动画视频项目：DisPose，人物特征、服装细节等细节保持的很好，动作过度看起来比较自然流畅 #DisPose #图像动画视频生成

AIGCLINK

24,679 просмотров • 1 год назад

发现个 Claude Code 的神级 Skill，画图颜值真的吊打 Mermaid 和 fireworks-tech-graph，只要你一句话，它直接给你吐出生产级别的 SVG+PNG... 技术图。最绝的是它有 7 种神仙画风：深色终端风、工程蓝图风、毛玻璃风，甚至还能模仿 OpenAI 和 Claude 的官方配色风格。支持 14 种 UML 图，像 RAG 架构、多智能体协作这种复杂图，一句"帮我画个 RAG 架构图，深色风格"直接搞定。安装贼简单，一行命令 `npx skills add yizhiyanhua-ai/fireworks-tech-graph` 就能装到 Claude Code 里，输出 SVG 方便二次编辑，高清 PNG 直接贴文档。平时写技术文档、做汇报 PPT 的，这个必须试一下。项目地址放评论区了👇show more

Vincent | 信号＞噪音

118,599 просмотров • 29 дней назад

可灵昨晚发布了 O1：一个大一统的视频、图像生成和编辑工具，支持你能想到所有图像和视频编辑能力。藏师傅会对这次新增的一些能力进行测试，同时大概教大家一下这个模式应该如何使用 👇下面是具体的教程和测试内容

歸藏(guizang.ai)

46,516 просмотров • 6 месяцев назад

前几天在推特刷屏的基于LCM和SDXL Turbo每秒生成110张图像的项目居然开源了，有想做相关实时图像生成产品的可以关注一下。 StreamDiffusion是一种扩散模型管道，主要是为了实时图像生成服务的，为实时图像生成提供了显著的性能增强。支持的模型和输出帧率： ◆SD-turbo，1步，t2i每秒帧率106，i2i每秒帧率93。 ◆LCM-LoRA+KohakuV2，4步，t2i每秒帧率38，i2i每秒帧率37。主要特点： ◆通过高效的批处理操作实现了数据处理的流程优化。... show more

歸藏(guizang.ai)

30,312 просмотров • 2 лет назад

Krea AI 推出「Video Training」可以自己上传视频训练属于自己的 AI视频风格模型使用的是 Wan 2.1... show more

小互

11,442 просмотров • 1 год назад

如何做一个超级装逼的AI视频？ Seedance2.0帮我实现了中学时期的幻想，变身英雄拯救全校师生，顺便把学校炸了🤫 制作这个《人前显圣》的视频分为三步 1、把自己的照片发给gemini，生成正面侧面背面三视图 2、自己用gemini生图绘制，或者从网上找变身后的铠甲图片和怪物图片 3、把自己的三视图，铠甲图，怪物图一起复制粘贴到小云雀或即梦，再复制粘贴我的提示词。等待几分钟生成视频，发到你的朋友圈装逼吧!