基于Llama 3.2的轻量级开源OCR工具:llama-ocr,不到5行代码搞定 目前支持图像处理,输出markdown格式,它复杂的图像,比如收据或包含表格/图表的PDF等能力优秀 支持本地图片和网络图片OCR Npm包: Hassan高产,期待logo生成器 ocr #llamaocr

AIGCLINK's profile picture

AIGCLINK

28,941 просмотров • 1 год назад

集截屏、OCR、搜索、翻译、贴图、屏幕翻译、以图搜图、滚动截屏、录屏于一身的工具:eSearch OCR后可调用翻译,跨平台支持 github:

AIGCLINK's profile picture

AIGCLINK

40,099 просмотров • 1 год назад

结构化数据提取工具:knowledge-table,它可以以自然语言查询的方式从非结构化文档中提取结构化数据,并以表格或图表的形式展现 提供了类似于电子表格的用户界面,非技术也能使用 1、可自定义提取规则,支持数据追溯 2、支持链式提取,可基于之前提取的信息继续提问 3、支持导出为CSV或图形三元组 github: #数据结构化 #数据提取

AIGCLINK's profile picture

AIGCLINK

17,292 просмотров • 1 год назад

这个图片处理的工具,只要你用过就会立马路转粉😊 能快速轻松地将 JPEG 和 PNG 位图转换为 SVG 矢量,可无限量放大,目前支持的最大图像像素大小为2万像素, 不用登录,还能免费使用 🔗

千寻 🌸's profile picture

千寻 🌸

79,851 просмотров • 2 лет назад

英伟达版的“Banana”,英伟达开源了一款物理级图像编辑模型:ChronoEdit-14B,静态图+一句话,4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”,它能理解动作,比如说“推倒”、“拿起”这种动作,可以根据它学到的物理常识,画出这个动作发生后,世界应该变成什么样子 8 步扩散完成一次图像编辑,在H100上约4秒一张图 从效果看,预测动作发生结果的能力比较强,改变姿势后,人物、服装、背景风格的一致性也保持的比较好,光影、反射效果处理的也比较符合逻辑 可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

AIGCLINK's profile picture

AIGCLINK

26,735 просмотров • 7 месяцев назад

二、介绍 DomoAI |DomoAI official Domo AI 是一个智能艺术生成器, 可以快速创建高质量的动漫图片🏙️+头像👩⚕️ 支持:...

老白(每日干货分享✊)'s profile picture

老白(每日干货分享✊)

15,870 просмотров • 1 год назад

实现0.5秒出图改图 Black Forest Labs 推出亚秒级速度图像生成模型:FLUX.2 [klein] ⚡ 0.5 秒内生成或编辑图像...

小互's profile picture

小互

24,961 просмотров • 4 месяцев назад

notebooklm 可以生成非常精美的ppt,但是有时候大家需要合成一张图片,便于后续分享、加工做成海报。 我在网上看了现成的,发现居然要收19.9$/月,无语了。。。 于是自己vibe 了一个 pdf 转 图片的网站,分享给大家使用:支持合成一张长图或者组合成一张A4大小的图片,支持提交自己名称水印 可直接使用的地址: 开源仓库地址:

岚叔's profile picture

岚叔

48,137 просмотров • 6 месяцев назад

一个轻量级的数字人项目:MiniMates,支持语音和表情两种驱动模式,可在普通电脑上实时运行 one-shot单图驱动,最低只需要一张图片 可以说话、眨眼、转头、做表情等 支持实时交互,实时摄像头表情捕捉、实时头部跟踪、实时语音对话 github: #数字人 #AI虚拟人

AIGCLINK's profile picture

AIGCLINK

35,360 просмотров • 1 год назад

谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。 项目简介: 它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。 VLOGGER 包含两个关键组件: 1) 一个随机的人体到 3D 运动的扩散模型;...

歸藏(guizang.ai)'s profile picture

歸藏(guizang.ai)

31,171 просмотров • 2 лет назад

短视频内容制作神器!北大等高校开源的一个可控制的人物图像动画视频项目:DisPose,人物特征、服装细节等细节保持的很好,动作过度看起来比较自然流畅 #DisPose #图像动画视频生成

AIGCLINK's profile picture

AIGCLINK

24,679 просмотров • 1 год назад

发现个 Claude Code 的神级 Skill,画图颜值真的吊打 Mermaid 和 fireworks-tech-graph,只要你一句话,它直接给你吐出生产级别的 SVG+PNG...

Vincent | 信号>噪音's profile picture

Vincent | 信号>噪音

118,599 просмотров • 29 дней назад

可灵昨晚发布了 O1: 一个大一统的视频、图像生成和编辑工具,支持你能想到所有图像和视频编辑能力。 藏师傅会对这次新增的一些能力进行测试,同时大概教大家一下这个模式应该如何使用 👇下面是具体的教程和测试内容

歸藏(guizang.ai)'s profile picture

歸藏(guizang.ai)

46,516 просмотров • 6 месяцев назад

前几天在推特刷屏的基于LCM和SDXL Turbo每秒生成110张图像的项目居然开源了, 有想做相关实时图像生成产品的可以关注一下。 StreamDiffusion是一种扩散模型管道,主要是为了实时图像生成服务的,为实时图像生成提供了显著的性能增强。 支持的模型和输出帧率: ◆SD-turbo,1步,t2i每秒帧率106,i2i每秒帧率93。 ◆LCM-LoRA+KohakuV2,4步,t2i每秒帧率38,i2i每秒帧率37。 主要特点: ◆通过高效的批处理操作实现了数据处理的流程优化。...

歸藏(guizang.ai)'s profile picture

歸藏(guizang.ai)

30,312 просмотров • 2 лет назад

Krea AI 推出「Video Training」 可以自己上传视频训练属于自己的 AI视频风格模型 使用的是 Wan 2.1...

小互's profile picture

小互

11,442 просмотров • 1 год назад

如何做一个超级装逼的AI视频? Seedance2.0帮我实现了中学时期的幻想,变身英雄拯救全校师生,顺便把学校炸了🤫 制作这个《人前显圣》的视频分为三步 1、把自己的照片发给gemini,生成正面侧面背面三视图 2、自己用gemini生图绘制,或者从网上找变身后的铠甲图片和怪物图片 3、把自己的三视图,铠甲图,怪物图一起复制粘贴到小云雀或即梦,再复制粘贴我的提示词。 等待几分钟生成视频,发到你的朋友圈装逼吧!

Rion Wu's profile picture

Rion Wu

64,870 просмотров • 2 месяцев назад

Live_Portrait_Monitor 另一个支持实时渲染的 Live Portrait项目。 支持直接从摄像头获取的表情视频迁移到对应图片上变成新的视频。 可以直接用来直播。

歸藏(guizang.ai)'s profile picture

歸藏(guizang.ai)

23,303 просмотров • 1 год назад

AI时代,世界就是一个巨大的markdown文件。 这个网站 可以把文件转化成AI需要到markdown文件。无需注册,打开即用 这些类型到文件都可转换成Markdown文件 📄 PDF、DOCX、ODT 📊 Excel、Numbers、CSV 🖼图像(AI驱动的OCR+摘要)

苏打白.Dev's profile picture

苏打白.Dev

70,252 просмотров • 3 месяцев назад

终于!历时 3 天打磨,来自日本、德国、巴西、韩国等朋友的支持 💪 支持 72+ 图片和视频模板、 open-design 正式支持全模态设计!🔥...

Tom Huang's profile picture

Tom Huang

98,852 просмотров • 1 месяц назад