Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

又一个Phone Use开源项目：android-action-kernel，让AI直接动手操作原生Android应用，单次调用成本降低95%、延迟<1秒它主路径不用视觉模型，而是利用Android系统原生的Accessibility API，拿到界面XML树，包括按钮文字、坐标、是否可点状态等，直接获取屏幕语义信息给LLM决策省掉截图-OCR-视觉模型的高成本，每次操作$0.01，便宜了95%；延迟从3-5秒缩短到<1秒，快了5倍；准确性提升至99%+ 项目来自 #phoneuse #AndroidUse #手机AI

AIGCLINK

35,051 subscribers

149,924 Aufrufe • vor 5 Monaten •via X (Twitter)

Gaming Bildung Wissenschaft & Technologie

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

一个相当牛的开源项目 Windows-Use，让任何大语言模型直接控制操作 Windows 系统。支持打开应用、按钮点击、文字输入等基础交互，可自动化执行命令，实现系统级别的自动化操作。 GitHub：同时可实时捕获和理解界面状态，智能判断下一步操作，不依赖传统的计算机视觉模型。支持 Windows 7 到 Windows 11 全系列系统，可直接语音输入，动动嘴皮就能控制电脑。

Sensitive content

一个相当牛的开源项目 Windows-Use，让任何大语言模型直接控制操作 Windows 系统。支持打开应用、按钮点击、文字输入等基础交互，可自动化执行命令，实现系统级别的自动化操作。 GitHub：同时可实时捕获和理解界面状态，智能判断下一步操作，不依赖传统的计算机视觉模型。支持 Windows 7 到 Windows 11 全系列系统，可直接语音输入，动动嘴皮就能控制电脑。

GitHubDaily

35,658 Aufrufe • vor 9 Monaten

太酷了，阿里通义实验室给出了一套完整的可实时交互的数字人系统！先是一款单图秒级3D数字人生成模型：LAM，支持实时动画和交互功能支持跨平台、低延迟、实时渲染另外还开源了两个配套工具，形成了一个完整的可实时交互的数字人系统 1、Audio2Expression，一个音频驱动的表情动画模型，用于驱动LAM生成的数字人头像，根据音频做出相应的嘴型和表情 2、OpenAvatarChat，数字人实时对话系统，核心是多模态低延迟，平均回答延迟在2.2秒左右 #AI数字人 #虚拟主播

太酷了，阿里通义实验室给出了一套完整的可实时交互的数字人系统！先是一款单图秒级3D数字人生成模型：LAM，支持实时动画和交互功能支持跨平台、低延迟、实时渲染另外还开源了两个配套工具，形成了一个完整的可实时交互的数字人系统 1、Audio2Expression，一个音频驱动的表情动画模型，用于驱动LAM生成的数字人头像，根据音频做出相应的嘴型和表情 2、OpenAvatarChat，数字人实时对话系统，核心是多模态低延迟，平均回答延迟在2.2秒左右 #AI数字人 #虚拟主播

AIGCLINK

47,683 Aufrufe • vor 1 Jahr

兄弟们，中文视觉语音开源模型来了类似GPT 4o的高级语音和实时视觉能力，可分析图片和视频内容，提供描述、回答问题等能力。端到端 TTS（文本到语音转换）模块语音交互延迟约 1.5 秒，接近实时的用户体验。该开源项目的目标是达到接近 GPT-4o 级别的多模态性能，能够进行实时的视频、图像语音问答能力。

兄弟们，中文视觉语音开源模型来了类似GPT 4o的高级语音和实时视觉能力，可分析图片和视频内容，提供描述、回答问题等能力。端到端 TTS（文本到语音转换）模块语音交互延迟约 1.5 秒，接近实时的用户体验。该开源项目的目标是达到接近 GPT-4o 级别的多模态性能，能够进行实时的视频、图像语音问答能力。

小互

32,036 Aufrufe • vor 1 Jahr

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

Sensitive content

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

獨自懵逼

18,922 Aufrufe • vor 1 Jahr

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

Gorden Sun

64,434 Aufrufe • vor 5 Monaten

Mininglamp-AI Mininglamp（2718.HK）开源了两个很有意思的项目： Cider 和 Mano-P 一个解决“Mac 本地跑 AI 怎么更快” 一个解决“AI 怎么真正操作电脑” 可以让你的 Mac 不只是运行 AI，而是成为本地 AI 工作站很多人用 Mac 跑本地模型，会遇到一个问题：芯片很强，但模型跑起来没有想象中那么快 Cider 做的事情，就是把 M5 芯片里的 INT8 TensorOps 更充分用起来，让 LLM / VLM 推理更快、更省内存 Mano-P 则是一个 GUI-VLA Agent，面向端侧设备，可以在 Mac mini / MacBook 上本地推理它不是只能操作浏览器，还能操作桌面软件、网页界面、专业工具和复杂图形化工作流支持复杂 GUI 自动化、跨系统数据整合、长任务规划执行、智能报告生成、自主应用构建技术路径是纯视觉 GUI 操作，截图和任务数据可以不出设备 Cider 解决的是： Mac 本地模型怎么跑得更快、更省内存 Mano-P 解决的是： AI 怎么像人一样看屏幕、操作电脑、完成任务一个是端侧推理加速框架一个是端侧 GUI Agent 模型合起来，就是一套私有 AI 的本地基础设施下面是 Mano-P系统在麻将游戏中的应用：通过纯视觉理解游戏界面，自主完成识牌、分析和决策。

Mininglamp-AI Mininglamp（2718.HK）开源了两个很有意思的项目： Cider 和 Mano-P 一个解决“Mac 本地跑 AI 怎么更快” 一个解决“AI 怎么真正操作电脑” 可以让你的 Mac 不只是运行 AI，而是成为本地 AI 工作站很多人用 Mac 跑本地模型，会遇到一个问题：芯片很强，但模型跑起来没有想象中那么快 Cider 做的事情，就是把 M5 芯片里的 INT8 TensorOps 更充分用起来，让 LLM / VLM 推理更快、更省内存 Mano-P 则是一个 GUI-VLA Agent，面向端侧设备，可以在 Mac mini / MacBook 上本地推理它不是只能操作浏览器，还能操作桌面软件、网页界面、专业工具和复杂图形化工作流支持复杂 GUI 自动化、跨系统数据整合、长任务规划执行、智能报告生成、自主应用构建技术路径是纯视觉 GUI 操作，截图和任务数据可以不出设备 Cider 解决的是： Mac 本地模型怎么跑得更快、更省内存 Mano-P 解决的是： AI 怎么像人一样看屏幕、操作电脑、完成任务一个是端侧推理加速框架一个是端侧 GUI Agent 模型合起来，就是一套私有 AI 的本地基础设施下面是 Mano-P系统在麻将游戏中的应用：通过纯视觉理解游戏界面，自主完成识牌、分析和决策。

小互

12,114 Aufrufe • vor 1 Monat

🤣Sketch to 3D！！！做了一个简单好玩的工作流，可以直接把手绘快速变成 3D 模型图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成（可以生成主体+纯色背景），3D 生成用了可以秒出的 TripoSR 模型如果更加追求速度，可以换成 XL-Lightning、TCD 等工作流：

🤣Sketch to 3D！！！做了一个简单好玩的工作流，可以直接把手绘快速变成 3D 模型图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成（可以生成主体+纯色背景），3D 生成用了可以秒出的 TripoSR 模型如果更加追求速度，可以换成 XL-Lightning、TCD 等工作流：

-Zho-

60,729 Aufrufe • vor 2 Jahren

【一款极简的文生图、文生视频程序】老婆最近在搞文学创作，想要AI生图、生视频。我们试了下目前国内模型在武侠形象生成上优于海外，但她觉得目前千问万相调用API太复杂，想让我给她搞个小白可操作的，那么它来了：让你能够用最简单的方式调用阿里云百炼的通义万相图片和视频生成 API，专注于提供极简的 API 和最佳的开发体验。支持页面操作和Notebook自定义调试开源地址：欢迎试用操作演示视频如下：

【一款极简的文生图、文生视频程序】老婆最近在搞文学创作，想要AI生图、生视频。我们试了下目前国内模型在武侠形象生成上优于海外，但她觉得目前千问万相调用API太复杂，想让我给她搞个小白可操作的，那么它来了：让你能够用最简单的方式调用阿里云百炼的通义万相图片和视频生成 API，专注于提供极简的 API 和最佳的开发体验。支持页面操作和Notebook自定义调试开源地址：欢迎试用操作演示视频如下：

岚叔

18,043 Aufrufe • vor 6 Monaten

Krea AI开源其首个图像生成模型 FLUX.1 Krea [dev] 让生成的图像不再有“AI 味” 该模型是在与 Black Forest Labs 合作的基础上开发的指导蒸馏（guidance-distilled）扩散模型 FLUX.1 Krea [dev]的目标是：让 AI 生成的图片看起来更自然、更有艺术感、而不是“AI 味儿”太重。兼容现有的 FLUX.1-dev 生态系统，可无缝集成使用。

Krea AI开源其首个图像生成模型 FLUX.1 Krea [dev] 让生成的图像不再有“AI 味” 该模型是在与 Black Forest Labs 合作的基础上开发的指导蒸馏（guidance-distilled）扩散模型 FLUX.1 Krea [dev]的目标是：让 AI 生成的图片看起来更自然、更有艺术感、而不是“AI 味儿”太重。兼容现有的 FLUX.1-dev 生态系统，可无缝集成使用。

小互

15,889 Aufrufe • vor 7 Monaten

🚀 香港大学刚开源了一个宝藏项目—— CLI-Anything，star 数直接飙到 3 w 它可以扫描任意软件的源代码，自动生成 AI agent 可以直接调用的 CLI 接口。像GIMP、Blender、Audacity 这类没有 API 的桌面软件，Agent 现在可以直接操控了。软件以前是给人用的，现在是给 Agent 用的

🚀 香港大学刚开源了一个宝藏项目—— CLI-Anything，star 数直接飙到 3 w 它可以扫描任意软件的源代码，自动生成 AI agent 可以直接调用的 CLI 接口。像GIMP、Blender、Audacity 这类没有 API 的桌面软件，Agent 现在可以直接操控了。软件以前是给人用的，现在是给 Agent 用的

阿西_出海

167,081 Aufrufe • vor 24 Tagen

接近生产级别的的3D生成模型 Rodin Gen-1 正式上发布可以在几十秒内通过文本生成高质量可直接使用的3D模型，这些模型使用四边形构造，并具有逼真的材质效果（看起来很真实）。 Rodin几乎达到了可以在实际项目和商业用途中直接应用的标准。生成的3D模型质量非常高，细节丰富，足以满足生产级别的要求。

接近生产级别的的3D生成模型 Rodin Gen-1 正式上发布可以在几十秒内通过文本生成高质量可直接使用的3D模型，这些模型使用四边形构造，并具有逼真的材质效果（看起来很真实）。 Rodin几乎达到了可以在实际项目和商业用途中直接应用的标准。生成的3D模型质量非常高，细节丰富，足以满足生产级别的要求。

小互

16,399 Aufrufe • vor 2 Jahren

阿里又开源了一个很绝的项目——PageAgent AI 可以直接操作网页。它最打动我的一点是：把最烦人的数据录入干掉了。很多公司每天都在做这种重复工作：复制数据 → 打开系统 → 填表 → 提交以后可能只需要一句话： “帮我填写客户信息。” AI 就会自动识别网页结构，把整个流程全部做完。几个非常实用的场景： 1. 自动填写网页 CRM 表单、注册表单、订单系统直接让 AI 帮你把网页表单填好。 2. AI 网站助手（Web Copilot）用户可以直接说： - 帮我找订单 - 生成报表 - 搜索商品 AI 自动在后台页面完成操作。 3. 企业系统自动化 ERP、CMS、内部管理系统 AI 可以直接操作后台 UI，把复杂流程自动化。 4. 无障碍辅助语音 → 操作网页用户说话就能完成网页操作。和很多 Agent 不一样的是，它不靠截图识别界面，而是直接读取 HTML DOM，所以： - 更快 - 更稳定 - 成本更低而且整个系统直接运行在浏览器里，不需要： - Puppeteer - Playwright - Python 自动化相当于给网站装了一个 AI 操作员。未来很多网站可能会变成这样：用户不点按钮，而是直接和 AI 说话。

阿里又开源了一个很绝的项目——PageAgent AI 可以直接操作网页。它最打动我的一点是：把最烦人的数据录入干掉了。很多公司每天都在做这种重复工作：复制数据 → 打开系统 → 填表 → 提交以后可能只需要一句话： “帮我填写客户信息。” AI 就会自动识别网页结构，把整个流程全部做完。几个非常实用的场景： 1. 自动填写网页 CRM 表单、注册表单、订单系统直接让 AI 帮你把网页表单填好。 2. AI 网站助手（Web Copilot）用户可以直接说： - 帮我找订单 - 生成报表 - 搜索商品 AI 自动在后台页面完成操作。 3. 企业系统自动化 ERP、CMS、内部管理系统 AI 可以直接操作后台 UI，把复杂流程自动化。 4. 无障碍辅助语音 → 操作网页用户说话就能完成网页操作。和很多 Agent 不一样的是，它不靠截图识别界面，而是直接读取 HTML DOM，所以： - 更快 - 更稳定 - 成本更低而且整个系统直接运行在浏览器里，不需要： - Puppeteer - Playwright - Python 自动化相当于给网站装了一个 AI 操作员。未来很多网站可能会变成这样：用户不点按钮，而是直接和 AI 说话。

开发者Hailey

85,012 Aufrufe • vor 2 Monaten

NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。🤯 以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得也准。不管是找视频里的物体，还是识别UI界面、OCR文字，它都能搞定。最关键是模型很小，只有 3B 参数（约7.8GB），消费级显卡也能本地跑！🏠💻 做计算机视觉或者多模态的朋友，这个必须得试试。项目已开源，手慢无！👇

NVIDIA 刚开源的这个 LocateAnything 模型，真的有点强。🤯 以前那种视觉定位模型，生成坐标是一个数字一个数字往外蹦（像挤牙膏一样），又慢又不稳定。这个新模型用了“并行边界框解码”，直接一步预测完整坐标，速度快多了，框得也准。不管是找视频里的物体，还是识别UI界面、OCR文字，它都能搞定。最关键是模型很小，只有 3B 参数（约7.8GB），消费级显卡也能本地跑！🏠💻 做计算机视觉或者多模态的朋友，这个必须得试试。项目已开源，手慢无！👇

Vincent | 信号＞噪音

36,440 Aufrufe • vor 5 Tagen

#AI开源项目推荐：photoshot 开源 AI 头像生成器 Web 应用程序，包含了完整的网站、AI的API调用、支付等功能，即使你不做同类应用，如果你想做类似的收费AI项目，可以帮你节约很多前期开发工作。技术栈： ▲ Next.js： Web 应用程序 🖼 Chakra UI ：UI 组件的 📦 Prisma：数据库 ORM 🧠 Replicate：一个运行机器学习模型的云平台 💰 Stripe：Stripe 支付 👩‍🎨 Stable Diffusion：开源文本到图像生成模型

#AI开源项目推荐：photoshot 开源 AI 头像生成器 Web 应用程序，包含了完整的网站、AI的API调用、支付等功能，即使你不做同类应用，如果你想做类似的收费AI项目，可以帮你节约很多前期开发工作。技术栈： ▲ Next.js： Web 应用程序 🖼 Chakra UI ：UI 组件的 📦 Prisma：数据库 ORM 🧠 Replicate：一个运行机器学习模型的云平台 💰 Stripe：Stripe 支付 👩‍🎨 Stable Diffusion：开源文本到图像生成模型

宝玉

128,294 Aufrufe • vor 2 Jahren

AI 自动爬取小红书和抖音封面标题的问题，豆包解决了以前用过 comet、dia、manus，都无法解决小红书网页动态加载的问题直接用豆包 AI 操纵安卓机，全解决了，模拟人手滑动页面，直接从屏幕 OCR 识别封面里面的文字

AI 自动爬取小红书和抖音封面标题的问题，豆包解决了以前用过 comet、dia、manus，都无法解决小红书网页动态加载的问题直接用豆包 AI 操纵安卓机，全解决了，模拟人手滑动页面，直接从屏幕 OCR 识别封面里面的文字

dontbesilent

179,647 Aufrufe • vor 6 Monaten

Kyutai 又推出了一个新的语音模型： Unmute 这是一个高度模块化的语音 AI 系统，可以为任何文本大语言模型快速添加语音功能。也就是它可以插入到任意的模型当中，让该模型具有语音能力。 -它能够很智能判断你是否说完一句话，然后再接茬 -你也可以随时打断它 -基于 10 秒语音样本即可定制声音 -能实现“文本流式”合成，支持在文本尚未完全生成时开始说话，进一步降低响应延迟。

Kyutai 又推出了一个新的语音模型： Unmute 这是一个高度模块化的语音 AI 系统，可以为任何文本大语言模型快速添加语音功能。也就是它可以插入到任意的模型当中，让该模型具有语音能力。 -它能够很智能判断你是否说完一句话，然后再接茬 -你也可以随时打断它 -基于 10 秒语音样本即可定制声音 -能实现“文本流式”合成，支持在文本尚未完全生成时开始说话，进一步降低响应延迟。

小互

37,051 Aufrufe • vor 1 Jahr

这个机器人项目的思路还是很牛逼的： LLM无法直接输出操作低端机器人命令，但是可以换一种思路：让LLM生成python的奖励函数代码，从而达到训练机器人的目的。这个项目利用一个Reward Translator（奖励翻译器）：首先将自然语言的运动描述按照指定的模板翻译成一个更符合机器人的动作描述。然后将这个动作描述翻译成Python版本的奖励函数再用运动控制器优化生成的奖励函数。项目地址：

这个机器人项目的思路还是很牛逼的： LLM无法直接输出操作低端机器人命令，但是可以换一种思路：让LLM生成python的奖励函数代码，从而达到训练机器人的目的。这个项目利用一个Reward Translator（奖励翻译器）：首先将自然语言的运动描述按照指定的模板翻译成一个更符合机器人的动作描述。然后将这个动作描述翻译成Python版本的奖励函数再用运动控制器优化生成的奖励函数。项目地址：

宝玉

107,773 Aufrufe • vor 3 Jahren

GitHub 上有个开源小工具：daily-arXiv-ai-enhanced，帮你把“追论文”这件事变成每天自动完成的日常。它会每日抓取 arXiv 最新论文，并用 DeepSeek 等大模型生成中文摘要，让你用更少时间，快速跟上 AI 领域最新研究进展。 GitHub：官网：主要亮点： - 每日自动更新：覆盖计算机视觉 / 图形学 / 自然语言处理三大方向 - 中文摘要自动生成：用 LLM 提炼要点，显著降低阅读成本 - 高度可定制：可自选论文类别、摘要语言与使用的 AI 模型 - 零服务器部署：基于 GitHub Actions 全自动运行，省心省力 - 历史按日期归档：随时回查过去的论文更新 - 个性化配置：支持邮箱与用户信息等定制选项上手也很简单：Fork 项目，填好 API Key 即可跑起来。适合想每天稳定“刷到”最新论文的人。

GitHub 上有个开源小工具：daily-arXiv-ai-enhanced，帮你把“追论文”这件事变成每天自动完成的日常。它会每日抓取 arXiv 最新论文，并用 DeepSeek 等大模型生成中文摘要，让你用更少时间，快速跟上 AI 领域最新研究进展。 GitHub：官网：主要亮点： - 每日自动更新：覆盖计算机视觉 / 图形学 / 自然语言处理三大方向 - 中文摘要自动生成：用 LLM 提炼要点，显著降低阅读成本 - 高度可定制：可自选论文类别、摘要语言与使用的 AI 模型 - 零服务器部署：基于 GitHub Actions 全自动运行，省心省力 - 历史按日期归档：随时回查过去的论文更新 - 个性化配置：支持邮箱与用户信息等定制选项上手也很简单：Fork 项目，填好 API Key 即可跑起来。适合想每天稳定“刷到”最新论文的人。

Joruno

17,181 Aufrufe • vor 1 Monat

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 Aufrufe • vor 6 Monaten