Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

腾讯 Hunyuan 130亿参数的开源视频模型有点东西我自己做了视频，感觉比官方的好点，哈哈哈应该是用了大量的影视资源训练了，很有电影的感觉动作幅度很连贯自然、摄像角度似乎也很大，镜头还能来回的切换。对表情的捕捉也很到位，整体看非常的流畅自然。跟Sora类似的DiT架构，并在业界内第一个适配新一代语言模型作为文本编码器，具备强大的语义跟随能力。

小互

109,446 subscribers

20,859 Aufrufe • vor 1 Jahr •via X (Twitter)

Wissenschaft & Technologie Bildung

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

在今天的百度世界大会上，沉寂许久的百度发布其文心5.0（EB5）模型似乎是憋了个大招根据公布的信息,这代模型直接从训练伊始就融合文本、图像、音频、视频训练数据是一个原生的全模态模型... - 参数规模高达 2.4 万亿 - MoE架构激活参数比例< 3% 测试了下视频分析能力，感觉是有点东西... 真的能看懂视频，不只是台词，画面分析的也很可以...

在今天的百度世界大会上，沉寂许久的百度发布其文心5.0（EB5）模型似乎是憋了个大招根据公布的信息,这代模型直接从训练伊始就融合文本、图像、音频、视频训练数据是一个原生的全模态模型... - 参数规模高达 2.4 万亿 - MoE架构激活参数比例< 3% 测试了下视频分析能力，感觉是有点东西... 真的能看懂视频，不只是台词，画面分析的也很可以...

小互

38,838 Aufrufe • vor 7 Monaten

腾讯杀疯了！开源了参数最多、性能最强的文生视频大模型。我已经测试了一段时间。混元视频生成模型整体效果非常厉害，在美学表现、稳定性、运动幅度的品质上都是一流的。下面有详细介绍：

腾讯杀疯了！开源了参数最多、性能最强的文生视频大模型。我已经测试了一段时间。混元视频生成模型整体效果非常厉害，在美学表现、稳定性、运动幅度的品质上都是一流的。下面有详细介绍：

歸藏(guizang.ai)

146,364 Aufrufe • vor 1 Jahr

网飞开源了一个很强的视频编辑模型。它可以直接删除视频中的某个物体。但真正夸张的点是：它连这个物体对周围画面的影响，也能一并消掉。不只是“把东西抹掉”，而是在重新生成一段合理的视频。

网飞开源了一个很强的视频编辑模型。它可以直接删除视频中的某个物体。但真正夸张的点是：它连这个物体对周围画面的影响，也能一并消掉。不只是“把东西抹掉”，而是在重新生成一段合理的视频。

梦想夏乡

15,455 Aufrufe • vor 2 Monaten

大家好，这是我第二个训练的版本，这次我拿我自己的声音练了TTS模型，我自己觉得中文的情感很到位了。希望你能看完给我一些评论反馈，这对我很重要谢谢✋😭🤚

大家好，这是我第二个训练的版本，这次我拿我自己的声音练了TTS模型，我自己觉得中文的情感很到位了。希望你能看完给我一些评论反馈，这对我很重要谢谢✋😭🤚

CuiMao

97,951 Aufrufe • vor 5 Monaten

卧槽 !! 我发现做视频，也非常有意思哈，这两天剪映用的越来越顺手了把 youtube / tiktok 的无字幕英语视频，加上中文字幕的全套自动化流程，录个剪短的视频，更有可看性整个 SOP 在视频中，变现相当舒畅。3 大块各自的用法，实例做一遍，一目了然。可惜的是，不能商业化。很多细节还没攻克。不过，搬运内容，不成问题了。卷死视频号，小红书，哈哈哈哈

卧槽 !! 我发现做视频，也非常有意思哈，这两天剪映用的越来越顺手了把 youtube / tiktok 的无字幕英语视频，加上中文字幕的全套自动化流程，录个剪短的视频，更有可看性整个 SOP 在视频中，变现相当舒畅。3 大块各自的用法，实例做一遍，一目了然。可惜的是，不能商业化。很多细节还没攻克。不过，搬运内容，不成问题了。卷死视频号，小红书，哈哈哈哈

黄赟

291,799 Aufrufe • vor 2 Jahren

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

indigo

183,903 Aufrufe • vor 2 Jahren

Fish Audio 发布最新的语音生成模型：S1 宣称达到专业配音演员的表现力与自然度 S1具备：高度自然、流畅的声音丰富的语气和情绪控制强大的指令跟随能力可通过自然语言控制一系列情绪：从（愤怒）、（高兴）、（悲伤）到细微的（强调）、（低语）、（同情）等等！其训练数据超过 200 万小时音频表现力和自然度在 TTS-Arena 中排名第一

Fish Audio 发布最新的语音生成模型：S1 宣称达到专业配音演员的表现力与自然度 S1具备：高度自然、流畅的声音丰富的语气和情绪控制强大的指令跟随能力可通过自然语言控制一系列情绪：从（愤怒）、（高兴）、（悲伤）到细微的（强调）、（低语）、（同情）等等！其训练数据超过 200 万小时音频表现力和自然度在 TTS-Arena 中排名第一

小互

26,524 Aufrufe • vor 1 Jahr

好朋友公司出了一个非常棒的 AI 视频工具：medeo 首先，可以一键生成视频，这个或许不新鲜了。但 medeo 在生成好初稿后，还可以通过对话，不断帮你剪辑、调整、重新生成。同时能自由调用选择 nano-banana, sora2 等一众第一梯队的模型。一个下午体验下来有点像视频版的 cursor 了，真的很惊艳。目前测试下来，感觉特别擅长做内容结构化很强的视频（比如科普、解说、etc）但看到内测群里已经有海龟汤、MV、游戏等各个品类的出现了，感觉还有很高的上限。附加的视频是用 medeo 一键生成的，请 TA 做个视频介绍“光伏羊”。

好朋友公司出了一个非常棒的 AI 视频工具：medeo 首先，可以一键生成视频，这个或许不新鲜了。但 medeo 在生成好初稿后，还可以通过对话，不断帮你剪辑、调整、重新生成。同时能自由调用选择 nano-banana, sora2 等一众第一梯队的模型。一个下午体验下来有点像视频版的 cursor 了，真的很惊艳。目前测试下来，感觉特别擅长做内容结构化很强的视频（比如科普、解说、etc）但看到内测群里已经有海龟汤、MV、游戏等各个品类的出现了，感觉还有很高的上限。附加的视频是用 medeo 一键生成的，请 TA 做个视频介绍“光伏羊”。

Ring Hyacinth

12,592 Aufrufe • vor 6 Monaten

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》（中英双语字幕）这个视频介绍了大型语言模型（Large Language Models，LLMs）的概念、使用场景、提示调整以及Google的Gen AI开发工具。大型语言模型是深度学习的一个子集，可以预训练并进行特定目的的微调。这些模型经过训练，可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后，可以利用相对较小的领域数据集对这些模型进行定制，以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是：大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模，也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练，然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括：一种模型可用于不同的任务；微调大型语言模型需要的领域训练数据较少；随着数据和参数的增加，大型语言模型的性能也在持续增长。此外，视频还解释了传统编程、神经网络和生成模型的不同，以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中，提示设计和提示工程是两个密切相关的概念，这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型：通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。原始视频链接：

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》（中英双语字幕）这个视频介绍了大型语言模型（Large Language Models，LLMs）的概念、使用场景、提示调整以及Google的Gen AI开发工具。大型语言模型是深度学习的一个子集，可以预训练并进行特定目的的微调。这些模型经过训练，可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后，可以利用相对较小的领域数据集对这些模型进行定制，以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是：大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模，也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练，然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括：一种模型可用于不同的任务；微调大型语言模型需要的领域训练数据较少；随着数据和参数的增加，大型语言模型的性能也在持续增长。此外，视频还解释了传统编程、神经网络和生成模型的不同，以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中，提示设计和提示工程是两个密切相关的概念，这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型：通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。原始视频链接：

宝玉

114,603 Aufrufe • vor 3 Jahren

昨天发了一个视频，看到评论里有人问：你都在用 Claude Code 了，为什么还要用国内的 Coding Plan？对我来说，这不是一个二选一的问题，而是一个补充题。大家都知道御三家的硬实力更强，这点没什么好争议的。但很多日常场景里，国产模型其实已经能在速度、质量、成本之间取得一个不错的平衡。比如文本处理、资料整理、基础 coding、简单 agent 任务，这类占日常 80% 的工作，很多时候并不一定非要上最贵的模型。对大多数中国用户来说，国产模型更顺手，速度也够，价格还低不少。还有一个经常被忽略的点，其实是处理速度。我自己实测下来，国内这些模型在一些简单任务上，接口响应和首字速度都很快。像翻译、语音输入后的文本修正、基础润色、简单改写这类高频小任务，用起来其实很舒服。你并不需要每一次都把最贵、最强的模型拉出来跑一遍。另外我觉得，现在国内头部几家 AI 厂商，已经不是“能不能做”的问题了。无论是阿里还是字节，一方面有足够的算力和基础设施，另一方面本身也有持续做模型研发和产品迭代的能力。所以在很多高频、日常、成本敏感的场景里，把国产模型纳入自己的工具链，本来就是很自然的事。所以我现在的看法一直都不是“国产替代”或者“二选一”，而是按场景分工：复杂、高价值任务交给最强模型；大量日常、重复、成本敏感的任务，用国产模型做补充，我觉得这反而是更现实、也更科学的用法。

昨天发了一个视频，看到评论里有人问：你都在用 Claude Code 了，为什么还要用国内的 Coding Plan？对我来说，这不是一个二选一的问题，而是一个补充题。大家都知道御三家的硬实力更强，这点没什么好争议的。但很多日常场景里，国产模型其实已经能在速度、质量、成本之间取得一个不错的平衡。比如文本处理、资料整理、基础 coding、简单 agent 任务，这类占日常 80% 的工作，很多时候并不一定非要上最贵的模型。对大多数中国用户来说，国产模型更顺手，速度也够，价格还低不少。还有一个经常被忽略的点，其实是处理速度。我自己实测下来，国内这些模型在一些简单任务上，接口响应和首字速度都很快。像翻译、语音输入后的文本修正、基础润色、简单改写这类高频小任务，用起来其实很舒服。你并不需要每一次都把最贵、最强的模型拉出来跑一遍。另外我觉得，现在国内头部几家 AI 厂商，已经不是“能不能做”的问题了。无论是阿里还是字节，一方面有足够的算力和基础设施，另一方面本身也有持续做模型研发和产品迭代的能力。所以在很多高频、日常、成本敏感的场景里，把国产模型纳入自己的工具链，本来就是很自然的事。所以我现在的看法一直都不是“国产替代”或者“二选一”，而是按场景分工：复杂、高价值任务交给最强模型；大量日常、重复、成本敏感的任务，用国产模型做补充，我觉得这反而是更现实、也更科学的用法。

luolei

32,330 Aufrufe • vor 2 Monaten

很多人问到文字生成视频的自媒体自动化工具，我找到一款，尝试了一下，效果见视频。有了这样的工具，做小说推文，视频自媒体就如虎添翼了。而对于独立开发者来说，类似工具也是很好的机会。

很多人问到文字生成视频的自媒体自动化工具，我找到一款，尝试了一下，效果见视频。有了这样的工具，做小说推文，视频自媒体就如虎添翼了。而对于独立开发者来说，类似工具也是很好的机会。

Olivert

23,437 Aufrufe • vor 1 Jahr

一个印度小哥花半个月做了一只 AI 机器，成本不到700块这只小家伙叫"核桃"，别看便宜，功能一点不像玩具首先走路不是预设动作，是用强化学习训练出来的。视频里左边电脑屏幕上能看到训练曲线和 3D 仿真画面——先在模拟环境里让它自己学怎么走，练几百万次，然后把模型部署到实体机器人上。走出来的步态很自然，不是那种机械的一抬一落然后它有视觉感知。装了摄像头，画面右上角显示"Feeling Suspicious"和"MOVING"——它不只是能"看"，还能根据环境变化产生状态反馈最厉害的是接了大语言模型做语音交互。开发者跟它说 hello 它有反应，说 go back to sleep 然后把它按倒，它就真的趴下不动了 700块钱做出强化学习步态 + 语音交互 + 视觉感知，这个性价比太离谱了宇树最便宜的机器狗也要大几千，波士顿动力那些更不用说。这个项目证明了具身智能的门槛正在被打到地板上

一个印度小哥花半个月做了一只 AI 机器，成本不到700块这只小家伙叫"核桃"，别看便宜，功能一点不像玩具首先走路不是预设动作，是用强化学习训练出来的。视频里左边电脑屏幕上能看到训练曲线和 3D 仿真画面——先在模拟环境里让它自己学怎么走，练几百万次，然后把模型部署到实体机器人上。走出来的步态很自然，不是那种机械的一抬一落然后它有视觉感知。装了摄像头，画面右上角显示"Feeling Suspicious"和"MOVING"——它不只是能"看"，还能根据环境变化产生状态反馈最厉害的是接了大语言模型做语音交互。开发者跟它说 hello 它有反应，说 go back to sleep 然后把它按倒，它就真的趴下不动了 700块钱做出强化学习步态 + 语音交互 + 视觉感知，这个性价比太离谱了宇树最便宜的机器狗也要大几千，波士顿动力那些更不用说。这个项目证明了具身智能的门槛正在被打到地板上

Vincent

119,954 Aufrufe • vor 15 Tagen

我又性情了哈哈。又看了一遍乐队的夏天回春丹的《鲜花》吃着面条感动得流眼泪虽然很隐晦但是我隐约觉得歌词里的一些描述好像跟往生世界有关，一查果然跟纪念去世的朋友有关。只是好在俺看过现场版真的很爽（附视频⬇️

我又性情了哈哈。又看了一遍乐队的夏天回春丹的《鲜花》吃着面条感动得流眼泪虽然很隐晦但是我隐约觉得歌词里的一些描述好像跟往生世界有关，一查果然跟纪念去世的朋友有关。只是好在俺看过现场版真的很爽（附视频⬇️

野猪老师的树洞。

17,670 Aufrufe • vor 4 Monaten

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

小互

49,351 Aufrufe • vor 1 Jahr

身高170的女大学生模特的身材和颜值很好平时也会接一些平面模特的单怕痒程度也很在线特别害怕手套！虽然没有放肆的笑但是也笑的比较魔性可能是第一次见面比较害羞哈哈哈哈哈这次新加了一点元素（有tian jio的环节）内容激情幅度跌宕起伏兄弟们猛猛冲！！！

身高170的女大学生模特的身材和颜值很好平时也会接一些平面模特的单怕痒程度也很在线特别害怕手套！虽然没有放肆的笑但是也笑的比较魔性可能是第一次见面比较害羞哈哈哈哈哈这次新加了一点元素（有tian jio的环节）内容激情幅度跌宕起伏兄弟们猛猛冲！！！

布鲁tk原创

25,247 Aufrufe • vor 1 Jahr

Sora 2 发布！用自己和朋友的形象来生成任何视频，同名社交 APP 也同步上线，目前仅限 US & Canada 地区😅 新模型保持人物一致性的能力非常好，支持多语言和音效同步生成，很适合社交换脸搞怪的创意！现在通过邀请码，一下子把好友给串联起来了，朋友之间很快就能通过视频生成玩角色扮演了，确实像 OpenAI 团队反馈的，有点上头，感觉很有趣😜 Sam 想用 Sora 来实现自己的社交网络梦想，从个人肖像开始生产代表自己的东西，这样很 make sense 因为没人会关注和周围人无关的东西！有没有可能就像跳舞视频缔造了 Tiktok；这种 AI 创造的 60 秒角色扮演短视频，可以解锁一些叙事新玩法？例如各种现实中不可能有的开脑洞的无极限表演但当创造稀有场景的机会变得不稀有时，自然也就没意义了，人类看多了会自动忽略，反而现实会更珍贵。。。另外故事性、同理心、真实感和情绪价值是社交网络的关键，Sora 前路漫漫👀 最后吐个槽：Sora 2 的提升没有跨代际，物理理解和很多场景的写实感表现完全不如 Google 的 Veo 3 我更期待 Gemini 团队用世界模型介绍全新的视频创作方式！当然 Sora App 的 Cameo 创新确实很有趣✨

Sora 2 发布！用自己和朋友的形象来生成任何视频，同名社交 APP 也同步上线，目前仅限 US & Canada 地区😅 新模型保持人物一致性的能力非常好，支持多语言和音效同步生成，很适合社交换脸搞怪的创意！现在通过邀请码，一下子把好友给串联起来了，朋友之间很快就能通过视频生成玩角色扮演了，确实像 OpenAI 团队反馈的，有点上头，感觉很有趣😜 Sam 想用 Sora 来实现自己的社交网络梦想，从个人肖像开始生产代表自己的东西，这样很 make sense 因为没人会关注和周围人无关的东西！有没有可能就像跳舞视频缔造了 Tiktok；这种 AI 创造的 60 秒角色扮演短视频，可以解锁一些叙事新玩法？例如各种现实中不可能有的开脑洞的无极限表演但当创造稀有场景的机会变得不稀有时，自然也就没意义了，人类看多了会自动忽略，反而现实会更珍贵。。。另外故事性、同理心、真实感和情绪价值是社交网络的关键，Sora 前路漫漫👀 最后吐个槽：Sora 2 的提升没有跨代际，物理理解和很多场景的写实感表现完全不如 Google 的 Veo 3 我更期待 Gemini 团队用世界模型介绍全新的视频创作方式！当然 Sora App 的 Cameo 创新确实很有趣✨

indigo

27,710 Aufrufe • vor 9 Monaten

最近这个 Srcbook 很火，非常有趣的一个开源项目，用Typescript 编写的一个本地的笔记工具，但是内置了一个 Node.js 环境，所以完全是可交互式的。在里面可以运行任何的JS 代码，还能 npm 安装依赖，还有 AI 的加持，可以直接让 AI 写代码，最后还能导出标准的 Markdown，非常有趣的想法，要是能再用 Electron 包一层，做成一个本地的应用就很方便了。我截了一段官网视频大家可以感受一下，可以在官网看看介绍全部的介绍视频。

最近这个 Srcbook 很火，非常有趣的一个开源项目，用Typescript 编写的一个本地的笔记工具，但是内置了一个 Node.js 环境，所以完全是可交互式的。在里面可以运行任何的JS 代码，还能 npm 安装依赖，还有 AI 的加持，可以直接让 AI 写代码，最后还能导出标准的 Markdown，非常有趣的想法，要是能再用 Electron 包一层，做成一个本地的应用就很方便了。我截了一段官网视频大家可以感受一下，可以在官网看看介绍全部的介绍视频。

Viking

26,608 Aufrufe • vor 1 Jahr

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

karminski-牙医

19,813 Aufrufe • vor 5 Monaten