Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

一个开源超实用的终端小工具：llmfit，狂揽了 14000+ GitHub Star！只需运行一条命令，就能帮我们找到哪些大模型适合在自己的电脑上本地部署跑起来。并且还会对每个模型的质量、速度、适配性和上下文维度上进行评分，帮助我们从中筛选。 GitHub：想在自己电脑上本地部署大模型的朋友，可通过这工具先知道能跑什么大模型再选择部署。

高军

11,982 subscribers

35,323 просмотров • 3 месяцев назад •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

每个人都能买得起英伟达发布个人AI超级计算机，能运行2000亿参数的大模型。 NVIDIA 今天在CES 2025大会上发布了 NVIDIA Project DIGITS，这是一款能放在你桌面上的个人AI超级计算机。将传统上需要大型数据中心才能完成的 AI 计算，带到每个人的桌面。‘ Project DIGITS 采用全新的 NVIDIA GB10 Grace Blackwell Superchip，能够提供 1 PFLOP（每秒一千万亿次浮点运算）的AI计算性能。设计目的用于原型开发、微调以及运行大型AI模型，使用户能够在本地桌面系统上开发和运行推理模型，然后无缝部署到云或数据中心也就是它能在你的本地就能运行超大的AI模型，能够运行高达 2000亿参数的大语言模型。通过 NVIDIA ConnectX 网络，两台 Project DIGITS 超级计算机连接起来，可以运行 4050亿参数模型。而且支持在本地电脑上开发和测试AI模型，然后快速部署到云端或数据中心。简单来说，它就像是给每个开发者配了一台袖珍的AI超级计算机！

每个人都能买得起英伟达发布个人AI超级计算机，能运行2000亿参数的大模型。 NVIDIA 今天在CES 2025大会上发布了 NVIDIA Project DIGITS，这是一款能放在你桌面上的个人AI超级计算机。将传统上需要大型数据中心才能完成的 AI 计算，带到每个人的桌面。‘ Project DIGITS 采用全新的 NVIDIA GB10 Grace Blackwell Superchip，能够提供 1 PFLOP（每秒一千万亿次浮点运算）的AI计算性能。设计目的用于原型开发、微调以及运行大型AI模型，使用户能够在本地桌面系统上开发和运行推理模型，然后无缝部署到云或数据中心也就是它能在你的本地就能运行超大的AI模型，能够运行高达 2000亿参数的大语言模型。通过 NVIDIA ConnectX 网络，两台 Project DIGITS 超级计算机连接起来，可以运行 4050亿参数模型。而且支持在本地电脑上开发和测试AI模型，然后快速部署到云端或数据中心。简单来说，它就像是给每个开发者配了一台袖珍的AI超级计算机！

小互

85,694 просмотров • 1 год назад

我的声音被克隆了？效果惊人 | F5 TTS语音合成模型体验和本地部署全流程最近超火的F5 TTS语音合成模型，据说效果惊艳，而且完全开源，还能在消费级设备上运行，今天就带大家一起体验一下这个神奇的AI工具。我会用自己的声音进行克隆，看看效果如何，还会分享如何在Hugging Face和本地运行F5 TTS模型，包括安装教程和一些实用技巧。时间戳 0:00 - F5 TTS简介 0:42 - Demo演示：使用我的声音进行克隆 3:05 - F5 vs E2：模型对比和技术解读 4:32 - 本地部署详细演示 6:51 - F5 vs E2 生成效果对比

我的声音被克隆了？效果惊人 | F5 TTS语音合成模型体验和本地部署全流程最近超火的F5 TTS语音合成模型，据说效果惊艳，而且完全开源，还能在消费级设备上运行，今天就带大家一起体验一下这个神奇的AI工具。我会用自己的声音进行克隆，看看效果如何，还会分享如何在Hugging Face和本地运行F5 TTS模型，包括安装教程和一些实用技巧。时间戳 0:00 - F5 TTS简介 0:42 - Demo演示：使用我的声音进行克隆 3:05 - F5 vs E2：模型对比和技术解读 4:32 - 本地部署详细演示 6:51 - F5 vs E2 生成效果对比

nicekate

73,650 просмотров • 1 год назад

⚠️你的电脑跑得动 Gemma 4 或 Qwen 3.5 吗？本地部署 AI 大模型最怕下完才发现显存不够，推荐一个贼实用的硬件评估工具： 🚀 核心功能： ✅配置匹配：自动识别你的 GPU 规格与显存容量。 ✅模型同步：已收录最新的 Gemma 4、Qwen 3.5、Llama 4 等热门开源模型。 ✅运行评估：直观标注哪些版本可以“流畅运行”，哪些会超出负荷。 ✅量化方案：提供不同精度（如 Q4_K, Q8_0）下的显存占用参考。不再盲目下载，部署前先查一下。传送门：

⚠️你的电脑跑得动 Gemma 4 或 Qwen 3.5 吗？本地部署 AI 大模型最怕下完才发现显存不够，推荐一个贼实用的硬件评估工具： 🚀 核心功能： ✅配置匹配：自动识别你的 GPU 规格与显存容量。 ✅模型同步：已收录最新的 Gemma 4、Qwen 3.5、Llama 4 等热门开源模型。 ✅运行评估：直观标注哪些版本可以“流畅运行”，哪些会超出负荷。 ✅量化方案：提供不同精度（如 Q4_K, Q8_0）下的显存占用参考。不再盲目下载，部署前先查一下。传送门：

Lonely

23,158 просмотров • 2 месяцев назад

Lisa Su 把大模型的本地运行门槛直接打了下来。一个午餐盒大小的 Mini PC，无需云端、无需独立显卡，就能跑通完整的 Qwen3 235B。靠着 Ryzen AI Max+ 395 和 128GB 统一内存（Linux 下可用 VRAM 高达 ~110GB），x86 芯片终于具备了在本地接管超大规模模型的硬实力。

Lisa Su 把大模型的本地运行门槛直接打了下来。一个午餐盒大小的 Mini PC，无需云端、无需独立显卡，就能跑通完整的 Qwen3 235B。靠着 Ryzen AI Max+ 395 和 128GB 统一内存（Linux 下可用 VRAM 高达 ~110GB），x86 芯片终于具备了在本地接管超大规模模型的硬实力。

Bill The Investor

21,969 просмотров • 7 дней назад

电脑里存放着大量文档、图片和 PDF，有时候想找某个资料都想不起来存放在哪个文件夹，很是苦恼。不妨试试，利用 Second Brain 这个开源工具，把我们的本地文件变成一个可搜索的 RAG 知识库。通过自然语言或关键词来搜索内容，支持文本和图片的多模态搜索，还能结果本地 AI 模型进行智能问答。 GitHub：主要特性： - 语义搜索和关键词搜索结合，精准找到相关内容； - 支持文本和图片的多模态搜索与嵌入； - 支持的文件类型，包括 txt、pdf、docx、png、gif 等多种格式； - 可选 AI 模式，支持本地模型和 OpenAI 云端模型； - 检索增强生成（RAG）让 AI 基于知识库给出高质量回答； - 完全本地运行保护隐私，支持同步 Google Drive。支持使用 LM Studio 与本地部署的大模型结合使用，可处理超过 10 万个文件，所有数据均在本地处理。

电脑里存放着大量文档、图片和 PDF，有时候想找某个资料都想不起来存放在哪个文件夹，很是苦恼。不妨试试，利用 Second Brain 这个开源工具，把我们的本地文件变成一个可搜索的 RAG 知识库。通过自然语言或关键词来搜索内容，支持文本和图片的多模态搜索，还能结果本地 AI 模型进行智能问答。 GitHub：主要特性： - 语义搜索和关键词搜索结合，精准找到相关内容； - 支持文本和图片的多模态搜索与嵌入； - 支持的文件类型，包括 txt、pdf、docx、png、gif 等多种格式； - 可选 AI 模式，支持本地模型和 OpenAI 云端模型； - 检索增强生成（RAG）让 AI 基于知识库给出高质量回答； - 完全本地运行保护隐私，支持同步 Google Drive。支持使用 LM Studio 与本地部署的大模型结合使用，可处理超过 10 万个文件，所有数据均在本地处理。

GitHubDaily

29,901 просмотров • 7 месяцев назад

发现一个讲的很细的大语言模型微调教程，详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解 LLM 原理的可以按这个实践一下。时间轴： 0:00 概念概览 3:02 自定义数据的准备 8:17 微调操作演示（T4 版本） 16:52 微调操作演示（A100 版本） 19:13 在 Hugging Face 上的保存与使用方法文字版整理： ✲ 如何使用自己的数据对大语言模型进行微调(fine-tuning)：对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。 ✲ 使用Hugging Face模型库和Unslaw工具进行模型微调： Hugging Face提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。 ✲ 在Google Colab上使用免费/付费GPU资源进行微调： Google Colab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。 ✲ 准备自定义的微调数据集：准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。 ✲ 修改Colab笔记本中的参数设置：在Colab笔记本中,需要根据实际情况调整一些参数。例如,可以根据数据集的token数量来设置max_sequence_length参数,借助rope scaling技术,模型能够支持任意长度的上下文。此外,还可以选择使用Instruct系列模型作为base model,直接在其基础上进行指令微调。为了节省资源,可以启用4-bit量化。同时,参考Q-Lora论文的建议,调整R值和alpha值,以在资源占用和模型质量之间取得平衡。 ✲ 训练过程中的资源使用监控：在模型训练过程中,用户可以通过Colab的资源监控选项卡实时观察GPU、内存和硬盘的使用情况。如果发现资源不足,可以考虑从T4升级到A100。通过监控资源占用,用户能够及时调整配置,确保微调任务稳定高效地进行。 ✲ 模型训练的loss变化和最佳checkpoint的选择：通过记录不同训练步数下的loss值,可以判断模型的收敛情况。理想的做法是选择loss下降曲线趋于平缓的点作为最佳checkpoint,这样既能充分训练模型,又能避免过拟合。为了事后方便筛选,可以设置每隔一定步数保存一次checkpoint。 ✲ 模型微调完成后的保存与使用：微调完成后,可以选择只保存adapter layers以加快保存速度。但更推荐的做法是保存完整模型,并使用float16精度,这样可以得到一个更通用和标准的模型格式,方便后续的部署和使用。 ✲ 在Hugging Face上公开或私有发布微调后的模型：用户可以选择在Hugging Face的模型库中公开或私有地发布自己微调后的模型。发布之前,需要在Hugging Face账号中创建一个访问令牌,并在发布时提供相应的用户名和令牌信息。通过在Hugging Face上发布模型,用户可以方便地与他人分享自己的微调成果。 ✲ 使用微调后的模型进行推理(inference)：在使用微调后的模型进行推理时,首先需要加载保存的模型。接着,使用tokenizer对输入的文本进行处理,并将其传入模型。进行推理时,max_length参数需要与训练时保持一致,以确保生成的结果不会被截断。完成以上步骤后,就可以利用微调后的模型进行各种实际应用了。

发现一个讲的很细的大语言模型微调教程，详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解 LLM 原理的可以按这个实践一下。时间轴： 0:00 概念概览 3:02 自定义数据的准备 8:17 微调操作演示（T4 版本） 16:52 微调操作演示（A100 版本） 19:13 在 Hugging Face 上的保存与使用方法文字版整理： ✲ 如何使用自己的数据对大语言模型进行微调(fine-tuning)：对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。 ✲ 使用Hugging Face模型库和Unslaw工具进行模型微调： Hugging Face提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。 ✲ 在Google Colab上使用免费/付费GPU资源进行微调： Google Colab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。 ✲ 准备自定义的微调数据集：准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。 ✲ 修改Colab笔记本中的参数设置：在Colab笔记本中,需要根据实际情况调整一些参数。例如,可以根据数据集的token数量来设置max_sequence_length参数,借助rope scaling技术,模型能够支持任意长度的上下文。此外,还可以选择使用Instruct系列模型作为base model,直接在其基础上进行指令微调。为了节省资源,可以启用4-bit量化。同时,参考Q-Lora论文的建议,调整R值和alpha值,以在资源占用和模型质量之间取得平衡。 ✲ 训练过程中的资源使用监控：在模型训练过程中,用户可以通过Colab的资源监控选项卡实时观察GPU、内存和硬盘的使用情况。如果发现资源不足,可以考虑从T4升级到A100。通过监控资源占用,用户能够及时调整配置,确保微调任务稳定高效地进行。 ✲ 模型训练的loss变化和最佳checkpoint的选择：通过记录不同训练步数下的loss值,可以判断模型的收敛情况。理想的做法是选择loss下降曲线趋于平缓的点作为最佳checkpoint,这样既能充分训练模型,又能避免过拟合。为了事后方便筛选,可以设置每隔一定步数保存一次checkpoint。 ✲ 模型微调完成后的保存与使用：微调完成后,可以选择只保存adapter layers以加快保存速度。但更推荐的做法是保存完整模型,并使用float16精度,这样可以得到一个更通用和标准的模型格式,方便后续的部署和使用。 ✲ 在Hugging Face上公开或私有发布微调后的模型：用户可以选择在Hugging Face的模型库中公开或私有地发布自己微调后的模型。发布之前,需要在Hugging Face账号中创建一个访问令牌,并在发布时提供相应的用户名和令牌信息。通过在Hugging Face上发布模型,用户可以方便地与他人分享自己的微调成果。 ✲ 使用微调后的模型进行推理(inference)：在使用微调后的模型进行推理时,首先需要加载保存的模型。接着,使用tokenizer对输入的文本进行处理,并将其传入模型。进行推理时,max_length参数需要与训练时保持一致,以确保生成的结果不会被截断。完成以上步骤后,就可以利用微调后的模型进行各种实际应用了。

歸藏(guizang.ai)

61,710 просмотров • 2 лет назад

花了点时间，本地部署好了这个用 Nano Banana Pro🍌 做的一站式小红书图文生成器🔥。试了下效果，真的挺惊艳的。能一句话一张图片生成小红书图文和封面。并且支持本地部署和自定义大模型配置，文字生成我用的Gemini3 pro，图像生成用的 Nano Banana Pro。这两搭配起来效果超级给力。我已经部署成功并放在我的服务器上，突然感觉我的小红书又有救了，哈哈哈 GitHub 开源地址和教程我放评论区了，兄弟们，用起来。

花了点时间，本地部署好了这个用 Nano Banana Pro🍌 做的一站式小红书图文生成器🔥。试了下效果，真的挺惊艳的。能一句话一张图片生成小红书图文和封面。并且支持本地部署和自定义大模型配置，文字生成我用的Gemini3 pro，图像生成用的 Nano Banana Pro。这两搭配起来效果超级给力。我已经部署成功并放在我的服务器上，突然感觉我的小红书又有救了，哈哈哈 GitHub 开源地址和教程我放评论区了，兄弟们，用起来。

苍何

94,914 просмотров • 6 месяцев назад

一款强大的编程助手工具：DeepSeek Engineer。集成 DeepSeek API，在命令行终端上，可读取本地项目文件内容、或创建新文件，并实时应用到对现有文件的修改。 GitHub：想尝试 DeepSeek 最新 R1 模型编码能力的开发者，不妨可以通过该工具体验下。

一款强大的编程助手工具：DeepSeek Engineer。集成 DeepSeek API，在命令行终端上，可读取本地项目文件内容、或创建新文件，并实时应用到对现有文件的修改。 GitHub：想尝试 DeepSeek 最新 R1 模型编码能力的开发者，不妨可以通过该工具体验下。

GitHubDaily

31,951 просмотров • 1 год назад

在 GitHub 上发现一个开源的学习工具：Get It，可帮助我们通过多种方式深度学习 PDF 文件内容。自动在 PDF 文件上标注关键概念，还可转化为 3D 模型、动画演示、公式推导等可视化内容，同时生成一张知识图谱。 GitHub：内置四种工具：对话问答、闪卡记忆、选择题测验，还有一个「费曼模式」让我们反过来教 AI。每次练习结束，系统会从记忆、理解、结构、应用四个维度给每个概念打分，分数只升不降，能直观看到自己的进步。工具可直接用 ChatGPT 账号驱动，所有数据都存在本地，不上传任何服务器。支持 macOS、Windows 和 Linux，适合经常通过 PDF 文件学习的同学使用。

在 GitHub 上发现一个开源的学习工具：Get It，可帮助我们通过多种方式深度学习 PDF 文件内容。自动在 PDF 文件上标注关键概念，还可转化为 3D 模型、动画演示、公式推导等可视化内容，同时生成一张知识图谱。 GitHub：内置四种工具：对话问答、闪卡记忆、选择题测验，还有一个「费曼模式」让我们反过来教 AI。每次练习结束，系统会从记忆、理解、结构、应用四个维度给每个概念打分，分数只升不降，能直观看到自己的进步。工具可直接用 ChatGPT 账号驱动，所有数据都存在本地，不上传任何服务器。支持 macOS、Windows 和 Linux，适合经常通过 PDF 文件学习的同学使用。

GitHubDaily

50,391 просмотров • 17 дней назад

这个太牛X了！！天天人工智能，大模型，Transformer挂在嘴边，但是大模型到底是怎么运行的在我们的认知里就是一个黑盒。这个太牛X了！ The LLM Visualization 将大语言模型的内部运作，变成了一个你可以亲手“玩”的交互式可视化界面。清晰地看到每一个词的“注意力”是如何分配给其他词的，直观地理解模型是如何“思考”和“关联”上下文的。非常详细，不是大概模拟，是精确模拟，细节拉满，可自由放大缩小，360度变换视角，每一步都有解释，复杂步数还有运行步骤。 AI爱好者一定要亲自体验一下，太震撼了！！

这个太牛X了！！天天人工智能，大模型，Transformer挂在嘴边，但是大模型到底是怎么运行的在我们的认知里就是一个黑盒。这个太牛X了！ The LLM Visualization 将大语言模型的内部运作，变成了一个你可以亲手“玩”的交互式可视化界面。清晰地看到每一个词的“注意力”是如何分配给其他词的，直观地理解模型是如何“思考”和“关联”上下文的。非常详细，不是大概模拟，是精确模拟，细节拉满，可自由放大缩小，360度变换视角，每一步都有解释，复杂步数还有运行步骤。 AI爱好者一定要亲自体验一下，太震撼了！！

沉浸式翻译

209,614 просмотров • 8 месяцев назад

更新 Intel B580 显卡最新驱动之后，我其他啥都没改，Win11 下本地跑 AI 正常了， 7b 能到 50+tokens/s, 14b 模型则能到 30t/s。看到「本地跑模型无用」的论调，实际上我自己就已经在本地使用了，对于强隐私性需求(比如邮件摘要)，应该不会有人想交给第三方，如果能用不高的成本，self-host 一个「智商还行」且安全的的本地大模型，不需要很聪明，恰好能满足我这种用户需求。

更新 Intel B580 显卡最新驱动之后，我其他啥都没改，Win11 下本地跑 AI 正常了， 7b 能到 50+tokens/s, 14b 模型则能到 30t/s。看到「本地跑模型无用」的论调，实际上我自己就已经在本地使用了，对于强隐私性需求(比如邮件摘要)，应该不会有人想交给第三方，如果能用不高的成本，self-host 一个「智商还行」且安全的的本地大模型，不需要很聪明，恰好能满足我这种用户需求。

luolei

35,340 просмотров • 1 год назад

又在 GitHub 上发现一款可视化大模型内部运作的开源工具：OpenMAV。通过交互式终端界面，可实时可视化 LLM 在生成文本时的内部状态，包括注意力分布、MLP 激活值和 Token 预测概率等。 GitHub：除此之外，还可通过插件轻松扩展可视化功能，并支持多种模型，如 GPT-2、Llama 等。

又在 GitHub 上发现一款可视化大模型内部运作的开源工具：OpenMAV。通过交互式终端界面，可实时可视化 LLM 在生成文本时的内部状态，包括注意力分布、MLP 激活值和 Token 预测概率等。 GitHub：除此之外，还可通过插件轻松扩展可视化功能，并支持多种模型，如 GPT-2、Llama 等。

GitHubDaily

26,763 просмотров • 1 год назад

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

歸藏(guizang.ai)

46,883 просмотров • 1 месяц назад

Github 上发现一个桌面 Agent，自然语言命令自动完成各类任务，可运行在容器化的 Linux 桌面环境中。支持多种模型，也可本地模型。开源，免费。

Github 上发现一个桌面 Agent，自然语言命令自动完成各类任务，可运行在容器化的 Linux 桌面环境中。支持多种模型，也可本地模型。开源，免费。

艾略特

13,314 просмотров • 9 месяцев назад

牛逼！教学动画 AI 一键生成？！只需输入一个概念，雾象AI（Fogsight）调用大模型生成教学演示动画。物理、数学、计算机、设计……抽象知识一秒变可视，可对话修改。本地部署，以最宽松的MIT license在github上开源，支持多种大模型API。对孩子教育帮助很大啊，点赞这个项目。 Github开源地址见评论

牛逼！教学动画 AI 一键生成？！只需输入一个概念，雾象AI（Fogsight）调用大模型生成教学演示动画。物理、数学、计算机、设计……抽象知识一秒变可视，可对话修改。本地部署，以最宽松的MIT license在github上开源，支持多种大模型API。对孩子教育帮助很大啊，点赞这个项目。 Github开源地址见评论

向阳乔木

53,930 просмотров • 11 месяцев назад

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

MAI-UI：阿里通义开源的手机GUI智能体可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。目前2B模型和8B模型已开源。 Github：

Gorden Sun

64,434 просмотров • 5 месяцев назад

🚀 vibe coding 正在颠覆内部工具开发！我只花 1 小时，就用搭好了 LLM 训练 + 监控平台： - 模型训练过程管理 - 数据集管理 - 计算资源 & 一键微调 + 部署过去这样的内部平台可能需要花费数周的时间来开发，现在仅需要几个小时的时间。 PS. 我们的工作流是在 Devv 上开发完基本的功能后，会同步代码到本地，接入到真实的线上数据中。未来我们会上线 Devv VSCode/Cursor/Windsurf 代码双向同步的工具。

🚀 vibe coding 正在颠覆内部工具开发！我只花 1 小时，就用搭好了 LLM 训练 + 监控平台： - 模型训练过程管理 - 数据集管理 - 计算资源 & 一键微调 + 部署过去这样的内部平台可能需要花费数周的时间来开发，现在仅需要几个小时的时间。 PS. 我们的工作流是在 Devv 上开发完基本的功能后，会同步代码到本地，接入到真实的线上数据中。未来我们会上线 Devv VSCode/Cursor/Windsurf 代码双向同步的工具。

Jiayuan (JY) Zhang

21,277 просмотров • 1 год назад

Google刚发布了 Gemma 4，260 亿参数，开源免费，能在本地设备上离线运行。讲真，这才是 2026 年最合理的 AI 技术栈: 本地模型兜底，顶级模型按需调用。但我认为参数和免费都不是重点，真正值得注意的是它原生支持函数调用，意味着这个模型能自主使用工具，浏览网页，执行代码，调用 API，直接充当一个完整的本地智能体，全程不联网，全程不花钱。 260 亿参数，实测性能对标 6850 亿参数级别的行业顶级模型，跑在普通笔记本上就行。部署只要三行命令： - 安装 Ollama： - curl -fsSL | sh - 拉取模型： ollama pull gemma4 两分钟，顶级本地 AI 就绑在你自己的硬件上了。我计划的用法是这样的，欢迎交流：日常的研究分析、代码审查、文稿起草、数据处理，全扔给本地 Gemma 4，用 MCP 服务器接上工具调用能力，网页浏览、数据库对接、API 接入都能覆盖，只有遇到真正需要顶级推理的硬核任务时，才请 Claude Code 出场。以前每个月在 AI 服务上花几百美元，现在 90% 的日常场景本地免费搞定，只为那 10% 的高难度任务付费。

Google刚发布了 Gemma 4，260 亿参数，开源免费，能在本地设备上离线运行。讲真，这才是 2026 年最合理的 AI 技术栈: 本地模型兜底，顶级模型按需调用。但我认为参数和免费都不是重点，真正值得注意的是它原生支持函数调用，意味着这个模型能自主使用工具，浏览网页，执行代码，调用 API，直接充当一个完整的本地智能体，全程不联网，全程不花钱。 260 亿参数，实测性能对标 6850 亿参数级别的行业顶级模型，跑在普通笔记本上就行。部署只要三行命令： - 安装 Ollama： - curl -fsSL | sh - 拉取模型： ollama pull gemma4 两分钟，顶级本地 AI 就绑在你自己的硬件上了。我计划的用法是这样的，欢迎交流：日常的研究分析、代码审查、文稿起草、数据处理，全扔给本地 Gemma 4，用 MCP 服务器接上工具调用能力，网页浏览、数据库对接、API 接入都能覆盖，只有遇到真正需要顶级推理的硬核任务时，才请 Claude Code 出场。以前每个月在 AI 服务上花几百美元，现在 90% 的日常场景本地免费搞定，只为那 10% 的高难度任务付费。

AYi

201,814 просмотров • 2 месяцев назад

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,122,031 просмотров • 2 лет назад