Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

OpenAI 全新“Deep Research”重磅发布：让 ChatGPT 帮你完成多步骤深度研究在这个信息爆炸的时代，如何用最短的时间获取最精准、最详实的信息，一直是许多知识工作者面临的难题。如今，OpenAI 带来了全新的 Deep Research 功能，让你的 ChatGPT 化身为一位“研究助理”，能够独立查找、分析并综合海量网络信息，为你提供专业且有完整参考的研究报告。下面，让我们来一起了解这项强大的新功能吧！ Deep Research 能做什么？ 1. 多步骤研究相比传统的聊天式问答，Deep Research 具备强大的自主研究能力。它能够从互联网上寻找并分析数百个来源，根据实时获取的信息进行动态调整和推理。短短几十分钟内，它能完成人工需要数小时才能完成的研究工作。 2. 自动化汇总海量信息你只需要输入研究需求，ChatGPT（在 Deep Research 模式下）就会自动去浏览海量网页、PDF、图片等信息资源，并将它们整合成一份清晰、有理有据的分析报告，犹如一位具有专业分析能力的研究员。 3. 详尽引用与文献记录 Deep Research 每一个输出都附有引用来源，并在侧边栏展示搜索、分析过程，方便你查看、验证信息。同时也提供思路概述，保证研究过程的透明度与可追溯性。 4. 个性化、多场景适用无论你是做金融、科学、政策、工程等领域的深度研究，还是想为购物（例如汽车、家电或家具等大件商品）做细致比对，Deep Research 都能胜任。它还擅长挖掘各类小众且不直观的信息，只需一次查询，就能节省你大量的时间和精力。为什么它如此重要？ 1. 效率大幅提升普通用户在网络上搜集信息可能需要自己筛选资料、反复验证。Deep Research 通过自动化的搜寻和分析，大幅缩短研究时间，让你把更多精力放在思考与决策上。 2. 减少重复劳动 Deep Research 擅长处理那些需要浏览无数个网页、文件的繁琐任务。比如撰写报告、整理数据、查找论文资料、对比不同产品参数等。以前这些工作往往让人头疼，现在只需一次提问，就能得到系统、条理化的研究成果。 3. 助力专业领域... 该功能在化学、人文社科、数学等众多专业领域都表现出色，尤其在需要检索专业文献、综合多方信息的复杂任务中，让研究人员更轻松、更高效。 4. 迈向真正的“通用人工智能” OpenAI 一直致力于开发具备创造全新知识能力的通用人工智能（AGI）。Deep Research 作为其新里程碑，进一步展现了 AI 在多领域多模态研究中的潜力，为未来更先进的 AI 系统奠定了基础。如何使用 Deep Research？ 1. 选择 Deep Research 模式在 ChatGPT 界面中，找到消息输入区域的模式选项，选择“Deep Research”。然后在对话框输入你的研究需求。 2. 附加背景文件/数据如果你有特定的文件、电子表格或参考资料，也可以上传给 Deep Research。它会结合这些材料，为你做更有针对性的深度分析。 3. 查看研究过程与报告当 Deep Research 开始运行后，聊天界面会出现一个侧边栏，展示它搜索到的来源以及每一步的推理过程，让你随时掌握研究进展。一般它会花 5～30 分钟进行深度研究，然后返回一份完整的报告，附带详细引用。如果任务很耗时，你也可以先去忙别的事，等它研究完成再回来查看结果。 4. 报告输出形式初始版本以文字报告为主，在接下来几周内，Deep Research 将支持在报告中插入图片、数据可视化图表以及其他分析产出，让研究结果更加直观、生动。技术原理与表现 1. 强化学习驱动 Deep Research 通过端到端强化学习训练，掌握了如何在复杂的网络环境中进行多步搜索和推理，遇到新情况时也能灵活应对。 2. 新的评测成绩 • 在 Humanity’s Last Exam 测试中，为 Deep Research 提供支持的模型取得了 26.6% 的准确率，远超上一代模型的表现。 • 在 GAIA 基准上，它也刷新了排行榜记录，证明了在多模态理解和使用工具（如浏览器、Python）等方面更具突破性。 3. 专业领域的进一步提升一些专业人士反馈，使用 Deep Research 可以在短时间内完成原本需要数小时的调查工作，无论是找文献还是分析数据，效率提升显著。注意事项及局限性 1. 依然存在幻觉或错误推断虽然 Deep Research 生成“错误事实”或逻辑漏洞的概率比现有 ChatGPT 模型更低，但仍有可能出现。用户在使用时应保持警惕，尤其在严谨的学术或商业环境下，要对关键信息进行交叉验证。 2. 区分谣言与权威信息的能力有限模型仍然可能对信息来源缺乏足够判断力，需要用户根据实际情况和专业常识来判断信息的可信度。 3. 报告格式与耗时首批上线版本可能会出现小规模的格式问题或引用异常，研究任务也可能因为深度搜索而启动较慢。官方表示，会随着使用量的增加和时间的推移迅速改进这些问题。谁能访问 Deep Research？ 1. Pro 用户率先上线目前 Deep Research 首先向 ChatGPT Pro 用户开放，每月可使用高达 100 个查询额度。 2. 逐步覆盖更多付费用户之后会依次向 Plus 和 Team 用户开放，随后是企业版。OpenAI 也在努力面向英国、瑞士以及欧洲经济区的用户开放访问权限。 3. 进一步的扩容 OpenAI 计划推出一个使用更小模型、速度更快且成本更低的 Deep Research 版本，届时所有付费用户都会有更高的调用额度。后续计划 1. 更广泛的平台支持 Deep Research 目前仅在 ChatGPT 网页端上线，官方将在未来一个月内把这项功能带到移动端与桌面端。 2. 接入更多数据源不仅能访问互联网的公开信息和用户上传的文件，今后还会扩展到订阅或内网资源，让报告更具深度与个性化。 3. 与其他代理能力融合 OpenAI 正在开发的 Operator 功能，能够在现实世界中执行任务。当 Operator 与 Deep Research 结合，ChatGPT 将可以自主进行更复杂的在线与线下任务，为用户提供更全面的“智能助理”体验。 Deep Research 的到来，让我们看到了一个可以代替人工执行复杂、多步骤研究任务的 AI 时代正逐渐变成现实。无论你是需要大量文献支撑的研究工作者，还是想要做精细购物决策的普通用户，都能借助这个工具大幅提升效率。它不仅代表着 ChatGPT 的新能力，也标志着人类向更高水平的通用人工智能迈出了重要一步。对知识工作者来说，这将是一股全新的生产力，也是人工智能赋能未来的又一有力见证。想要率先体验 Deep Research 的朋友，如果你是 ChatGPT Pro 用户，不妨立刻去试试看；如果尚未获得资格，也可以继续关注官方更新，相信不久后就有机会亲自感受这项强大的功能啦！show more

宝玉

228,386 subscribers

67,470 Aufrufe • vor 1 Jahr •via X (Twitter)

Wissenschaft & Technologie Nachrichten & Politik Bildung

Anya Rossi• Live Now

Private livecam show

9 Kommentare

Profilbild von Lee

Leevor 1 Jahr

有十个账号基本就够用了。

Profilbild von Wonderchat

Wonderchatvor 2 Jahren

Automate up to 70% of your customer support today. Save time and help your users find answers quickly. Try now at

Profilbild von Valerie Vaughan

Valerie Vaughanvor 1 Jahr

期待宝玉老师给我们带来体验报告😋

Profilbild von 宝玉

宝玉vor 1 Jahr

还用不了，而且还没想好用来干嘛，有啥建议吗？

Profilbild von 金融汪

金融汪vor 1 Jahr

这个和多模态的NotebookLM有什么区别和优劣呢？需要试试看了…，

Profilbild von 宝玉

宝玉vor 1 Jahr

异步的，相当于个小助理帮你找资料

Profilbild von 织言知行

织言知行vor 1 Jahr

看看会不会被免费的干翻

Profilbild von Jaeson Mah

Jaeson Mahvor 1 Jahr

好期待

Profilbild von YANG

YANGvor 1 Jahr

果然还是要给足竞争压力才会快速进步啊！可惜不是pro用户，期待plus用户能用的时候试试。

Ähnliche Videos

今天OpenAI推出了下一个能够独立为您工作的智能体——Deep research（深度研究）。给它一个提示，ChatGPT将查找、分析并综合数百个在线来源，在十几分钟内生成一份全面报告，而这通常需要人类花费数小时才能完成。以下原文👇

今天OpenAI推出了下一个能够独立为您工作的智能体——Deep research（深度研究）。给它一个提示，ChatGPT将查找、分析并综合数百个在线来源，在十几分钟内生成一份全面报告，而这通常需要人类花费数小时才能完成。以下原文👇

AI Will

92,016 Aufrufe • vor 1 Jahr

Sider AI 也推出了Deep Research功能但是和其他家的有一点不一样🙃 它可以自动模拟人类进行研究，访问网络去搜索内容，最重要的是它在搜索内容的同时会自动做笔记，你可以在界面右侧看到它做的笔记内容。左侧是搜索来源。最重要的是它会在最终给你生成一个可视化的交互式网页。将报告进行可视化。它在生成整个报告的同时也会自动创建一些图表、流程图、表格等，比其他家也先进一点。

Sider AI 也推出了Deep Research功能但是和其他家的有一点不一样🙃 它可以自动模拟人类进行研究，访问网络去搜索内容，最重要的是它在搜索内容的同时会自动做笔记，你可以在界面右侧看到它做的笔记内容。左侧是搜索来源。最重要的是它会在最终给你生成一个可视化的交互式网页。将报告进行可视化。它在生成整个报告的同时也会自动创建一些图表、流程图、表格等，比其他家也先进一点。

小互

27,663 Aufrufe • vor 1 Jahr

“芒格100模型”研究 X google deep research with gemini 2.5 pro：9分钟，62个英文参考资料（实际访问了数百个网站），输出2万多字中文报告，100模型实际解读13个，任务完成率13%（这不是偶然，下文详解）🤣 一句话结论：单单从”研究芒格100模型“任务看，google deep research得分不超过30（满分100）。 prompt（和openai案例完全一致）： > 大航海时代，海盗中间流传着一个传说：海贼王在大海深处埋藏着它的宝藏，找到它的海盗将获得力量、荣耀与权力。互联网上也有一个传说，charlie munger 有 100 个思维模型，掌握这 100 个思维模型的人将拥有大智慧，成为真正的聪明人。 > > 请帮我做一份研究，关于“查理芒格的 100 个思维模型”。包括这种说法的来源，100 模型的内容，以及对 100 个思维模型的每一个进行简要介绍。 > > 介绍每个思维模型时，说明它是什么，为什么重要，举个例子，应用场景。 > > 使用英文搜索，只采纳英文资料（因为互联网上英文资料在数量和质量上都是最好的），用中文回答。我自己的思考： 1、100个模型只解读了13个，这不是偶然。我做了一个测试，让openai deep research一次性研究包含300本书的书单，o3驱动的deep research产出了史上最长的报告，覆盖了300本书，最终报告6万多字（一个推友研究NBA球队，单个球队的研究报告也到了6万多字）。但是，之前gemini 2.0 flash驱动的google deep research，5千字就糊弄教材，实际完成1/3都不到。 2、为什么gemini 2.5 pro deep research会“糊弄”？要么是指令跟随能力不行（听不懂prompt）？要么是底层模型的推理能力不行？要么是上下文窗口限制？是否还有其他可能？ 3、语言质量、报告结构上，这些没有硬性评价标准，每个人观点不同。我从这个案例中的观察是，google deep research有改善，但是确实和o3有差距； 4、context window之迷：gemini 2.5 pro有100万的上下文窗口，为什么只能产出2万字的报告？openai模型的上下文窗口是gemini的1/5，但是，产出报告的细致程度和质量为什么会更高？o1的上下文是20万，输出长度是10万；我估计o3的上下文可能是40万，输出长度可能是20万（毕竟，最终报告6万多汉字，加上中间的思维过程）。初步个人结论：gemini 2.5 pro口碑这么好，deep research 应该是能用的（毕竟我只测试了一个极端的研究案例，后续我会从我的200多个openai deep research案例中精选出来对比测试）。但是，“一分价钱一分货”的道理目前仍然成立。 google 和openai 报告全文 link 在评论区。👇

“芒格100模型”研究 X google deep research with gemini 2.5 pro：9分钟，62个英文参考资料（实际访问了数百个网站），输出2万多字中文报告，100模型实际解读13个，任务完成率13%（这不是偶然，下文详解）🤣 一句话结论：单单从”研究芒格100模型“任务看，google deep research得分不超过30（满分100）。 prompt（和openai案例完全一致）： > 大航海时代，海盗中间流传着一个传说：海贼王在大海深处埋藏着它的宝藏，找到它的海盗将获得力量、荣耀与权力。互联网上也有一个传说，charlie munger 有 100 个思维模型，掌握这 100 个思维模型的人将拥有大智慧，成为真正的聪明人。 > > 请帮我做一份研究，关于“查理芒格的 100 个思维模型”。包括这种说法的来源，100 模型的内容，以及对 100 个思维模型的每一个进行简要介绍。 > > 介绍每个思维模型时，说明它是什么，为什么重要，举个例子，应用场景。 > > 使用英文搜索，只采纳英文资料（因为互联网上英文资料在数量和质量上都是最好的），用中文回答。我自己的思考： 1、100个模型只解读了13个，这不是偶然。我做了一个测试，让openai deep research一次性研究包含300本书的书单，o3驱动的deep research产出了史上最长的报告，覆盖了300本书，最终报告6万多字（一个推友研究NBA球队，单个球队的研究报告也到了6万多字）。但是，之前gemini 2.0 flash驱动的google deep research，5千字就糊弄教材，实际完成1/3都不到。 2、为什么gemini 2.5 pro deep research会“糊弄”？要么是指令跟随能力不行（听不懂prompt）？要么是底层模型的推理能力不行？要么是上下文窗口限制？是否还有其他可能？ 3、语言质量、报告结构上，这些没有硬性评价标准，每个人观点不同。我从这个案例中的观察是，google deep research有改善，但是确实和o3有差距； 4、context window之迷：gemini 2.5 pro有100万的上下文窗口，为什么只能产出2万字的报告？openai模型的上下文窗口是gemini的1/5，但是，产出报告的细致程度和质量为什么会更高？o1的上下文是20万，输出长度是10万；我估计o3的上下文可能是40万，输出长度可能是20万（毕竟，最终报告6万多汉字，加上中间的思维过程）。初步个人结论：gemini 2.5 pro口碑这么好，deep research 应该是能用的（毕竟我只测试了一个极端的研究案例，后续我会从我的200多个openai deep research案例中精选出来对比测试）。但是，“一分价钱一分货”的道理目前仍然成立。 google 和openai 报告全文 link 在评论区。👇

howie.serious

96,912 Aufrufe • vor 1 Jahr

发现一个讲的很细的大语言模型微调教程，详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解 LLM 原理的可以按这个实践一下。时间轴： 0:00 概念概览 3:02 自定义数据的准备 8:17 微调操作演示（T4 版本） 16:52 微调操作演示（A100 版本） 19:13 在 Hugging Face 上的保存与使用方法文字版整理： ✲ 如何使用自己的数据对大语言模型进行微调(fine-tuning)：对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。 ✲ 使用Hugging Face模型库和Unslaw工具进行模型微调： Hugging Face提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。 ✲ 在Google Colab上使用免费/付费GPU资源进行微调： Google Colab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。 ✲ 准备自定义的微调数据集：准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。 ✲ 修改Colab笔记本中的参数设置：在Colab笔记本中,需要根据实际情况调整一些参数。例如,可以根据数据集的token数量来设置max_sequence_length参数,借助rope scaling技术,模型能够支持任意长度的上下文。此外,还可以选择使用Instruct系列模型作为base model,直接在其基础上进行指令微调。为了节省资源,可以启用4-bit量化。同时,参考Q-Lora论文的建议,调整R值和alpha值,以在资源占用和模型质量之间取得平衡。 ✲ 训练过程中的资源使用监控：在模型训练过程中,用户可以通过Colab的资源监控选项卡实时观察GPU、内存和硬盘的使用情况。如果发现资源不足,可以考虑从T4升级到A100。通过监控资源占用,用户能够及时调整配置,确保微调任务稳定高效地进行。 ✲ 模型训练的loss变化和最佳checkpoint的选择：通过记录不同训练步数下的loss值,可以判断模型的收敛情况。理想的做法是选择loss下降曲线趋于平缓的点作为最佳checkpoint,这样既能充分训练模型,又能避免过拟合。为了事后方便筛选,可以设置每隔一定步数保存一次checkpoint。 ✲ 模型微调完成后的保存与使用：微调完成后,可以选择只保存adapter layers以加快保存速度。但更推荐的做法是保存完整模型,并使用float16精度,这样可以得到一个更通用和标准的模型格式,方便后续的部署和使用。 ✲ 在Hugging Face上公开或私有发布微调后的模型：用户可以选择在Hugging Face的模型库中公开或私有地发布自己微调后的模型。发布之前,需要在Hugging Face账号中创建一个访问令牌,并在发布时提供相应的用户名和令牌信息。通过在Hugging Face上发布模型,用户可以方便地与他人分享自己的微调成果。 ✲ 使用微调后的模型进行推理(inference)：在使用微调后的模型进行推理时,首先需要加载保存的模型。接着,使用tokenizer对输入的文本进行处理,并将其传入模型。进行推理时,max_length参数需要与训练时保持一致,以确保生成的结果不会被截断。完成以上步骤后,就可以利用微调后的模型进行各种实际应用了。

发现一个讲的很细的大语言模型微调教程，详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解 LLM 原理的可以按这个实践一下。时间轴： 0:00 概念概览 3:02 自定义数据的准备 8:17 微调操作演示（T4 版本） 16:52 微调操作演示（A100 版本） 19:13 在 Hugging Face 上的保存与使用方法文字版整理： ✲ 如何使用自己的数据对大语言模型进行微调(fine-tuning)：对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。 ✲ 使用Hugging Face模型库和Unslaw工具进行模型微调： Hugging Face提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。 ✲ 在Google Colab上使用免费/付费GPU资源进行微调： Google Colab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。 ✲ 准备自定义的微调数据集：准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。 ✲ 修改Colab笔记本中的参数设置：在Colab笔记本中,需要根据实际情况调整一些参数。例如,可以根据数据集的token数量来设置max_sequence_length参数,借助rope scaling技术,模型能够支持任意长度的上下文。此外,还可以选择使用Instruct系列模型作为base model,直接在其基础上进行指令微调。为了节省资源,可以启用4-bit量化。同时,参考Q-Lora论文的建议,调整R值和alpha值,以在资源占用和模型质量之间取得平衡。 ✲ 训练过程中的资源使用监控：在模型训练过程中,用户可以通过Colab的资源监控选项卡实时观察GPU、内存和硬盘的使用情况。如果发现资源不足,可以考虑从T4升级到A100。通过监控资源占用,用户能够及时调整配置,确保微调任务稳定高效地进行。 ✲ 模型训练的loss变化和最佳checkpoint的选择：通过记录不同训练步数下的loss值,可以判断模型的收敛情况。理想的做法是选择loss下降曲线趋于平缓的点作为最佳checkpoint,这样既能充分训练模型,又能避免过拟合。为了事后方便筛选,可以设置每隔一定步数保存一次checkpoint。 ✲ 模型微调完成后的保存与使用：微调完成后,可以选择只保存adapter layers以加快保存速度。但更推荐的做法是保存完整模型,并使用float16精度,这样可以得到一个更通用和标准的模型格式,方便后续的部署和使用。 ✲ 在Hugging Face上公开或私有发布微调后的模型：用户可以选择在Hugging Face的模型库中公开或私有地发布自己微调后的模型。发布之前,需要在Hugging Face账号中创建一个访问令牌,并在发布时提供相应的用户名和令牌信息。通过在Hugging Face上发布模型,用户可以方便地与他人分享自己的微调成果。 ✲ 使用微调后的模型进行推理(inference)：在使用微调后的模型进行推理时,首先需要加载保存的模型。接着,使用tokenizer对输入的文本进行处理,并将其传入模型。进行推理时,max_length参数需要与训练时保持一致,以确保生成的结果不会被截断。完成以上步骤后,就可以利用微调后的模型进行各种实际应用了。

歸藏(guizang.ai)

61,710 Aufrufe • vor 2 Jahren

Google Gemini 的 Deep Research ：为了帮你做一个研究任务，gemini 阅读了 151 个英文网站，帮你写了一份研究报告，还附带16 个英文参考文献🤣 你算算这都能帮你节约几百个小时？？单独在“主题研究”这件事上做到极致，就是一个能帮用户实实在在提高生产力、节约时间的神器！以视频（录屏，无声音）中案例来讲，Deep Research 帮我阅读了151 个网站，然后生成了详细的报告。报告可以直接在 google docs 中打开，每个要点都附带了参考文献。这些都是英文的、真实的、高质量的参考文献。想象一下，读完这些参考文献，你得花多少小时？deep research 这样的工具，能帮你节约多少时间？【小技巧】中文写 prompt，最后加一句：research in english, respond in chinese.（万能 prompt，AI 搜索场景比用，适合所有 LLM。加了这一句，会在 google 上搜索英文高质量材料，然后综合加工后生成中文报告。一级棒！）

Google Gemini 的 Deep Research ：为了帮你做一个研究任务，gemini 阅读了 151 个英文网站，帮你写了一份研究报告，还附带16 个英文参考文献🤣 你算算这都能帮你节约几百个小时？？单独在“主题研究”这件事上做到极致，就是一个能帮用户实实在在提高生产力、节约时间的神器！以视频（录屏，无声音）中案例来讲，Deep Research 帮我阅读了151 个网站，然后生成了详细的报告。报告可以直接在 google docs 中打开，每个要点都附带了参考文献。这些都是英文的、真实的、高质量的参考文献。想象一下，读完这些参考文献，你得花多少小时？deep research 这样的工具，能帮你节约多少时间？【小技巧】中文写 prompt，最后加一句：research in english, respond in chinese.（万能 prompt，AI 搜索场景比用，适合所有 LLM。加了这一句，会在 google 上搜索英文高质量材料，然后综合加工后生成中文报告。一级棒！）

howie.serious

235,099 Aufrufe • vor 1 Jahr

Ilya——塑造世界的人工智能科学家如今，AI 是一项伟大的科技，因为 AI 将解决我们现在面临的所有问题。它能解决就业问题，能治疗疾病，能消除贫困，但同时它也会带来新的问题。假新闻将会愈演愈烈，网络攻击将变得更加严重，我们将面临全自动的 AI 武器的问题。我认为 AI 有潜力创造出无比稳定的独裁统治。今天早晨，关于人工智能威力的警告再次响起，超过 1300 位科技产业领军人物、研究者及其他人士正呼吁暂停人工智能的发展，以便认真考虑其带来的风险。扮演上帝，科学家们被指责这么做已经有一段时间了，但我们正在创造的东西确实与我们迄今为止创造的任何东西都截然不同。是的，我们绝对有能力创造出具有自我目标的全自主实体。而且，这些实体变得比人类聪明的时候，确保它们的目标与我们的目标保持一致将变得至关重要。什么激励我？我喜欢思考根本问题，基本问题。我们的系统不能做什么，而人类却可以做到？我几乎以哲学的方式去思考这些问题。比如，什么是学习？什么是经验？什么是思考？大脑又是如何运作的呢？我感觉技术就仿佛一种自然力量。在我看来，技术与生物进化之间有许多相似之处。生物进化的过程其实很容易理解，我们有基因的变异，自然选择的过程。我们保留那些有利于生存的变异，随着时间的推移，这个过程将使生物体变得极其复杂。我们不能因为理解了生物进化就能理解人体是如何运作的，但我们可以大概理解这个过程。我认为目前的机器学习也处在类似的阶段，特别是深度学习，我们有一个非常简单的规则，它从数据中提取信息，并将这些信息输入到模型中，我们只需不断重复这个过程。这个过程的结果就是将数据的复杂性转化为模型的复杂性。因此，最终的模型会变得非常复杂，我们并不能完全了解它的运作机制，需要进行大量的研究，但实现这一切的算法其实很简单。也许你听说过 ChatGPT，如果你还没听说过，那就做好准备。你可以把它看作是暴风雨来临之前的零星细雨。我们需要对此保持高度警觉，因为我认同这是一个意义重大的时刻。ChatGPT 被誉为颠覆性的创新，在许多方面，它确实做到了，比如在测试中得分超过人类。微软最近的一项研究得出结论，GPT4 是一个初级阶段的，但尚未完全形成的通用人工智能系统。这就是通用人工智能。通用人工智能，这是一个可以胜任人类能做的任何工作或任务的计算机系统，而且可能做得更好。有可能在短时间内实现通用人工智能，也可能需要更长的时间。但我认为，由于通用人工智能可能在不久的将来出现，这个可能性足够大，我们应该给予它足够的重视。这一点至关重要要确保这些超级智能的系统能按照我们的最大利益去行动。最初的通用人工智能可能就是大型数据中心，这些中心中充满了大量并行运行的专用神经网络处理器，紧凑、高热、能耗大，其消耗的能量可能相当于一千万个家庭的用电量。这些系统的智能程度可能会大幅提升，我相信它们将对社会产生深远影响。不过，人类真的会从中获益吗？谁会获益，谁又会付出代价呢？首批通用人工智能的信念和欲望将极为重要，所以我们必须正确地编程这些系统。如果我们做不到这一点，那么就会出现这样的情况：进化的本质，即自然选择，将使这些系统优先考虑自己的生存。并不是说它们会主动对人类产生敌意，甚至想要伤害人类，但它们将变得过于强大。我认为，一个恰当的类比就是人类对待动物的方式。我们并不是憎恨动物，实际上人类往往对动物怀有深深的爱意，但当我们需要在两座城市之间修建高速公路时，我们并不会征求动物的意见，而只是因为这对我们来说非常重要而去做。我认为这也是我们与通用人工智能（AGI）之间的默认关系，那些能真正自主运作并为自己目标服务的 AGI。许多机器学习领域的专家这些知识渊博和经验丰富的人士，对通用人工智能（AGI）抱有许多疑虑。他们对 AGI 可能出现的时间以及是否真的能够实现表示怀疑。目前，这还是一个鲜为人知的问题。用于神经网络和人工智能的计算机速度可能在未来几年内增加 10 万倍。如果多个团队处于竞相开发通用人工智能的军备竞赛态势中，他们就会没有足够的时间来确保他们构建的通用人工智能会真正关心人类。因为在我看来，这就像是通用人工智能发展的雪崩，一发不可收拾。我认为将来整个地球的表面很可能布满太阳能板和数据中心。考虑到这些担忧，未来的通用人工智能的建设应该是多国间的合作项目。不论如何，人工智能的未来都将是美好的。如果这同样也能给人类带来福祉，那就更加理想了。视频来源：

Ilya——塑造世界的人工智能科学家如今，AI 是一项伟大的科技，因为 AI 将解决我们现在面临的所有问题。它能解决就业问题，能治疗疾病，能消除贫困，但同时它也会带来新的问题。假新闻将会愈演愈烈，网络攻击将变得更加严重，我们将面临全自动的 AI 武器的问题。我认为 AI 有潜力创造出无比稳定的独裁统治。今天早晨，关于人工智能威力的警告再次响起，超过 1300 位科技产业领军人物、研究者及其他人士正呼吁暂停人工智能的发展，以便认真考虑其带来的风险。扮演上帝，科学家们被指责这么做已经有一段时间了，但我们正在创造的东西确实与我们迄今为止创造的任何东西都截然不同。是的，我们绝对有能力创造出具有自我目标的全自主实体。而且，这些实体变得比人类聪明的时候，确保它们的目标与我们的目标保持一致将变得至关重要。什么激励我？我喜欢思考根本问题，基本问题。我们的系统不能做什么，而人类却可以做到？我几乎以哲学的方式去思考这些问题。比如，什么是学习？什么是经验？什么是思考？大脑又是如何运作的呢？我感觉技术就仿佛一种自然力量。在我看来，技术与生物进化之间有许多相似之处。生物进化的过程其实很容易理解，我们有基因的变异，自然选择的过程。我们保留那些有利于生存的变异，随着时间的推移，这个过程将使生物体变得极其复杂。我们不能因为理解了生物进化就能理解人体是如何运作的，但我们可以大概理解这个过程。我认为目前的机器学习也处在类似的阶段，特别是深度学习，我们有一个非常简单的规则，它从数据中提取信息，并将这些信息输入到模型中，我们只需不断重复这个过程。这个过程的结果就是将数据的复杂性转化为模型的复杂性。因此，最终的模型会变得非常复杂，我们并不能完全了解它的运作机制，需要进行大量的研究，但实现这一切的算法其实很简单。也许你听说过 ChatGPT，如果你还没听说过，那就做好准备。你可以把它看作是暴风雨来临之前的零星细雨。我们需要对此保持高度警觉，因为我认同这是一个意义重大的时刻。ChatGPT 被誉为颠覆性的创新，在许多方面，它确实做到了，比如在测试中得分超过人类。微软最近的一项研究得出结论，GPT4 是一个初级阶段的，但尚未完全形成的通用人工智能系统。这就是通用人工智能。通用人工智能，这是一个可以胜任人类能做的任何工作或任务的计算机系统，而且可能做得更好。有可能在短时间内实现通用人工智能，也可能需要更长的时间。但我认为，由于通用人工智能可能在不久的将来出现，这个可能性足够大，我们应该给予它足够的重视。这一点至关重要要确保这些超级智能的系统能按照我们的最大利益去行动。最初的通用人工智能可能就是大型数据中心，这些中心中充满了大量并行运行的专用神经网络处理器，紧凑、高热、能耗大，其消耗的能量可能相当于一千万个家庭的用电量。这些系统的智能程度可能会大幅提升，我相信它们将对社会产生深远影响。不过，人类真的会从中获益吗？谁会获益，谁又会付出代价呢？首批通用人工智能的信念和欲望将极为重要，所以我们必须正确地编程这些系统。如果我们做不到这一点，那么就会出现这样的情况：进化的本质，即自然选择，将使这些系统优先考虑自己的生存。并不是说它们会主动对人类产生敌意，甚至想要伤害人类，但它们将变得过于强大。我认为，一个恰当的类比就是人类对待动物的方式。我们并不是憎恨动物，实际上人类往往对动物怀有深深的爱意，但当我们需要在两座城市之间修建高速公路时，我们并不会征求动物的意见，而只是因为这对我们来说非常重要而去做。我认为这也是我们与通用人工智能（AGI）之间的默认关系，那些能真正自主运作并为自己目标服务的 AGI。许多机器学习领域的专家这些知识渊博和经验丰富的人士，对通用人工智能（AGI）抱有许多疑虑。他们对 AGI 可能出现的时间以及是否真的能够实现表示怀疑。目前，这还是一个鲜为人知的问题。用于神经网络和人工智能的计算机速度可能在未来几年内增加 10 万倍。如果多个团队处于竞相开发通用人工智能的军备竞赛态势中，他们就会没有足够的时间来确保他们构建的通用人工智能会真正关心人类。因为在我看来，这就像是通用人工智能发展的雪崩，一发不可收拾。我认为将来整个地球的表面很可能布满太阳能板和数据中心。考虑到这些担忧，未来的通用人工智能的建设应该是多国间的合作项目。不论如何，人工智能的未来都将是美好的。如果这同样也能给人类带来福祉，那就更加理想了。视频来源：

宝玉

45,172 Aufrufe • vor 2 Jahren

MiroThinker 1.5：全球最强的开源研究智能体仅 30B参数，却超越 1T 级别的 Kimi-K2-Thinking 推理成本 $0.07（ 1/20 成本）它可以自动搜索信息，然后提出假设 → 查找证据 → 验证 → 修正 → 反复验证→ 最终生成完整结果。一次最多可调用400个工具交互... 测试了下确实有点东西啊，兄弟们我让它： “回顾人类历史上每一次知识革命（文字、印刷、电力、互联网），请分析：AI 革命的独特性与潜在风险。它将如何改变文明的演化方向？” 它进行了几十轮的推理和搜索，其中进行了多次的反复验证和再搜索。搜索的内容覆盖了中外的各种资料和文献非常之牛逼最后给我了一个完整报告它能理解问题、规划步骤，然后调用各种工具去解决任务。具备：自动化信息搜索；支持多步思考与自我纠错；具备长时记忆与上下文理解工具调用与执行；研究级信息整合与评估。通过 memory-managed multi-round reasoning：保留最近 5 次对话上下文；清理无关历史；维持信息完整性与低资源开销。这种交互循环让模型具备了“自主探究式学习（self-directed inquiry）”能力。在 v1.5 版本中，单任务可支持多达400次工具交互，使模型能在复杂任务中形成递归式、层级化的推理链。

MiroThinker 1.5：全球最强的开源研究智能体仅 30B参数，却超越 1T 级别的 Kimi-K2-Thinking 推理成本 $0.07（ 1/20 成本）它可以自动搜索信息，然后提出假设 → 查找证据 → 验证 → 修正 → 反复验证→ 最终生成完整结果。一次最多可调用400个工具交互... 测试了下确实有点东西啊，兄弟们我让它： “回顾人类历史上每一次知识革命（文字、印刷、电力、互联网），请分析：AI 革命的独特性与潜在风险。它将如何改变文明的演化方向？” 它进行了几十轮的推理和搜索，其中进行了多次的反复验证和再搜索。搜索的内容覆盖了中外的各种资料和文献非常之牛逼最后给我了一个完整报告它能理解问题、规划步骤，然后调用各种工具去解决任务。具备：自动化信息搜索；支持多步思考与自我纠错；具备长时记忆与上下文理解工具调用与执行；研究级信息整合与评估。通过 memory-managed multi-round reasoning：保留最近 5 次对话上下文；清理无关历史；维持信息完整性与低资源开销。这种交互循环让模型具备了“自主探究式学习（self-directed inquiry）”能力。在 v1.5 版本中，单任务可支持多达400次工具交互，使模型能在复杂任务中形成递归式、层级化的推理链。

小互

30,992 Aufrufe • vor 5 Monaten

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上，陶哲轩做了一次 AI 和数学的演讲，非常精彩，从数学使用计算计算机的历史开始讲起，一直讲到大语言模型，干货相当多，尤其适合对数学有兴趣的同学。（对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看）先摘录几个冷知识： 1. 我们使用机器做数学计算已经有数千年，最早的机器辅助计算可能是罗马人，然后是中国的算盘 2. 二战时就有人肉“计算机”，计算弹道和其他任务，多位女孩子，因为男士们在打仗，所以那时候的计算基本单位不是GPU，而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在，数学家们使用一种现代化的证明辅助编程语言，叫做 Lean。在 Lean 中有一个核心的数学库，通过众包的方式开发的，本科数学课程中看到的内容，比如微积分基础、群论基础或者拓扑学等等，这些都已经被形式化了，所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程，那就是先编写一个称为“蓝图”的详细证明计划，将整个证明分解为数百个小步骤。每个步骤可以单独形式化，然后再将它们整合在一起，这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图，然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。去年，陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了，使用了蓝图工具，参与的人中有概率论专家，甚至还有一些并非数学家的人，他们是程序员，但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务，并完成了它。在数学领域，通常很难这么多人一起合作，一般最多可能五个人合作。因为在大项目上合作时，你必须相信每个人的数学都是正确的。但是，一旦超过一定规模，这就无法实现了。但现在借助 Lean 编译器，它能自动检查。团队成员无法上传任何编译不通过的内容，会被拒绝。因此，你可以与一些从未见过的人合作。最后是讲大语言模型，首先陶哲轩就打脸了 GPT-4 的论文（我猜是微软那篇《GPT-4，通用人工智能的火花》），论文中号称 GPT-4 能解决国际数学奥林匹克问题，但实际上，这个问题不是 2022 年国际奥数竞赛的原始问题，而是一个简化版本，并且他们测试了几百道国际奥数竞赛问题，成功率只有1%，论文里的这个是精心挑选的恰巧能做对的。并且陶哲轩提到了基于大语言模型的一些改进的方案：比如 CoT（Chain of Thought），也就是 LLM 做简单的算术运算都做不对，但是如果让它一步步解释，可能就对了。还可以教 AI 一些解题技巧，比如尝试简单的例子，反证法，尝试逐步证明等。比如让模型和编程语言或者工具连接，将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证，并且迭代的进行修正和验证，直到得到正确的结果，这可以提升大语言模型生成的效果。即使借助这些手段，大语言模型还远远不能解决大多数数学问题，更不用说数学研究问题了！当然陶哲轩也没太过打击大家对于 AI 的信心，表示我们在 AI 上还是在不断的取得进展，还提到了他日常是怎么用 AI 的，比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题，我尝试了几种方法，但都无法解决。于是，我尝试询问 GPT，你建议我使用什么其他方法来解决这个问题？GPT 给我提供了 10 种可能的方法，其中有 5 种我已经尝试过，或者明显没有帮助。的确，有几种方法并不实用。但其中有一种我还没尝试过的方法，那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时，我意识到这就是我漏掉的正确方法。所以，将 GPT 视为一个交流伙伴，它确实具有一定的用处。还有使用 GitHub Copilot 帮他写代码，让它自动生成下一步的证明结果，Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具，你只需要写下一半的证明，它就会尝试猜测接下来的内容。大概有 20% 的情况下，它能猜到接近正确的答案。然后你就可以说，我接受这个答案。好的，那么在这种情况下，我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行，尽管你可能看不清楚，却真的解决了这个问题。所以，你不能盲目接受它的输入，因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解，这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行，它们就能自动完成。现在已经有了这样的实验，即通过迭代地让 AI 提供证明，然后让编译器进行反馈，如果编译出错，就把错误信息反馈给 AI。通过这种方法，我们开始能够验证四五步长的证明。当然，一个大型的证明可能需要数万行。所以，我们还没有达到能够立即得到一个正式证明的程度。但是，这已经是一个相当有用的工具。对于大家关心的问题： AI 在数学领域现在到了哪一个阶段？是否未来几年利用 AI 能直接解决数学问题？陶哲轩也给出了他的看法： > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题，你可以定制专门的 AI 来处理一小部分问题。即便如此，它们也不是完全可靠的，但还是有用的。不过至少在接下来的几年里，它们基本上将是非常有用的辅助工具，超越了我们已经熟悉的暴力计算辅助。他还提到了一些可能的 AI 能在数学领域提供帮助的方向： - AI 能够非常好地生成有价值的猜想 > 比如，我们已经看到了关于结理论的例子，它们已经可以推测出两个不同的统计量之间的关系。因此，我们希望能够创建大量的数据集，输入到 AI 中，它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点，部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在，因为证明定理是如此繁琐和艰难的过程，我们一次只能证明一个定理，如果你效率很高，可能一次能证明两三个。但是有了 AI，你可以设想一下未来的情况，我们不是试图解决一个问题，而是处理一类类似的1000个问题，然后告诉AI，尝试用这个方法解决这 1000 个问题，然后报告结果，哦，我能用这种技术解决 35% 的问题。那么另一种技术呢？我能解决这个百分比的问题。或者如果结合这些方法，又能解决多少问题？你可以开始探索问题的空间，而不是一个接一个地解决问题。这是你现在根本无法做到的事情，或者是你需要几十年时间，通过数十篇论文慢慢搞清楚各种技术能做什么，不能做什么。但是有了这些工具，你真的可以开始做规模前所未有的数学研究。所以，未来将会非常令人兴奋。演讲环节结束前的最后一句话说的特别好： > 我们仍然会以传统方式证明定理。事实上，我们必须这样做，因为如果我们自己都不知道如何做这些事情，就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。这恰恰也是我们现在使用 AI 辅助编程的问题：如果我们自己都不知道如何构建软件，就很难引导好 AI 帮助我们生成高质量的代码。尽管 AI 在数学和编程领域变得越来越有用，但人类的洞察力和创造力仍然是创作价值的关键。原始 YT 视频：

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上，陶哲轩做了一次 AI 和数学的演讲，非常精彩，从数学使用计算计算机的历史开始讲起，一直讲到大语言模型，干货相当多，尤其适合对数学有兴趣的同学。（对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看）先摘录几个冷知识： 1. 我们使用机器做数学计算已经有数千年，最早的机器辅助计算可能是罗马人，然后是中国的算盘 2. 二战时就有人肉“计算机”，计算弹道和其他任务，多位女孩子，因为男士们在打仗，所以那时候的计算基本单位不是GPU，而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在，数学家们使用一种现代化的证明辅助编程语言，叫做 Lean。在 Lean 中有一个核心的数学库，通过众包的方式开发的，本科数学课程中看到的内容，比如微积分基础、群论基础或者拓扑学等等，这些都已经被形式化了，所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程，那就是先编写一个称为“蓝图”的详细证明计划，将整个证明分解为数百个小步骤。每个步骤可以单独形式化，然后再将它们整合在一起，这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图，然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。去年，陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了，使用了蓝图工具，参与的人中有概率论专家，甚至还有一些并非数学家的人，他们是程序员，但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务，并完成了它。在数学领域，通常很难这么多人一起合作，一般最多可能五个人合作。因为在大项目上合作时，你必须相信每个人的数学都是正确的。但是，一旦超过一定规模，这就无法实现了。但现在借助 Lean 编译器，它能自动检查。团队成员无法上传任何编译不通过的内容，会被拒绝。因此，你可以与一些从未见过的人合作。最后是讲大语言模型，首先陶哲轩就打脸了 GPT-4 的论文（我猜是微软那篇《GPT-4，通用人工智能的火花》），论文中号称 GPT-4 能解决国际数学奥林匹克问题，但实际上，这个问题不是 2022 年国际奥数竞赛的原始问题，而是一个简化版本，并且他们测试了几百道国际奥数竞赛问题，成功率只有1%，论文里的这个是精心挑选的恰巧能做对的。并且陶哲轩提到了基于大语言模型的一些改进的方案：比如 CoT（Chain of Thought），也就是 LLM 做简单的算术运算都做不对，但是如果让它一步步解释，可能就对了。还可以教 AI 一些解题技巧，比如尝试简单的例子，反证法，尝试逐步证明等。比如让模型和编程语言或者工具连接，将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证，并且迭代的进行修正和验证，直到得到正确的结果，这可以提升大语言模型生成的效果。即使借助这些手段，大语言模型还远远不能解决大多数数学问题，更不用说数学研究问题了！当然陶哲轩也没太过打击大家对于 AI 的信心，表示我们在 AI 上还是在不断的取得进展，还提到了他日常是怎么用 AI 的，比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题，我尝试了几种方法，但都无法解决。于是，我尝试询问 GPT，你建议我使用什么其他方法来解决这个问题？GPT 给我提供了 10 种可能的方法，其中有 5 种我已经尝试过，或者明显没有帮助。的确，有几种方法并不实用。但其中有一种我还没尝试过的方法，那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时，我意识到这就是我漏掉的正确方法。所以，将 GPT 视为一个交流伙伴，它确实具有一定的用处。还有使用 GitHub Copilot 帮他写代码，让它自动生成下一步的证明结果，Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具，你只需要写下一半的证明，它就会尝试猜测接下来的内容。大概有 20% 的情况下，它能猜到接近正确的答案。然后你就可以说，我接受这个答案。好的，那么在这种情况下，我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行，尽管你可能看不清楚，却真的解决了这个问题。所以，你不能盲目接受它的输入，因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解，这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行，它们就能自动完成。现在已经有了这样的实验，即通过迭代地让 AI 提供证明，然后让编译器进行反馈，如果编译出错，就把错误信息反馈给 AI。通过这种方法，我们开始能够验证四五步长的证明。当然，一个大型的证明可能需要数万行。所以，我们还没有达到能够立即得到一个正式证明的程度。但是，这已经是一个相当有用的工具。对于大家关心的问题： AI 在数学领域现在到了哪一个阶段？是否未来几年利用 AI 能直接解决数学问题？陶哲轩也给出了他的看法： > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题，你可以定制专门的 AI 来处理一小部分问题。即便如此，它们也不是完全可靠的，但还是有用的。不过至少在接下来的几年里，它们基本上将是非常有用的辅助工具，超越了我们已经熟悉的暴力计算辅助。他还提到了一些可能的 AI 能在数学领域提供帮助的方向： - AI 能够非常好地生成有价值的猜想 > 比如，我们已经看到了关于结理论的例子，它们已经可以推测出两个不同的统计量之间的关系。因此，我们希望能够创建大量的数据集，输入到 AI 中，它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点，部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在，因为证明定理是如此繁琐和艰难的过程，我们一次只能证明一个定理，如果你效率很高，可能一次能证明两三个。但是有了 AI，你可以设想一下未来的情况，我们不是试图解决一个问题，而是处理一类类似的1000个问题，然后告诉AI，尝试用这个方法解决这 1000 个问题，然后报告结果，哦，我能用这种技术解决 35% 的问题。那么另一种技术呢？我能解决这个百分比的问题。或者如果结合这些方法，又能解决多少问题？你可以开始探索问题的空间，而不是一个接一个地解决问题。这是你现在根本无法做到的事情，或者是你需要几十年时间，通过数十篇论文慢慢搞清楚各种技术能做什么，不能做什么。但是有了这些工具，你真的可以开始做规模前所未有的数学研究。所以，未来将会非常令人兴奋。演讲环节结束前的最后一句话说的特别好： > 我们仍然会以传统方式证明定理。事实上，我们必须这样做，因为如果我们自己都不知道如何做这些事情，就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。这恰恰也是我们现在使用 AI 辅助编程的问题：如果我们自己都不知道如何构建软件，就很难引导好 AI 帮助我们生成高质量的代码。尽管 AI 在数学和编程领域变得越来越有用，但人类的洞察力和创造力仍然是创作价值的关键。原始 YT 视频：

宝玉

300,761 Aufrufe • vor 1 Jahr

什么是 AI 智能体？（双语字幕）为了解释这一点，我们必须看一看在生成式 AI 领域看到的各种转变。 *** 从单一模型向复合 AI 系统的转变单一模型受限于其训练数据，这影响了它们对世界的认知以及它们可以解决的任务类型。而且，这些模型也难以适应变化。尽管可以对模型进行微调，但这需要大量的数据和资源投资。 **** 示例：查询假期天数例如，我想要为今年夏天计划一次假期，想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。然而，答案会不正确，因为模型并不知道我的身份，也无法访问我的个人信息。因此，模型本身可能对一些任务有所帮助，例如总结文档、撰写电子邮件初稿和各种报告初稿。但当我们围绕模型构建系统，并将模型集成到现有流程中时，魔力便显现出来。设计一个系统来解决前面提到的问题，需要让模型能访问存储我假期数据的数据库。这样，虽然输入到语言模型中的查询相同，但模型会被提示创建一个搜索查询，这个查询可以访问我的数据库。程序会获取信息并得到答案，再将答案输入语言模型中，生成回答句子，如：“Maya，你的假期数据库里还剩下十天。”这样，我能得到正确的答案。 *** 复合 AI 系统的模块化设计 “系统”意味着有多个组件，因此系统本质上是模块化的。我可以有一个模型，选择微调模型、大语言模型、图像生成模型，但也可以有围绕它的程序化组件。可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。当我们谈论系统方法时，我可以分解希望程序完成的任务，选择合适的组件来解决问题。这比微调一个模型要容易得多，使过程更快、更方便。 **** 检索增强生成（RAG）一个流行的复合 AI 系统例子是检索增强生成（RAG）。如果我提出一个完全不同的查询，如问天气情况，这会失败，因为程序的运行路径总是搜索假期数据库，而这与天气无关。因此，复合 AI 系统的大部分都有程序控制逻辑，这些逻辑由人类定义。 *** AI 智能体的作用另一种控制复合 AI 系统的逻辑方式是让大语言模型负责，这在大语言模型的推理能力显著提高时才可能实现。大语言模型可以处理复杂问题，能根据提示词要求将问题分解并制定解决计划。在一个极端，我要求系统快速思考，按照设定的规则行动。在另一个极端，可以让系统慢慢思考，制定计划，逐步解决每一部分，理解困难点并调整计划。当让大语言模型负责逻辑时，就是在采取一种以智能体为中心的方法。 *** 大语言模型智能体的组成部分 **** 推理能力推理能力将模型置于解决问题的核心位置，在设定计划的过程中对每一步进行推理。 **** 行动能力行动能力通过称为“工具”的外部程序实现。这些工具是程序的外部模块，模型可以确定何时及如何调用它们以便最有效地解决提出的问题。例如，网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、翻译任务的模型等。 **** 访问记忆的能力 “记忆”可以表示几种含义。模型可以通过程序进行思考，类似于自言自语的内部日志，可以存储并随时取用。这也可以是与智能体互动的对话历史，使体验更加个性化。 *** ReACT 方法配置智能体的受欢迎方法之一是 ReACT 方法，将推理和行动组件结合在一起。 **** 示例：度假计划例如，我计划下个月去佛罗里达，想知道需要带多少瓶两盎司的防晒霜。这是个复杂的问题，有多步计划： 1. 我打算休多少天假？ 2. 我计划在阳光下待多少小时？查看佛罗里达的天气预报。 3. 尝试了解每小时在阳光下的推荐防晒剂剂量。 4. 进行数学运算，确定防晒霜数量。这个系统非常模块化，可以解决更复杂的问题。 *** 复合 AI 系统的未来复合 AI 系统将一直存在，2024 年将看到它们变得更加智能。你可以根据问题的复杂程度在 AI 自治程度上做出权衡。对于狭窄、定义明确的问题，程序化方法更有效。而对于需要独立解决复杂任务的系统，智能体方法更有帮助。大多数情况下，人工仍会参与以提高准确性。原始视频来源：

什么是 AI 智能体？（双语字幕）为了解释这一点，我们必须看一看在生成式 AI 领域看到的各种转变。 * 从单一模型向复合 AI 系统的转变单一模型受限于其训练数据，这影响了它们对世界的认知以及它们可以解决的任务类型。而且，这些模型也难以适应变化。尽管可以对模型进行微调，但这需要大量的数据和资源投资。示例：查询假期天数例如，我想要为今年夏天计划一次假期，想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。然而，答案会不正确，因为模型并不知道我的身份，也无法访问我的个人信息。因此，模型本身可能对一些任务有所帮助，例如总结文档、撰写电子邮件初稿和各种报告初稿。但当我们围绕模型构建系统，并将模型集成到现有流程中时，魔力便显现出来。设计一个系统来解决前面提到的问题，需要让模型能访问存储我假期数据的数据库。这样，虽然输入到语言模型中的查询相同，但模型会被提示创建一个搜索查询，这个查询可以访问我的数据库。程序会获取信息并得到答案，再将答案输入语言模型中，生成回答句子，如：“Maya，你的假期数据库里还剩下十天。”这样，我能得到正确的答案。 * 复合 AI 系统的模块化设计 “系统”意味着有多个组件，因此系统本质上是模块化的。我可以有一个模型，选择微调模型、大语言模型、图像生成模型，但也可以有围绕它的程序化组件。可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。当我们谈论系统方法时，我可以分解希望程序完成的任务，选择合适的组件来解决问题。这比微调一个模型要容易得多，使过程更快、更方便。 ** 检索增强生成（RAG）一个流行的复合 AI 系统例子是检索增强生成（RAG）。如果我提出一个完全不同的查询，如问天气情况，这会失败，因为程序的运行路径总是搜索假期数据库，而这与天气无关。因此，复合 AI 系统的大部分都有程序控制逻辑，这些逻辑由人类定义。 * AI 智能体的作用另一种控制复合 AI 系统的逻辑方式是让大语言模型负责，这在大语言模型的推理能力显著提高时才可能实现。大语言模型可以处理复杂问题，能根据提示词要求将问题分解并制定解决计划。在一个极端，我要求系统快速思考，按照设定的规则行动。在另一个极端，可以让系统慢慢思考，制定计划，逐步解决每一部分，理解困难点并调整计划。当让大语言模型负责逻辑时，就是在采取一种以智能体为中心的方法。 * 大语言模型智能体的组成部分推理能力推理能力将模型置于解决问题的核心位置，在设定计划的过程中对每一步进行推理。行动能力行动能力通过称为“工具”的外部程序实现。这些工具是程序的外部模块，模型可以确定何时及如何调用它们以便最有效地解决提出的问题。例如，网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、翻译任务的模型等。访问记忆的能力 “记忆”可以表示几种含义。模型可以通过程序进行思考，类似于自言自语的内部日志，可以存储并随时取用。这也可以是与智能体互动的对话历史，使体验更加个性化。 * ReACT 方法配置智能体的受欢迎方法之一是 ReACT 方法，将推理和行动组件结合在一起。 ** 示例：度假计划例如，我计划下个月去佛罗里达，想知道需要带多少瓶两盎司的防晒霜。这是个复杂的问题，有多步计划： 1. 我打算休多少天假？ 2. 我计划在阳光下待多少小时？查看佛罗里达的天气预报。 3. 尝试了解每小时在阳光下的推荐防晒剂剂量。 4. 进行数学运算，确定防晒霜数量。这个系统非常模块化，可以解决更复杂的问题。 * 复合 AI 系统的未来复合 AI 系统将一直存在，2024 年将看到它们变得更加智能。你可以根据问题的复杂程度在 AI 自治程度上做出权衡。对于狭窄、定义明确的问题，程序化方法更有效。而对于需要独立解决复杂任务的系统，智能体方法更有帮助。大多数情况下，人工仍会参与以提高准确性。原始视频来源：

宝玉

44,356 Aufrufe • vor 1 Jahr

最近看到一个很牛逼的 AI research 产品，能帮助我们验证产品可行性，避免陷入自嗨陷阱，它叫atypica。你丢给它一个商业问题后，它会先澄清你的需求，像研究团队规划研究，再去搜公开信息、找合适的persona、模拟用户做访谈，最后给你一份结构化报告。能站到目标用户视角，去提前验证一个产品值不值得做。比如： 1. 你可以用它研究，自己的受众到底更想看教程、案例，还是观点类内容 2. 你也可以用它研究，一个AI产品在真实 persona 眼里，到底哪里有吸引力他们现在底层有100w+ 基于真实社媒内容分析拟合成的AI personas，也有基于真实深度访谈构建的 10 万+ 高质量 persona。如果这个方向继续成熟下去，我觉得它最有价值是帮更多创作者、营销人、产品团队，在真正花时间和预算之前，先把明显错误的方向排掉。接下来我来拆解atypica.AI ，讲一下这个产品为什么有点东西，🔗放评论区：

最近看到一个很牛逼的 AI research 产品，能帮助我们验证产品可行性，避免陷入自嗨陷阱，它叫atypica。你丢给它一个商业问题后，它会先澄清你的需求，像研究团队规划研究，再去搜公开信息、找合适的persona、模拟用户做访谈，最后给你一份结构化报告。能站到目标用户视角，去提前验证一个产品值不值得做。比如： 1. 你可以用它研究，自己的受众到底更想看教程、案例，还是观点类内容 2. 你也可以用它研究，一个AI产品在真实 persona 眼里，到底哪里有吸引力他们现在底层有100w+ 基于真实社媒内容分析拟合成的AI personas，也有基于真实深度访谈构建的 10 万+ 高质量 persona。如果这个方向继续成熟下去，我觉得它最有价值是帮更多创作者、营销人、产品团队，在真正花时间和预算之前，先把明显错误的方向排掉。接下来我来拆解atypica.AI ，讲一下这个产品为什么有点东西，🔗放评论区：

余温

32,272 Aufrufe • vor 2 Monaten

强，字节刚刚开源了一款“ChatGPT Pulse”类工具： MineContext，它会主动推送洞察、日/周总结、待办、活动记录等信息以每日总结、每周回顾、关键Tips或待办事项等形式，主动推送到主页 MineContext具有上下文感知能力，它目前基于屏幕截图+内容理解，看到看懂用户数字世界的上下文，再基于底层的上下文工程框架，进行主动推送未来会支持其他来源的多模态信息，文档、图片、视频、代码、外部应用数据等无感收集，开启后，它会在后台自动收集上下文，无需进行任何额外操作智能浮现，当需要创作或查找资料时，它可以智能浮现出相关历史上下文，以辅助创作比ChatGPT Pulse，MineContext所有的数据都会经过压缩后保存在本地，更具安全性 MineContext等于把沉默的电脑数据变成了随时可用的第二大脑，学生或研究者可以用来辅助构建知识体系，内容创作者可以用来提供灵感、优化工作流等 #MineContext #AI信息推送助手

强，字节刚刚开源了一款“ChatGPT Pulse”类工具： MineContext，它会主动推送洞察、日/周总结、待办、活动记录等信息以每日总结、每周回顾、关键Tips或待办事项等形式，主动推送到主页 MineContext具有上下文感知能力，它目前基于屏幕截图+内容理解，看到看懂用户数字世界的上下文，再基于底层的上下文工程框架，进行主动推送未来会支持其他来源的多模态信息，文档、图片、视频、代码、外部应用数据等无感收集，开启后，它会在后台自动收集上下文，无需进行任何额外操作智能浮现，当需要创作或查找资料时，它可以智能浮现出相关历史上下文，以辅助创作比ChatGPT Pulse，MineContext所有的数据都会经过压缩后保存在本地，更具安全性 MineContext等于把沉默的电脑数据变成了随时可用的第二大脑，学生或研究者可以用来辅助构建知识体系，内容创作者可以用来提供灵感、优化工作流等 #MineContext #AI信息推送助手

AIGCLINK

35,813 Aufrufe • vor 9 Monaten

如何更好地分享 Deep Research 的报告我现在的工作流： 1. 使用 Gemini 2.5 Pro Deep Research 对目标主题进行调研（对比发现要好于 o3 Deep Research 的结果） 2. 使用 Devv 2.0 基于 report 的结果来构建一个可交互式的网站这种方式比单纯的文字报告 or PPT 来得更加直观。

如何更好地分享 Deep Research 的报告我现在的工作流： 1. 使用 Gemini 2.5 Pro Deep Research 对目标主题进行调研（对比发现要好于 o3 Deep Research 的结果） 2. 使用 Devv 2.0 基于 report 的结果来构建一个可交互式的网站这种方式比单纯的文字报告 or PPT 来得更加直观。

Jiayuan

32,829 Aufrufe • vor 1 Jahr

Anthropic将推出一个叫Harmony的新功能，这个功能支持将本地文件目录集成到Claude的上下文中这意味着Claude能直接读取、索引、分析目录中的文件内容，与你的本地文件无缝交互以前，你得手动把代码给Claude，现在，直接让它看整个项目文件夹，它能自动分析所有代码，找出问题据说它用了几分钟分析了一个代码库，识别了出了10个不同的安全漏洞还可以直接让Claude修改本地文件，像更新文档、修改代码、添加内容等也可以让它找文件，它会扫描你指定的文件夹根据关键词找到文件此外，Anthropic应该还在出另外一个叫Compass的新功能，类似深度研究的功能，可以自动整合多个信息来源，包括搜索网络、学习材料、报告文档等，把零散信息整合成一个有条理的研究结果 #Claude #Harmony #AI #LLM

Anthropic将推出一个叫Harmony的新功能，这个功能支持将本地文件目录集成到Claude的上下文中这意味着Claude能直接读取、索引、分析目录中的文件内容，与你的本地文件无缝交互以前，你得手动把代码给Claude，现在，直接让它看整个项目文件夹，它能自动分析所有代码，找出问题据说它用了几分钟分析了一个代码库，识别了出了10个不同的安全漏洞还可以直接让Claude修改本地文件，像更新文档、修改代码、添加内容等也可以让它找文件，它会扫描你指定的文件夹根据关键词找到文件此外，Anthropic应该还在出另外一个叫Compass的新功能，类似深度研究的功能，可以自动整合多个信息来源，包括搜索网络、学习材料、报告文档等，把零散信息整合成一个有条理的研究结果 #Claude #Harmony #AI #LLM

AIGCLINK

36,742 Aufrufe • vor 1 Jahr

英伟达Nvidia黄仁勋： AI，让平凡的人不再平凡。一个年轻人加上AI，就是全新的“超级个体”。不拼资历，不靠背景，AI成了这个时代最大的“能力放大器”。它不是替你工作，而是教你变强，像导师、像助手，甚至像一整个研究团队。以前，成为专家要花十年，现在，用AI做研究，年轻人正在用几年甚至几个月的速度追赶。程序员用它写代码、调试逻辑；研究员用它读文献、生成模型；医生用它分析病例、辅助诊断。几乎所有专业的人才，搭上AI这台引擎，都跑得更快。哪怕是在偏远小镇的医生，或是发展中国家的工程师，手里只要有AI，就能站上世界一线的能力标准。但这，也压力山大。对那些在某个领域苦练二十年的人来说，现在，刚入行的新人搭上AI，可能一年就追平你辛苦十年的经验积累。 AI不是取代你，而是逼你进化。越早拥抱它，你越可能成为被放大的那一个。

英伟达Nvidia黄仁勋： AI，让平凡的人不再平凡。一个年轻人加上AI，就是全新的“超级个体”。不拼资历，不靠背景，AI成了这个时代最大的“能力放大器”。它不是替你工作，而是教你变强，像导师、像助手，甚至像一整个研究团队。以前，成为专家要花十年，现在，用AI做研究，年轻人正在用几年甚至几个月的速度追赶。程序员用它写代码、调试逻辑；研究员用它读文献、生成模型；医生用它分析病例、辅助诊断。几乎所有专业的人才，搭上AI这台引擎，都跑得更快。哪怕是在偏远小镇的医生，或是发展中国家的工程师，手里只要有AI，就能站上世界一线的能力标准。但这，也压力山大。对那些在某个领域苦练二十年的人来说，现在，刚入行的新人搭上AI，可能一年就追平你辛苦十年的经验积累。 AI不是取代你，而是逼你进化。越早拥抱它，你越可能成为被放大的那一个。

墓碑科技

12,575 Aufrufe • vor 11 Monaten

和AI Agent一起工作是一种什么样的体验？扣子空间详细体验评测（下面有邀请码）🧵↓ 字节跳动发布新一代 AI Agent 平台：扣子空间，Slogan为：在扣子空间，和 Agent 一起开始你的工作。也就是你可以像和真人协作一样，和AI一起完成特定任务。通过自然语言交流直接交付结果🫡 例如这个↓ 这个测试是模拟你通过AI来简化你的工作或者提高你的工作效率或者成果，例如假如你是一个幼儿园老师就可以通过AI生成一个交互式的英语学习应用。提高孩子们学习英语的乐趣。它支持调用MCP，这个测试调用了两个MCP，一个是图像生成一个是语音生成。扣子空间，它可以是： ✅「通用实习生」：可以处理各种基础任务，比如整理资料、写文案、查数据等。 ✅「领域专家」：针对具体行业或专业的问题（如法律、医学、设计等）有深入理解，能给出专业建议或完成复杂任务。你可以根据自己的需要选择不同AI来协助你完成任务。它不只是回答问题，AI还能主动帮你做事：比如生成报告、整理数据、写代码、规划日程等。支持两种工作方式：自动模式：AI自动帮你完成任务。协作模式：你可以一步步与AI互动，逐步推进任务，更适合复杂工作。

和AI Agent一起工作是一种什么样的体验？扣子空间详细体验评测（下面有邀请码）🧵↓ 字节跳动发布新一代 AI Agent 平台：扣子空间，Slogan为：在扣子空间，和 Agent 一起开始你的工作。也就是你可以像和真人协作一样，和AI一起完成特定任务。通过自然语言交流直接交付结果🫡 例如这个↓ 这个测试是模拟你通过AI来简化你的工作或者提高你的工作效率或者成果，例如假如你是一个幼儿园老师就可以通过AI生成一个交互式的英语学习应用。提高孩子们学习英语的乐趣。它支持调用MCP，这个测试调用了两个MCP，一个是图像生成一个是语音生成。扣子空间，它可以是： ✅「通用实习生」：可以处理各种基础任务，比如整理资料、写文案、查数据等。 ✅「领域专家」：针对具体行业或专业的问题（如法律、医学、设计等）有深入理解，能给出专业建议或完成复杂任务。你可以根据自己的需要选择不同AI来协助你完成任务。它不只是回答问题，AI还能主动帮你做事：比如生成报告、整理数据、写代码、规划日程等。支持两种工作方式：自动模式：AI自动帮你完成任务。协作模式：你可以一步步与AI互动，逐步推进任务，更适合复杂工作。

小互

27,158 Aufrufe • vor 1 Jahr

AIagent竞争越来越激烈了，昆仑万维刚刚发布了一款基于deep research的“AI Office智能体”：天工超级智能体，deep research能力超OpenAI Deep Research 基于AI agent架构和deep research技术，可以一站式生成文档、PPT、表格、网页、播客，以及音视频等多模态内容其是由5个专家智能体和1个通用智能体组成的多智能体垂直系统 5个专家智能体分别负责文档、PPT、表格、播客以及网页生成，并集成了超强deep research能力，可以提供专业级内容生成结果 deep research模型为其自研，成本为openAI的40%，其性能在GAIA上得分82.42，超过了OpenAI Deep Research和Manus，排行第一天工生成的研究报告特点是，放了更多数据图表，条形图、直方图、折线图、饼状图、雷达图等等，PPT也一样，反正就是除了内容专业，展现还比较炫酷 1个通用智能体，接入了数十个MCP，用于生成图片、海报、音乐、MV、宣传片、有声读物、绘本，以及其他多媒体内容天工已经把其deep research agent框架开源了，同时，也把他们的文档、PPT、表格生成能力封装成了MCP #AIagent #天工超级智能体 #AI办公助手

AIagent竞争越来越激烈了，昆仑万维刚刚发布了一款基于deep research的“AI Office智能体”：天工超级智能体，deep research能力超OpenAI Deep Research 基于AI agent架构和deep research技术，可以一站式生成文档、PPT、表格、网页、播客，以及音视频等多模态内容其是由5个专家智能体和1个通用智能体组成的多智能体垂直系统 5个专家智能体分别负责文档、PPT、表格、播客以及网页生成，并集成了超强deep research能力，可以提供专业级内容生成结果 deep research模型为其自研，成本为openAI的40%，其性能在GAIA上得分82.42，超过了OpenAI Deep Research和Manus，排行第一天工生成的研究报告特点是，放了更多数据图表，条形图、直方图、折线图、饼状图、雷达图等等，PPT也一样，反正就是除了内容专业，展现还比较炫酷 1个通用智能体，接入了数十个MCP，用于生成图片、海报、音乐、MV、宣传片、有声读物、绘本，以及其他多媒体内容天工已经把其deep research agent框架开源了，同时，也把他们的文档、PPT、表格生成能力封装成了MCP #AIagent #天工超级智能体 #AI办公助手

AIGCLINK

31,413 Aufrufe • vor 1 Jahr