Video yükleniyor...

Video Yüklenemedi

Ana Sayfaya Dön

直播第二天,OpenAI推出了【强化微调(Reinforcement Fine-Tuning)】,它可以让你用极少的训练数据,为特定的复杂任务构建专家模型,微调后的o1-mini得分提高80%,反超o1正式版! 特点: 1、只需几十到几千个高质量数据 2、评分机制持续优化模型表现,通过参考答案评估模型输出,支持自定义评分标准 3、增强模型在特定领域的推理能力和准确性,通用AI变专家AI 4、提供完整网页操作界面,可实时监控模型性能变化 适用于编程、科学研究、金融、法律等等不同领域 #openai #openai强化微调 #模型微调

26,362 görüntüleme • 1 yıl önce •via X (Twitter)

6 Yorum

AIGCLINK profil fotoğrafı
AIGCLINK1 yıl önce

申请地址:

Rainmaker profil fotoğrafı
Rainmaker2 yıl önce

Which Machine Learning model delivers stronger trading results? Check out this free Substack post where I compare several powerful models that beat the market and show yearly returns of over 20%.

ethanhzoncall profil fotoğrafı
ethanhzoncall1 yıl önce

◼︎ 发布会逐字稿/AI摘要: [ ▌ Reinforcement Fine-tuning(RFT)重点 - 基于强化学习演算法训练,优化模型推理能力 - 只需十几个范例即可达到显著效果 - 支援法律、金融、工程、保险等专业领域应用 - 预计2025年正式向所有用户开放 - 与Thompson Reuters合作,用于优化Co-counsel AI法律助手 ▌ 技术细节 - 使用JSONL格式训练资料,每行代表一个训练范例 - 使用独立验证资料集(validation set)避免过拟合 - 验证集中的基因与训练集不重叠,确保真实泛化能力 - 内建评分机制(grader) - 分数范围0-1,支援部分给分 - 提供多种通用评分器 - 未来将开放自定义评分标准 - 使用OpenAI分散式训练基础设施,训练时间从数小时到数天不等 ▌ Berkeley Lab应用案例 - 针对罕见遗传疾病诊断优化 - 全球约3亿人受罕见疾病影响 - 从症状推测可能的致病基因 - 使用1100笔训练资料,来自医学文献与病例报告 - 效能显著提升: - Top-1准确率: 31%(O1 Mini微调) vs 25%(O1) vs 17%(O1 Mini原版) - 完整输出推理过程与基因排序 - 验证数据显示模型具有真实泛化能力 ▌ Alpha测试计划开放申请 - 针对具有专业团队的组织 - 已有初步成功案例: - 生物化学研究 - AI安全性评估 - 法律文件分析 - 医疗诊断辅助 - 提供完整技术支援与训练资源 ▌ Reference ◼︎ Demo影片: [ ◼︎ Alpha计划申请: [ ◼︎ HN讨论: [ ◼︎ Justin Reese研究: [ #OpenAI #AI #MachineLearning #O1

币安高返佣注册申请 (Parody) profil fotoğrafı
币安高返佣注册申请 (Parody)1 yıl önce

真强

OSDev profil fotoğrafı
OSDev1 yıl önce

rst @readwise save thread

农耕 profil fotoğrafı
农耕1 yıl önce

期待中,希望不要像sora的申请一样遥遥无期

Benzer Videolar

发现一个讲的很细的大语言模型微调教程,详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。 基本没有技术能力也可以完成微调。想要了解 LLM 原理的可以按这个实践一下。 时间轴: 0:00 概念概览 3:02 自定义数据的准备 8:17 微调操作演示(T4 版本) 16:52 微调操作演示(A100 版本) 19:13 在 Hugging Face 上的保存与使用方法 文字版整理: ✲ 如何使用自己的数据对大语言模型进行微调(fine-tuning): 对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。 ✲ 使用Hugging Face模型库和Unslaw工具进行模型微调: Hugging Face提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。 ✲ 在Google Colab上使用免费/付费GPU资源进行微调: Google Colab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。 ✲ 准备自定义的微调数据集: 准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。 ✲ 修改Colab笔记本中的参数设置: 在Colab笔记本中,需要根据实际情况调整一些参数。例如,可以根据数据集的token数量来设置max_sequence_length参数,借助rope scaling技术,模型能够支持任意长度的上下文。此外,还可以选择使用Instruct系列模型作为base model,直接在其基础上进行指令微调。为了节省资源,可以启用4-bit量化。同时,参考Q-Lora论文的建议,调整R值和alpha值,以在资源占用和模型质量之间取得平衡。 ✲ 训练过程中的资源使用监控: 在模型训练过程中,用户可以通过Colab的资源监控选项卡实时观察GPU、内存和硬盘的使用情况。如果发现资源不足,可以考虑从T4升级到A100。通过监控资源占用,用户能够及时调整配置,确保微调任务稳定高效地进行。 ✲ 模型训练的loss变化和最佳checkpoint的选择: 通过记录不同训练步数下的loss值,可以判断模型的收敛情况。理想的做法是选择loss下降曲线趋于平缓的点作为最佳checkpoint,这样既能充分训练模型,又能避免过拟合。为了事后方便筛选,可以设置每隔一定步数保存一次checkpoint。 ✲ 模型微调完成后的保存与使用: 微调完成后,可以选择只保存adapter layers以加快保存速度。但更推荐的做法是保存完整模型,并使用float16精度,这样可以得到一个更通用和标准的模型格式,方便后续的部署和使用。 ✲ 在Hugging Face上公开或私有发布微调后的模型: 用户可以选择在Hugging Face的模型库中公开或私有地发布自己微调后的模型。发布之前,需要在Hugging Face账号中创建一个访问令牌,并在发布时提供相应的用户名和令牌信息。通过在Hugging Face上发布模型,用户可以方便地与他人分享自己的微调成果。 ✲ 使用微调后的模型进行推理(inference): 在使用微调后的模型进行推理时,首先需要加载保存的模型。接着,使用tokenizer对输入的文本进行处理,并将其传入模型。进行推理时,max_length参数需要与训练时保持一致,以确保生成的结果不会被截断。完成以上步骤后,就可以利用微调后的模型进行各种实际应用了。

歸藏(guizang.ai)

61,710 görüntüleme • 2 yıl önce

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》(中英双语字幕) 这个视频介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及Google的Gen AI开发工具。 大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。 大型语言模型的三个主要特征是:大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模,也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。 使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。 此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的LLM开发与传统的ML开发的区别。 在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。 原始视频链接:

宝玉

114,585 görüntüleme • 3 yıl önce

全球最贵的金融团队都在 GitHub 上开源了什么? 普通人怎么了解量化?直接上手是最快的 Jane Street、Goldman Sachs、J.P. Morgan 等顶级量化与高频交易机构,都放出了代表性的金融/工程工具,帮助普通量化爱好者免费学到机构级的定价模型、实时数据可视化和高精度性能调试能力👇 1. Jane Street magic-trace(5.4k stars) 基于 Intel Processor Trace 的高精度进程追踪工具。普通 profiler 看不清调用栈的时候,它能以纳秒级分辨率记录 CPU 每一条指令的完整执行过程。想深入调试性能、搞清楚程序到底卡在哪里的同学,强烈推荐试试 2. Goldman Sachs gs-quant(10.2k stars) 高盛交易员日常使用的衍生品定价和风险管理 Python 工具包。包含期权、掉期等常见衍生品的完整定价模型和风险计算模块。直接 pip 安装就能用,适合想系统学习机构级量化定价的同学,实用性很强 3. Perspective(原 J.P. Morgan 项目,10.5k stars) J.P. Morgan 开源的实时数据可视化利器,特别擅长处理海量流式行情数据。能快速搭建漂亮的交互式仪表盘和实时监控界面,支持 Jupyter,比很多付费终端还灵活。对做数据分析和行情可视化的朋友非常友好 这三个开源项目,能让你直接用上机构级的定价模型、实时行情仪表盘和高精度性能调试工具,帮普通开发者提升量化分析、数据可视化和代码优化能力,完全免费

梭哈.AI

94,326 görüntüleme • 1 ay önce

什么是 AI 智能体?(双语字幕) 为了解释这一点,我们必须看一看在生成式 AI 领域看到的各种转变。 *** 从单一模型向复合 AI 系统的转变 单一模型受限于其训练数据,这影响了它们对世界的认知以及它们可以解决的任务类型。而且,这些模型也难以适应变化。尽管可以对模型进行微调,但这需要大量的数据和资源投资。 **** 示例:查询假期天数 例如,我想要为今年夏天计划一次假期,想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。然而,答案会不正确,因为模型并不知道我的身份,也无法访问我的个人信息。因此,模型本身可能对一些任务有所帮助,例如总结文档、撰写电子邮件初稿和各种报告初稿。 但当我们围绕模型构建系统,并将模型集成到现有流程中时,魔力便显现出来。设计一个系统来解决前面提到的问题,需要让模型能访问存储我假期数据的数据库。这样,虽然输入到语言模型中的查询相同,但模型会被提示创建一个搜索查询,这个查询可以访问我的数据库。程序会获取信息并得到答案,再将答案输入语言模型中,生成回答句子,如:“Maya,你的假期数据库里还剩下十天。”这样,我能得到正确的答案。 *** 复合 AI 系统的模块化设计 “系统”意味着有多个组件,因此系统本质上是模块化的。我可以有一个模型,选择微调模型、大语言模型、图像生成模型,但也可以有围绕它的程序化组件。可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。 当我们谈论系统方法时,我可以分解希望程序完成的任务,选择合适的组件来解决问题。这比微调一个模型要容易得多,使过程更快、更方便。 **** 检索增强生成(RAG) 一个流行的复合 AI 系统例子是检索增强生成(RAG)。如果我提出一个完全不同的查询,如问天气情况,这会失败,因为程序的运行路径总是搜索假期数据库,而这与天气无关。因此,复合 AI 系统的大部分都有程序控制逻辑,这些逻辑由人类定义。 *** AI 智能体的作用 另一种控制复合 AI 系统的逻辑方式是让大语言模型负责,这在大语言模型的推理能力显著提高时才可能实现。大语言模型可以处理复杂问题,能根据提示词要求将问题分解并制定解决计划。 在一个极端,我要求系统快速思考,按照设定的规则行动。在另一个极端,可以让系统慢慢思考,制定计划,逐步解决每一部分,理解困难点并调整计划。 当让大语言模型负责逻辑时,就是在采取一种以智能体为中心的方法。 *** 大语言模型智能体的组成部分 **** 推理能力 推理能力将模型置于解决问题的核心位置,在设定计划的过程中对每一步进行推理。 **** 行动能力 行动能力通过称为“工具”的外部程序实现。这些工具是程序的外部模块,模型可以确定何时及如何调用它们以便最有效地解决提出的问题。例如,网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、翻译任务的模型等。 **** 访问记忆的能力 “记忆”可以表示几种含义。模型可以通过程序进行思考,类似于自言自语的内部日志,可以存储并随时取用。这也可以是与智能体互动的对话历史,使体验更加个性化。 *** ReACT 方法 配置智能体的受欢迎方法之一是 ReACT 方法,将推理和行动组件结合在一起。 **** 示例:度假计划 例如,我计划下个月去佛罗里达,想知道需要带多少瓶两盎司的防晒霜。这是个复杂的问题,有多步计划: 1. 我打算休多少天假? 2. 我计划在阳光下待多少小时?查看佛罗里达的天气预报。 3. 尝试了解每小时在阳光下的推荐防晒剂剂量。 4. 进行数学运算,确定防晒霜数量。 这个系统非常模块化,可以解决更复杂的问题。 *** 复合 AI 系统的未来 复合 AI 系统将一直存在,2024 年将看到它们变得更加智能。你可以根据问题的复杂程度在 AI 自治程度上做出权衡。对于狭窄、定义明确的问题,程序化方法更有效。而对于需要独立解决复杂任务的系统,智能体方法更有帮助。 大多数情况下,人工仍会参与以提高准确性。 原始视频来源:

宝玉

44,356 görüntüleme • 1 yıl önce