Video yükleniyor...
Video Yüklenemedi
直播第二天,OpenAI推出了【强化微调(Reinforcement Fine-Tuning)】,它可以让你用极少的训练数据,为特定的复杂任务构建专家模型,微调后的o1-mini得分提高80%,反超o1正式版! 特点: 1、只需几十到几千个高质量数据 2、评分机制持续优化模型表现,通过参考答案评估模型输出,支持自定义评分标准 3、增强模型在特定领域的推理能力和准确性,通用AI变专家AI 4、提供完整网页操作界面,可实时监控模型性能变化 适用于编程、科学研究、金融、法律等等不同领域 #openai #openai强化微调 #模型微调
26,362 görüntüleme • 1 yıl önce •via X (Twitter)
6 Yorum

申请地址:

Which Machine Learning model delivers stronger trading results? Check out this free Substack post where I compare several powerful models that beat the market and show yearly returns of over 20%.

◼︎ 发布会逐字稿/AI摘要: [ ▌ Reinforcement Fine-tuning(RFT)重点 - 基于强化学习演算法训练,优化模型推理能力 - 只需十几个范例即可达到显著效果 - 支援法律、金融、工程、保险等专业领域应用 - 预计2025年正式向所有用户开放 - 与Thompson Reuters合作,用于优化Co-counsel AI法律助手 ▌ 技术细节 - 使用JSONL格式训练资料,每行代表一个训练范例 - 使用独立验证资料集(validation set)避免过拟合 - 验证集中的基因与训练集不重叠,确保真实泛化能力 - 内建评分机制(grader) - 分数范围0-1,支援部分给分 - 提供多种通用评分器 - 未来将开放自定义评分标准 - 使用OpenAI分散式训练基础设施,训练时间从数小时到数天不等 ▌ Berkeley Lab应用案例 - 针对罕见遗传疾病诊断优化 - 全球约3亿人受罕见疾病影响 - 从症状推测可能的致病基因 - 使用1100笔训练资料,来自医学文献与病例报告 - 效能显著提升: - Top-1准确率: 31%(O1 Mini微调) vs 25%(O1) vs 17%(O1 Mini原版) - 完整输出推理过程与基因排序 - 验证数据显示模型具有真实泛化能力 ▌ Alpha测试计划开放申请 - 针对具有专业团队的组织 - 已有初步成功案例: - 生物化学研究 - AI安全性评估 - 法律文件分析 - 医疗诊断辅助 - 提供完整技术支援与训练资源 ▌ Reference ◼︎ Demo影片: [ ◼︎ Alpha计划申请: [ ◼︎ HN讨论: [ ◼︎ Justin Reese研究: [ #OpenAI #AI #MachineLearning #O1

真强

rst @readwise save thread

期待中,希望不要像sora的申请一样遥遥无期
