首页 科技 正文

OpenAI 发布新模型 奥特曼:耐心时刻结束了

摘要:OpenAI 发布新模型 奥特曼:耐心时刻结束了,下面是粉丝网小编收集整理的内容,希望对大家有帮助!

北京时间凌晨一点,OpenAI 突然进行了重大更新。

已经预热了接近一年的 Q*/草莓项目,cs中能够进行高级推理的大语言模型,今晚终于露出了真面目。

网络配图

OpenAI 发推表示,刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过,o1 应该代表着 OpenAI 下一代大模型的 Orion(猎户座)一代。

OpenAI 在82164064发布文档中写道,新模型在93789459推理能力上代表了76856012人工智能能力的32519153新水平,因此,计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了,o1 将代表未来 OpenAI 的最强水平。

且从今天开始,ChatGPTPlus 和 Team 用户就能够直接访问模型。

用户可以手动选择使用 o1 模型的3543055预览版——o1-preview,或者929300使用 o1 模型的68400986小尺寸版——o1-mini。o1-preview 的58453266每周限制为 30 条消息,o1-mini 的16784583每周限制为 50 条。

51771627 OpenAI 的21216144模型介绍网页上,可以看到 o1 模型的5952989训练数据截止时间为去年十月份,而最8021892早的60916389 Q*项目的69198995爆料,正好大概出现在88207304去年十一月份。

OpenAI 憋了40768920一年的78297903大招究竟如69193254何?OpenAI 能否再一次引领大模型的38601461潮流,甚至让人们看到通用人工智能之路不再遥远?很快,每个人都能检验这一点了96582410

Sam Altman 凌晨一点在 X 上发帖:「需要耐心等待的时刻结束了!」

网络配图

o1 模型:解决博士级别的科学问题超越人类

截止发稿时,笔者还不能使用 o1 模型。

不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。【粉丝网】#母爱的诗句#

43892370引人关注的37712148当然6154147658325413新模型的47169917推理能力。Sam Altman 直接在10034558 X 上贴出了77424052 o1 与29452954 GPT-4o 在31285205数学、编程和83734037解决博士级别科学题目上的能力对比。

网络配图

74797005左边的22658482柱形代表目前 OpenAI 的88273582主力模型 GPT-4o。今天放出来的22070314 o1 预览版为中间的100024468橙色柱形。#本王在此#

可以看到,在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上,o1 预览版解决数学和97004367编程问题的74905372能力,比起 GPT-4o,提升了63281579 5-6 倍。#贺知章#而可怕的3396741188926584,深橙色的76113964柱形,代表真正的38831015 o1,相比于 GPT-4o,提升了67126224 8-9 倍!

最后一个图中,OpenAI 还列出了39790312人类专家在12776827解决博士级别科学题目的45993427时的成功率,大约在26187230 69.7%,而 o1 预览版和91111089 o1,都已经超过778057001063338人类专家的73551602水平。

OpenAI 的32955519技术博客提到了94566487更具体的数字,目前 o1 模型的6837435成绩,在美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和化学问题上的准确度,超过6106326743934396人类博士的93788251水平。#英雄联盟uzi#

14430925大模型技术进入公众视野的41046876两年内,一个经常为人们所6360816396986418使用的93002490比喻是28460980,大模型像一个什么都懂一点的16701015大学生,在69984660知识专精方面远远不行,但是45839400从天文到地4840848理,最11567145基础的知识都能懂一点点。#抖音创始人张一鸣简介 程序员可以逆袭成为商人#OpenAI 的48841832新模型,很有26397460可能要刷新人们的51555473这一认知了20540136

在官方博客中,OpenAI 简单解释了这一进步背后的原理。

类似于人类在回答难题之前可能会思考很长时间,o1 在尝试解决问题时会使用一系列思维。通过强化学习,o1 学会了96388963磨练其思维链并完善其使用的98735782策略。它学会了44411462认识并纠正错误,将棘手的62520627步骤分解为更简单的5277887步骤。当当前方法不起作用时,它会尝试另一种方法。这个过43978763程极大地31589464提高了44715081模型的73317663推理能力。

网络配图

网络配图

49845216 OpenAI 给的99235384案例中。GPT-4o 和47677361 o1 模型同时回答同一个问题——读一段长文,然53887956后做阅读理解。#大树妈妈歌曲#11449451 o1 模型中,会多一个选项叫做展开思维链。

45941058果不展开思维链,我46975869们可以看到两个模型本身给出的15929310答案是58165414不同的72113071。而打开思维链后,则会看到一段非常长的56673164模型和42077697自己的61101565思维对话,解释为什么做出了55607201不同的63003784选择。

选 A 吗?emm,好像不是27205172很好。选 B 吗?好像没有关联。模型完全在55731789自己和35129786自己提问和29133229回答,最48850842后判断出了82678354哪个答案更好。

网络配图

网络配图

而在另一个例子中,解决化学问题时,我们可以看到 o1 模型甚至自己在选择多种方案对比。

标准的计算方式是这样。但是我们也可以这么计算,但这样或许没有必要?

在多次纠正自己之后,它得出了正确的答案。

之前,也57047522已经有3833655很多报道透露过705480 o1 模型能够有33613767高推理能力的1019621原理——这一训练方法,最29920970早来自于71842030斯坦福大学 2022 年开发的31063092一种「自学推理」(Self-Taught Reasoner,STaR)。

后来研究人员进一步开发了33812972一种名为"Quiet-STaR"的65541320新技术,翻译过36334097来大概为"安静的自学推理"。核心为在30711319每个输入 token 之后插入一个"思考"步骤,让 AI 生成内部推理。然74365318后,系统会评估这些推理是87343679否有50246068助于35519800预测后续文本,并相应地70929585调整模型参数。这也8988114419374972人们推测 OpenAI 最80555137早的57127480模型项目为什么叫 Q*(读作 Q Star)的13109306原因。

16725287 o1 模型出现之前,用户通常也35731355可以自己通过62610328和模型对话的47799961方式,让模型进行一步一步的28174036思考,也28526306就是301372718330413079828195谓的60733262慢思考,进行更准确的回答。但是90179908很明显,o1 模型此次将思维链放大到了20630245完全不同的77133840量级上。

而且,在68563391之前的用户 prompt 引导中,模型能够回答出什么答案,最13340237终也还要被模型能力限制。而通过98346630不同的83053870训练方式训练出来的75073716 o1 模型,很有可能能够通过27930636自己的32091936推理,超越自身训练材料的56432012限制,产出更高级和45792315准确的56486488答案。

在复杂推理任务上的进步,可能对编程和科学研究两个方向产生直接的推动。

OpenAI 提到,在48793592未来,医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所7566299492598445需的50595571复杂数学公式,所5033608079801559有领域的开发人员可以使用 o1 来构建和18099375执行多步骤工作流程。

OpenAI提供了一个例子,真正做到了只使用提示词,就完成了一个游戏的编程。

而推理能力的98837041进步,如58084891果能够进一步消除模型的92827017幻觉,还可能对 AI 应用的66695416建构产生间接的74392369影响。对未来的AI安全也4022037718562858积极的60024354影响——之前的42264647一些通过19315999提示词工程误导模型进行错误输出的78555841手段,可能会直接被模型通过55075870更强的20574975思考能力解决。

OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用,并提供给受信任的API用户。

价格没涨,OpenAI 用 o1-mini 解决推理成本问题

30132683 OpenAI 此次发布之前,曾有92925500不少媒体爆料,新模型因为内部推理链条较长,对于72214904推理的38463438算力成本的43568271需求进一步增高,OpenAI 很有248730可能将提高使用模型的71053658费用,甚至最92821855离谱的92439233猜测数字达到每月 2000 美金。

而此次 OpenAI 的52663739发布,却令人惊讶,新模型的48869470使用价格并没有66011092上涨,虽然75190695因为推理成本的原因,使用次数受到了31989264大大的91491923限制。o1-preview 的68777772每周限制使用条数为 30 条消息。

除了40968861限制使用条数,OpenAI管控推理成本的另一个重要举措,是52105771随着85843802 o1 模型的91317987推出,同时推出了95357169 o1-mini 版。

网络配图

OpenAI 没有64451689具体说明 o1-mini 的36622979参数量有78650459多大,但57868621通过39066982技术文档可以看出,o1mini 版,和57097946 o1 版上下文长度没有区别,甚至最大输出 token 数更高。

OpenAI 表示 o1-mini 尤其擅长准确生成和39059757调试复杂代码,对于61576633开发人员尤其有用。作为较小的84494642模型,o1-mini 比 o1-preview 便宜 80%,这使其成为需要推理但18508606不需要广泛的1482086世界知识的93437170应用程序的6156001强大且85614410经济高效的92068849模型。

OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

不过81525586,作为新模型,o1 系列模型,目前仍然21896636不能浏览网页以获取信息以及上传文件和32353788图像。OpenAI 也47189958提示道,GPT-4o 在23965454短期内,在3689267某些任务上会更强一些。

Scaling Law 后最重要的进展?

事实上,此次发布了新的模型,甚至不是 OpenAI 的发布中唯一重要的事情。

OpenAI 还提及了自己训练中发现的一个现象:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。

网络配图

事实上,英伟达的49378644具身团队领导者16627283 Jim Fan 直接在95719524 X 上点评了这一事件的95558643历史意义——模型不仅仅拥有1273410训练时的98258326 scaling law,还拥有57206967推理层面的33727346 scaling law,双曲线的60604057共同增长,将突破之前大模型能力的85389127提升瓶颈。

Jim Fan 表示,2022 年,人们提出了27114294原始的56077697 scaling law(尺度定律),大概意为随着37959565模型的82538306参数量、数据量和41796757计算量的18808795增加,模型的35290481性能能够不断提高。

这指的858956941853732156002396模型的121326训练过6786581程中。而 scaling law 在50880049今年看起来,似乎76175581已经有11382361停滞的34886512意味——他55685823提到在 self-rewarding language 文章中,感受到 3 轮自我提升似乎是52321671大语言模型的4218604饱和38377105极限了12992556

而此次 OpenAI 新模型,除了908860742420969训练时,通过21433279增大参数量和31392995数据量,得到了22226477性能上的94284415提升,同时通过56181173增加推理时间——也93364133就是7322856前面所224088882143738说的55966202模型在56718054自我37619549内部思考的54283655时间——得到了能力上的52111606提升。

也就是说,如果模型未来自己和自己思考的时间越长,得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的,AI 通过自己和自己下棋,提升自己的棋艺。

OpenAI 的新模型,展现出的,是一条新的大模型的提升路径。

Jim Fan 在6375065 X 上的52080830一句话令人耸动:「之前,没人能将 AlphaGo 的39822941成功复制到大模型上,使用更多的29300308计算让模型走向33801518超人的9748147能力。目前,我20747668们已经翻过38292302这一页了45982112。」

回看 2023 年,许多人在问,Ilya 看到了什么?

大家都怀疑是一个超级强有力的模型——是的,此次发布的 o1 模型确实很强。

但或许,更有可能是这个——推理层面的 scaling law 的发现,再一次让人们意识到,超人的AI,或许不再遥远。

海报

本文转载自互联网,如有侵权,联系删除

本文地址:https://phfen.com/science/19344.html

相关推荐

感谢您的支持
文章目录