澳亚国际 > 全球财讯

压轴大作！openai推出o3模型系列：agi评测最佳成绩达到惊人的87.5% 人类水平的门槛为85%-澳亚国际

犇驰网 2025-01-12 1721浏览量

　　当地时间12月20日周五，在为期12个工作日的线上新品发布活动最后一日，openai宣布了“压轴大作”：o1的下一代模型o3，而且一开始就要推出两个版本，一个正式的o3，还有一个相对较小的精简版o3-mini。

　　openai的ceo sam altman在直播中提到，openai本次12日的活动第一天官宣了上线正式版o1、所谓满血o1。活动最后一天又有o3亮相，首尾都由介绍推理模型呼应，也算是一种精心设计。

　　逻辑上说，o1的下一代应该命名为o2，至于为什么新模型叫o3，之前报道称，openai是为了避免和名为o2的英国电信服务商冲突。altman也确认了这点，说出于对o2的尊敬，并没有起同样的名字。

　　直播中，altman称o3是“一个非常、非常聪明的模型”。openai的评估结果也显示，无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都明显高出o1一筹。同时测试显示，o3在openai实现通用人工智能（agi）这一奋斗目标上取得了突破，最高的测试成绩达到了类人水平。

　　今年9月，openai发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理在测试化学、物理和生物学专业知识的基准gpqa-diamond上得到了充分体现。据openai评估，o1在该测试中全面超过了人类博士专家，准确率达到78.3%，而人类专家的得分为69.7%。

　　在12月20日的直播中，openai展示了o3的测评表现：

　　根据openai8月推出的swe-bench verified代码生成评估基准，在软件工程的能力测评中，o3的准确度得分71.7，即准确率71.7%，远超得分48.9的o1和得分41.3的o1 preview。也就是说，o3的准确率比o1正式版高将近47%，比o1预览版高将近74%。

　　在竞争性编程网站codeforces的竞争性代码测评中，o3取得2727的elo评分，o1评分1891，o1 preview评分1258。这个测评结果显示，竞争性代码方面，o3的评分比o1正式版高44%，是o1预览版的两倍多。

　　经过2024年aime数学竞赛的题目测试，o3的准确度得分为96.7、即准确率96.7%，大幅度超过了o1预览版的56.7和o1的83.3%，仅错了一道题，相当于一名顶级数学家的水平。从竞赛数学的角度看，o3的准确率比o1正式版高15%，比o1预览版高近71%。

　　以人类博士专家的测试考验，在测试化学、物理和生物学专业知识的基准gpqa-diamond上，o3的准确度得分为87.7，即准确率87.7%，o1和o1 preview分别得分78.0和78.3。o3的准确率比o1高将近13%，比o1预览版高12%。

　　openai周五还展示了，o3的推理能力已经更加接近实现agi。

　　以100%为最高分的arc-agi评估结果显示，o1的得分在25%到32%，而o3的最低成绩为75.7%，最高成绩为87.5%。从这个结果看，o3的最佳成绩超过了标志着达到人类水平的门槛85%。

　　创始arc-agi标准的前谷歌高级工程师、ai研究员franois chollet表示，openai这些推理模型在agi测试中取得进步是“稳健的”。

　　chollet周五在社交媒体x发帖，公布了同openai合作进行的arc-agi测试结果，称“我们相信这代表了让ai适应新任务的重大突破。”

　　与o3模型相比，o3mini模型在性能与成本平衡方面表现出色，能够以较低的成本提供高效的服务。

　　在编码评估方面，o3mini模型展现出了出色的性能提升。在codeforces的评估中，随着思考时间的增加，o3mini模型的表现不断提升，逐渐超越了o1mini模型。

　　在中位思考时间下，o3mini模型的性能甚至优于o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下，获得更高效的编程辅助，提高开发效率，降低开发成本。

　　在数学能力测试中，o3mini模型在2024年数据集上表现出色。o3mini低模型的性能与o1mini相当，而o3mini中位数模型则取得了比o1更好的性能。在处理诸如gpqa等困难数据集时，o3mini模型也能展现出一定的优势，实现了接近即时响应的效果。

　　此外，o3mini模型支持函数调用、结构化输出、开发者消息等一系列功能，与o1模型相当。在实际应用中，o3mini模型在大多数评估中实现了可比或更好的性能。

　　在现场演示中，o3mini模型的强大功能得到了直观展示。例如，在一项任务中，模型被要求使用python实现一个代码生成器和执行器。当启动运行该python脚本后，模型成功启动了本地服务器，并生成了包含文本框的用户界面。

　　用户在文本框中输入编码请求后，模型能够迅速将请求发送至api，并自动解决任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但o3 mini模型在低推理努力模式下依然表现出了极快的处理效率。

　　虽然o3的测评看上去表现惊艳，但openai应该不会很快面向大众上线这款新的超级推理模型。

　　从12月20日开始，openai允许安全研究人员可以注册访问o3 和 o3-mini的预览。openai的一名发言人称，openai计划明年初正式发布这些新的o3模型。

标签：

文章来源声明：犇驰网

上一篇：a股股价排名第二寒武纪巨额亏损难题未解

下一篇：美国重要数据出炉美股指数齐收涨！这家医药巨头跌超17% 市值一夜蒸发5976亿元；比特币“巨震” 啥情况？

澳亚国际 > 全球财讯

压轴大作！openai推出o3模型系列：agi评测最佳成绩达到惊人的87.5% 人类水平的门槛为85%-澳亚国际

相关推荐

全球财讯

热门文章

推荐文章

热门标签