在为期 12 天的“shipmas”活动的最后一天,OpenAI 宣布了其最新的人工智能模型:O3。 O3是今年早些时候推出的o1推理模型的后继者,有望在人工智能能力上实现重大飞跃。 OpenAI 还推出了专为特定、高效任务而设计的 o3-mini。
您可能想知道为什么 O1 的继任者不称为 O2。该公司没有将其命名为 O2,以避免与英国电信巨头 O2 发生商标冲突。 OpenAI 首席执行官 Sam Altman 在直播中证实了这一决定。
在美国数学邀请赛等测试中,o3 的准确率高达 96.7%。它的准确率超过了 o1 的 83.3%。值得注意的是,o3 在 ARC-AGI(旨在评估人工智能能力的基准)上也表现出色。在低计算设置下,o3 得分为 75.7%,而随着处理能力的增强,它达到了令人印象深刻的 87.5%。
Altman 还声称 o3 模型在编码方面令人难以置信,基准测试也证实了这一点。 o3 在 SWE-Bench Verified 上比 o1 高出了 22.8 个百分点,并且 Codeforces 评级为 2727。
该模型还在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了记录。它解决了 25.2% 的问题,其他模型都没有超过 2%。
o3-mini 模型整合了 OpenAI 的自适应思考时间 API。这允许用户根据问题的复杂性选择推理模式——低、中或高。 o3-mini 的性能与 o1 型号相当,并声称是许多应用程序的经济高效的替代品。
Altman 还强调了 OpenAI 对安全的承诺。他确认,在向公众部署推理模型之前,彻底的测试和风险缓解框架至关重要。
O3和O3 mini型号将于明年发布。早期访问申请现已在 OpenAI 网站上开放,截止日期为 2025 年 1 月 10 日。如果您有兴趣,您必须填写在线表格。选定的用户将可以使用 o3 和 O3-mini 型号。