ChatGPT o3/o4-mini发布：支持看图思考模式！

在昨天发布了 GPT 4.1 之后，OpenAI 马不停蹄的在今早又发布了 AI 新品！

具体来说， OpenAI 发布了两款突破性 AI 模型 ——o3 与 o4-mini，它们能够通过图像进行推理，并可独立使用工具，被专家称为人工智能能力的一次飞跃。

这两款模型是 OpenAI “o 系列” 推理模型的最新成员，被称为迄今为止最智能、最强大的模型。

这些新模型最显著的特征是具备 “图像思维” 能力。它们不仅可以识别图像，还能在问题解决流程中对图像进行操控并推理。OpenAI 在声明中强调：“它们不只是看图，而是用图像进行思考。这解锁了一类全新的问题求解方式，将视觉与文本推理相融合。”

在发布会演示环节，研究人员展示了 o3 分析一份来自十年前实习项目物理海报的过程：它能独立解析其中复杂的图示，甚至识别出海报本身未呈现的最终结论。

这种能力使模型能够执行复杂的、多步骤的工作流任务，而无需用户持续介入。当配备 Python 解释器时，o3 在 2025 年 AIME 数学竞赛中取得了 99.5% 的惊人准确率。

作为此次发布的一部分，OpenAI 还推出了 Codex CLI，这是一款轻量级的编程智能体，可以直接在用户的终端运行。

这个开源工具让开发者能够利用这些模型的推理能力来完成编程任务，支持截图和草图输入。通过将截图或简略草图传递给模型，并结合对本地代码的访问，用户可以从命令行获得多模态推理的优势。

开发者可以通过 OpenAI 的 Chat Completions API 和 Responses API 试用这两个模型，不过部分组织需要验证才能访问它们。

o3 作为 OpenAI 此次推出的主要新型推理模型，在响应用户提示前会进行更为深入的计算，旨在解决科学、数学和编程等领域中更为复杂的多步骤问题。这一特性使得 o3 在面对高难度任务时，能够展现出更为出色的推理和执行能力。

同时，用户还可以上传白板笔记、草图等图像内容，让 o3 进行分析与讨论，甚至对图像进行旋转、缩放等编辑操作，进一步拓宽了其应用场景。

而 o4-mini 则是一款更小型的模型，它在价格、速度和性能之间提供了有竞争力的平衡，成为开发者在选择 AI 模型时的理想选择。尽管体积小巧，但 o4-mini 在复杂数学与代码任务中的表现却毫不逊色，甚至在某些方面超越了前款模型。

值得一提的是，o3 和 o4-mini 还是首批能够 “图像思维” 的 AI 模型。它们不仅能够看图，还能将视觉信息直接整合进推理链条之中，这一创新性的突破使得两款模型在解决复杂的多步骤问题时更加高效，也朝着自主执行任务的方向迈出了重要一步。

OpenAI 在公告中明确表示，这是他们首次推出能够独立使用全部 ChatGPT 工具的推理模型，包括网页浏览、Python 编程、图像理解和图像生成能力，标志着 AI 技术在自主性和智能化方面取得了新的进展。

在最新测试结果中，o3 和 o4-mini 在 AIME 2024 数学竞赛题目中的准确率分别高达 91.6% 和 93.4%，远超前款模型 o1 的 74.3%。在 AIME 2025 题目中，两者准确率也分别达到了 88.9% 和 92.7%。

目前，o3 和 o4-mini 已正式向 OpenAI 付费用户开放。

根据笔者测试，免费用户也可在 ChatGPT 上使用 o4-mini，不过次数应该有限制。

更多消息请守住 Mdroid。

来源: OpenAI

关于我们