技术支援
关于我们
登入联络销售
UD Blockchain
InfiniAI
网络安全
云服务器
网络
云端寄存
专业解決方案
UD Blog
登入联络销售
技术支援
关于我们

UD Blog

专业文章及见解,揭示科技领域的一切

OpenAI推出o3-mini模型 正面迎战DeepSeek AI


 

DeepSeek AI 推出的超高效 R1 模型,曾引发全球科技股市值蒸发近一万亿美元的震荡,并彻底改变了人工智能产业的竞争格局。为应对这一挑战,OpenAI 于上周五紧急发布了 o3-mini模型,对撼 DeepSeek 的 R1 模型。 DeepSeek 的 R1 模型以其低廉的计算成本却能达到顶尖效能,震惊了整个 AI 行业。

 

OpenAI 在官方博客文章中宣布:「我们推出OpenAI o3-mini,这是我们推理系列中最新、最具成本效益的模型,现已于ChatGPT 和API 平台上架。」 「这款于2024 年12 月预览的强大且高速模型,突破了小型模型的效能极限……同时保持OpenAI o1-mini 的低成本和低延迟。」

 

为推广其全新推理模型系列,OpenAI 首次免费向用户提供推理功能,并将付费用户的每日讯息上限从 50 条提升至 150 条(增幅三倍)。

 

o3-mini模型 创造力相对较弱 但更擅长解决复杂问题

 

与 GPT-4o 和 GPT 系列模型不同,「o」系列 AI 模型专注于推理任务。其创造力相对较弱,但内建思维链推理功能,使其更擅长解决复杂问题、修正错误分析,并编写结构更佳的程式码。 OpenAI 主要拥有两个 AI 模型系列:生成式预训练变换器 (GPT) 和「Omni」 (o)。

 

GPT 系列如同家族中的艺术家,擅长角色扮演、对话、创意写作、摘要、解释、脑力激荡、聊天等;而「o」系列则如同家族中的科学家,虽然不擅长叙事,却精于编码、解算数学方程式、分析复杂问题、逐步规划推理过程、比较研究论文等。

 

全新的 o3-mini 模型分为低、中、高三个版本。用户可根据需求选择不同版本,以换取更精准的答案,但相对地,开发者需要支付更多「推理」费用(按代币计费)。

 

就效率而言,OpenAI o3-mini 在一般知识和多语言思维链方面的表现不及 OpenAI o1-mini,但在编码和事实性等其他任务上的得分则更高。 o3-mini 中型和大型版本则在所有基准测试中均超越 OpenAI o1-mini。

 

DeepSeek R1 模型以极低的计算能力却能超越OpenAI 旗舰模型的表现,引发了科技股抛售潮,导致美国市场市值损失近一万亿美元,其中英伟达单独市值蒸发6000 亿美元,投资者对其高价AI 晶片的未来需求产生疑虑。

 

DeepSeek 的成功源于其在模型架构上的创新方法。与美国公司倾向于投入更多计算能力不同,DeepSeek 团队致力于优化模型的资讯处理流程,从而提升效率。随着中国科技巨头阿里巴巴推出效能更强的 Qwen2.5 Max 模型(其基础模型与 DeepSeek 相同),竞争压力进一步升级,预示着中国 AI 创新浪潮的到来。

 

OpenAI o3-mini 运行速度比前代提升 24%

 

OpenAI o3-mini 则试图再次拉大差距。新模型运行速度比前代提升 24%,在关键基准测试中与旧模型不相上下甚至超越,同时运作成本更低。

 

在定价方面,OpenAI o3-mini 的价格为每百万个输入代币0.55 美元,每百万个输出代币4.40 美元,虽然高于DeepSeek R1 的0.14 美元和2.19 美元,但已缩小了与DeepSeek 的价格差距,并大幅降低了与OpenAI o1 相比的成本。这可能是其成功的关键因素。 OpenAI o3-mini 为闭源模型,而 DeepSeek R1 则为开源,但对于愿意在托管伺服器上付费使用的用户而言,o3-mini 的吸引力将取决于其应用场景。

 

在 AIME 数学问题基准测试中,OpenAI o3-mini 中型版本得分 79.6 分,DeepSeek R1 得分 79.8 分,仅次于 OpenAI o3-mini 大型版本 (87.3 分)。

 

在其他基准测试中,例如衡量不同科学领域能力的GPQA 分数,DeepSeek R1 为71.5 分,o3-mini 低配版为70.6 分,o3-mini 高配版为79.7 分;在编码任务基准测试Codeforces 中,R1位于第96.3 百分位,o3-mini 低配版位于第93 百分位,o3-mini 高配版位于第97 百分位。因此,不同模型之间的差异取决于任务而有所不同。

 

OpenAI o3-mini 与 DeepSeek R1 的测试比较

 

我们进行了多项测试以比较两款模型的表现。其中一项测试为基于 Github BIG-bench 数据集的间谍游戏,用以评估多步骤推理能力。 OpenAI o3-mini 在此测试中表现不佳,得出错误结论,将凶手误判,而 DeepSeek R1 则正确地判断凶手。

 

然而,o3-mini 在不涉及数学的逻辑语言任务中表现良好。例如,要求其撰写五个以特定单词结尾的句子,o3-mini 能够理解任务、评估结果并提供正确答案,其思考时间为四秒,并自行修正了一个错误答案。

 

在数学方面,o3-mini 表现出色,能够快速解决一些被认为极其困难的问题。例如,DeepSeek R1 需要 275 秒才能解决的复杂问题,o3-mini 仅需 33 秒即可完成。

 

总而言之,OpenAI 的 o3-mini 模型展现出一定的竞争力,但 DeepSeek R1 的挑战依然存在,双方在 AI 领域的竞争将持续升温。


UD Blockchain 通讯

获取最新的区块链丶加密货币及数字资产资讯,了解全球市场动向,万勿错过!

UDomain Whatsapp