首页 365速发国际 >新闻资讯 校园风采 365速发
o3
2025-02-03

AI 圈的头条被 DeepSeek 承包了十多少天,昨天,OpenAI 终于坐不住了,推出了全新推理模子系列 o3-mini。不只初次向收费用户开放了推理模子,并且比拟之前的 o1 系列,本钱更是下降了 15 倍之多。OpenAI 也称这是其推理模子系列中最新、最具本钱效益的模子:刚上线,曾经有网友急不可待的拿它跟囊括全部年夜模子圈的国产年夜模子 DeepSeek R1 停止对照了。前段时光,AI 社区开端陷溺用 DeepSeek R1 跟其余(推理)模子比拼这个义务:「编写一个 Python 剧本,让一个球在某个外形内弹跳。让该外形迟缓扭转,并确保球停顿在外形内。」这种模仿弹跳球的测试是一个经典的编程挑衅。它相称于一个碰撞检测算法,须要模子去辨认两个物体(比方一个球跟一个外形的正面)何时产生碰撞。编写不当的算法会呈现显明的物理过错。在 DeepSeek R1 囊括海内外热搜,微软、英伟达、亚马逊等美国云盘算平台力争上游引进 R1 的同时,R1 也在这个义务中实现了对 OpenAI  o1 pro 的碾压。再看 Claude 3.5 Sonnet 跟谷歌的 Gemini 1.5 Pro 的天生成果,DeepSeek 旗下的开源模子超过确实实不仅是一个 level。但是,在 o3-mini 上线后,剧情仿佛一夜反转了,比方这个帖子声称 OpenAI o3-mini 碾压了 DeepSeek R1。现在已激发近 400 万网友围不雅。该开辟者用的 prompt 是: write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically 也就是分辨让 o3-mini 跟 DeepSeek R1 写一个球在扭转的六边形内弹跳的 python 顺序,小球跳动的进程中要遵守重力跟摩擦力的影响。最后的展现后果如下:从后果来看,o3-mini 把碰撞、弹跳后果展现的更好。从对重力跟摩擦力的懂得来看,DeepSeek R1 版本的小球仿佛有点压不住牛顿的棺材板了,完整不受重力把持。这并非个案,@hyperbolic_labs 结合开创人 Yuchen Jin 在此之前也发明了这个成绩,他分辨向 DeepSeek R1 跟 o3-mini 输入了提醒词:write a python script of a ball bouncing inside a tesseract(编写一个 Python 剧本,模仿一个球在四维超破方体外部弹跳)。四维超破方体的每个极点与四条棱相邻,每条棱则衔接两个破方体。四维空间内的多少何图形超越了人类的直不雅感知范畴,以是听着这些描写,咱们可能很难设想出一个四维超破方体长什么样子。而 o3mini 不只展示出了稳固的多少何构造,小球在四维空间内弹跳的活动轨迹也较为机动,有撞到破方体正面的袭击感。再来看 DeepSeek R1 这边,它对四维超破方体的外形懂得仿佛还不敷深刻透辟。同时,小球在此中的活动轨迹也显得有些诡异,有一种「飘忽不定」的感到。据 Yuchen Jin 称,他试了良多次,全部用 DeepSeek R1 实验都比一次性的 o3-mini 要差,比方上面此次就剩下球了。呆板之心也亲测了一把,同样是 Pass@1 测试,DeepSeek R1 此次是既有球又有多少何外框了,乃至小球还会变更色彩色,遗憾的是,它把四维超破方体简化成了三维空间坐标轴。o3-mini 的表示则有些「买家秀」的象征,明显跟 Yuchen Jin 输入的是完整一样的提醒词,为什么 o3-mini 就不会了?得不到如上所示的「卖家秀」了呢?看来,在天生小球在多少何外框内跳动的顺序这方面,DeepSeek R1 并不是完整是 o3-mini 的部下败将。AIGC 从业者 @myapdx 用了一个愈加庞杂的同类提醒词来测试 o3-mini 跟 DeepSeek R1:编写一个 p5.js 剧本,模仿 100 个黑色小球在一个球体外部弹跳。每个小球都应留下一条逐步消散的轨迹,表现其近来的门路。容器球体应迟缓扭转。请确保实现恰当的碰撞检测,使小球坚持在球体外部。o3-mini 的后果是如许的:提醒词里的这么多项请求:在球体外部弹跳、留下逐步消散的轨迹、容器迟缓扭转......o3-mini 都完善满意。而 DeepSeek R1 的后果,似乎也没差到那里去:至于为什么会呈现如许的差别,Yuchen Jin 跟 @myapdx 都在帖子中提到,这个义务对模子怎样懂得实在天下的物理法则有所反映。模子须要综合本人对言语、多少何、物理跟编程的懂得,方能得出最后的模仿成果。早年两轮的成果看来,o3-mini 有可能是物理学得最好的年夜模子。与此同时,OpenAI 也在昨天的宣布博客中夸大过,在博士极迷信成绩方面 o3-mini-low 的表示优于 o1-mini。o3-mini-high 的表示与 o1 相称,在博士级生物学、化学跟物理成绩上都有明显提高。对人类来说,懂得小球跳动时的重力跟摩擦力并不算艰苦,但在年夜言语模子范畴,这种对物体物理状况的「天下模子」懂得才能,直到近来才真正冲破。另有网友猜想,DeepSeek R1 的顺序偶然只有一个球,会不会是它想得太多了?不知能否有读者亲身休会过?欢送探讨。

Copyright © 2024-2026 365速发国际_365国际速发平台官网 版权所有

网站地图

鄂ICP备36659856号

友情链接: