• 欧洲杯体育不外诸君非征战者先别急哈-开云「中国」kaiyun网页版登录入口

    发布日期:2025-05-01 07:40    点击次数:87

    鱼羊 发自 凹非寺欧洲杯体育

    量子位 | 公众号 QbitAI

    4.1与4.5孰大?OpenAI刚刚给出谜底:

    发布GPT-4.1,比GPT-4.5强的那种。

    新模子系列更新,一共带来三个版块:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——

    与频频中杯大杯超大杯的设立不同,这回翻译过来,是中杯、小杯、超小杯。

    OpenAI示意,4.1系列是API专供,不外诸君非征战者先别急哈,东谈主家也补充了,在ChatGPT里,4.1的智商将主要通过“融入最新版块的GPT-4o”体现。

    智商方面,纪念起来4.1系列纸面上最杰出的上风有两点:

    长落魄文,3个型号均领有100万token落魄文窗口;

    性价比,用里面老哥的说法便是:

    咫尺你不错用4%的价钱,畅享GPT-4o模子品性。

    OpenAI还示意,GPT-4.1系列会在API里取代GPT-4.5 Preview,后者将于本年(2025年)7月14日下架。

    GPT-4.1:主打性价比

    张开来看,OpenAI举座上是把GPT-4.1和GPT-4o拿来对比的。

    以延长为横轴,以智能为纵轴,不错看到,GPT-4.1比GPT-4o强了一丢丢,而4.1 mini则超出了4o mini一大截。

    定量相比的着力是,编码方面,GPT-4.1在掂量委果天下软件工程手段的SWE-bench Verified上得分为54.6%,比GPT-4o的分数擢升了21.4%,比GPT-4.5强了26.6%。

    指示解雇方面,在MultiChallenge基准中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%。

    长落魄文方面,在多模态长下文意会基准Video-MME上,GPT-4.1刷新SOTA,在长篇无字幕类别中得分72.0%,比GPT-4o高了6.7%。

    值得严防的是,GPT-4.1 mini在多项基准测试中卓越了GPT-4o。

    比如在智能评估基准MMLU上,GPT-4.1 mini的得分为87.5%,卓越了GPT-4o的85.7%,同期延长缩短一半,老本缩短83%。

    GPT-4.1 nano则被定位为OpenAI“咫尺速率最快、老本最低”的模子。况兼在部分测试中有超出GPT-4o mini的发达。

    编码智商

    OpenAI正式强调了GPT-4.1的编码智商。除了在各式编程任务上齐卓越GPT-4o,OpenAI还演示了其在前端编程方面的骨子上风:

    或者创立功能更庞杂、更好意思不雅的Web诈欺。

    东谈主类评分的着力闪现,在80%的对比测试中,GPT-4.1的网站齐比GPT-4o的网站更受接待。

    比如给出统一段领导词,GPT-4o生成的网站长这么:

    而4.1的着力显豁更好意思不雅:

    手快的网友则也曾搞出了巨匠更念念看的——小球测试。

    BTW,OpenAI提到,GPT-4.1会在API里取代GPT-4.5,GPT-4.5 Preview将在3个月后(2025年7月14日)透彻关闭,但这位老哥示意:我如故更可爱4.5啊啊啊。

    不外,老哥也坦承:4.5虽好,但4.1照实低廉太多啦(30倍价差)。

    百万长落魄文

    再来看一眼长落魄文方面,GPT-4.1的具体发达。

    大海捞针践诺中,靠近100万token落魄文检索,3个型号均能100%过关。

    OpenAI还开源了一个新的评估平台OpenAI-MRCR,以测试模子检索和意会多条信息、并意会信息之间相互相关的智商。也便是说更接近骨子诈欺中,巨匠对长落魄文的委果需求。

    着力如下:

    还发布了一个用于评估多跳落魄文推理的数据集Graphwalks。所谓多跳,即在长落魄文中进行屡次逻辑进步,比如编写代码时在多个文献之间跳转。

    在这个基准上,GPT-4.1与o1性能极端,爽气打败了GPT-4o。

    性价比仍不如DeepSeek R1

    价钱方面,相关于自家贵得要命的模子,GPT-4.1系列无疑是低廉的。

    尤其是对比要被替代的GPT-4.5 Preview,2刀/百万tokens vs 75刀/百万tokens,价钱属于大砍一刀只剩零头了。

    但严防的网友们发现,如故比不上DeepSeek R1:

    △图源:x@bongrandpOne More Thing

    以上,你以为GPT-4.1如何?

    归正这个定名时势照实是蛮值得吐槽的。

    但没准儿,OpenAI的理由是…4.10>4.5?

    至少奥特曼本尊有被劝服到(doge)。

    他还自嘲了一波:

    咱们能不成在今天夏天之前不休咱们的模子定名?在此之前每个东谈主齐不错再花几个月时候来取消咱们(咱们该死)。

    参考聚集:https://openai.com/index/gpt-4-1/

    — 完 —

    量子位 QbitAI · 头条号

    关怀咱们欧洲杯体育,第一时候获知前沿科技动态签约