OpenAI推出重磅o3推理模型!展現(xiàn)強(qiáng)大推理能力
12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。
o3能夠進(jìn)行復(fù)雜任務(wù)的推理,在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的表現(xiàn)要優(yōu)于前一代o1模型,同時(shí)花費(fèi)的處理時(shí)間也會(huì)更長。以一項(xiàng)評估AI高級數(shù)學(xué)推理能力的測試EpochAI Frontier Math為例,以往所有模型都未達(dá)到2%的準(zhǔn)確率,而o3準(zhǔn)確率達(dá)到了創(chuàng)紀(jì)錄的25%。
在2024年美國數(shù)學(xué)邀請賽中,o3模型的準(zhǔn)確率高達(dá)96.7%,僅答錯(cuò)了一個(gè)問題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。
在對科學(xué)知識(shí)的掌握方面,o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學(xué)問題上的表現(xiàn),涵蓋化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí))基準(zhǔn)測試中,o3的準(zhǔn)確率達(dá)到87.7%,超過了人類博士的70%,也比之前o1表現(xiàn)高近10%。
此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實(shí)世界軟件問題的能力)基準(zhǔn)上,o3的準(zhǔn)確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺(tái)中,o3的得分為2727,相當(dāng)于榜單上第175名人類編程員的水平,而o1得分僅為1891。
o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關(guān)基準(zhǔn)測試ARC-AGI中,高配版o3得分為87.5%,低計(jì)算設(shè)置下o3得分為75.7%,是o1模型的三倍。但高計(jì)算模式需要花費(fèi)極其昂貴的成本,每個(gè)任務(wù)高達(dá)數(shù)千美元,低計(jì)算模式則需要20美元左右。
關(guān)注本網(wǎng)官方微信 隨時(shí)閱讀專業(yè)資訊
- 第七屆“科學(xué)探索獎(jiǎng)”申報(bào)工作啟動(dòng) 2025-01-02 15:59:17
- 2025年1月1日,第七屆“科學(xué)探索獎(jiǎng)”申報(bào)工作正式啟動(dòng)。作為目前國內(nèi)大金額青年科技人才資助計(jì)劃之一,今年“科學(xué)探索獎(jiǎng)”設(shè)置數(shù)學(xué)物理學(xué)、化學(xué)新材料、天文和地學(xué)、生命科學(xué)、醫(yī)學(xué)科學(xué)、信息電子、能源環(huán)境、先進(jìn)制造、交通建筑、前沿交叉十個(gè)領(lǐng)域。申報(bào)日期
- 年終回顧丨2024年全球主要國家科技政策概覽 2025-01-02 15:17:46
- 2024年,全球科技政策的藍(lán)圖蔚然成風(fēng),彰顯出各國對于科技進(jìn)步前所未有的重視與熱忱,仿佛一場智慧與創(chuàng)新的全球盛宴正徐徐拉開序幕。
- 安徽理工大學(xué)首次獲批重大專項(xiàng)項(xiàng)目,引領(lǐng)深地探測技術(shù)創(chuàng)新 2025-01-02 15:09:41
- 近日,安徽理工大學(xué)申報(bào)的“深部特殊空間探測與利用關(guān)鍵技術(shù)及示范”項(xiàng)目正式獲得自然資源部發(fā)布的深地國家科技重大專項(xiàng)2024年度項(xiàng)目立項(xiàng)資助。項(xiàng)目總申請經(jīng)費(fèi)高達(dá)9.54億元,其中申請中央財(cái)政經(jīng)費(fèi)1.36億元。
- “分子GPS”技術(shù):驅(qū)動(dòng)免疫細(xì)胞精確打擊腦腫瘤的新篇章 2025-01-02 14:32:37
- “分子GPS”技術(shù)是一種基于活細(xì)胞的創(chuàng)新療法,它突破了傳統(tǒng)CAR-T癌癥治療面臨的遞送難題,可以精準(zhǔn)到達(dá)病灶。
- 促進(jìn)科研儀器共享,《山東省創(chuàng)新券使用管理辦法》發(fā)布! 2025-01-02 14:00:34
- 山東省科學(xué)技術(shù)廳聯(lián)合省財(cái)政廳發(fā)布了《山東省創(chuàng)新券使用管理辦法》,旨在進(jìn)一步促進(jìn)重大科研基礎(chǔ)設(shè)施和大型科研儀器等科技資源開放共享。
版權(quán)與免責(zé)聲明
- 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其它來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。