化工儀器網(wǎng)首頁>資訊中心>項(xiàng)目成果>正文

OpenAI推出重磅o3推理模型!展現(xiàn)強(qiáng)大推理能力
2024年12月30日 11:34:03 來源:化工儀器網(wǎng) 點(diǎn)擊量:4671

12月20日,美國(guó)開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。

  12月20日,美國(guó)開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。
 
  o3能夠進(jìn)行復(fù)雜任務(wù)的推理,在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的表現(xiàn)要優(yōu)于前一代o1模型,同時(shí)花費(fèi)的處理時(shí)間也會(huì)更長(zhǎng)。以一項(xiàng)評(píng)估AI高級(jí)數(shù)學(xué)推理能力的測(cè)試EpochAI Frontier Math為例,以往所有模型都未達(dá)到2%的準(zhǔn)確率,而o3準(zhǔn)確率達(dá)到了創(chuàng)紀(jì)錄的25%。
 
  在2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽中,o3模型的準(zhǔn)確率高達(dá)96.7%,僅答錯(cuò)了一個(gè)問題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測(cè)試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。
 
  在對(duì)科學(xué)知識(shí)的掌握方面,o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級(jí)科學(xué)問題上的表現(xiàn),涵蓋化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí))基準(zhǔn)測(cè)試中,o3的準(zhǔn)確率達(dá)到87.7%,超過了人類博士的70%,也比之前o1表現(xiàn)高近10%。
 
  此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實(shí)世界軟件問題的能力)基準(zhǔn)上,o3的準(zhǔn)確率約為71.7%,比o1高20%以上。在Codeforces編碼競(jìng)賽平臺(tái)中,o3的得分為2727,相當(dāng)于榜單上第175名人類編程員的水平,而o1得分僅為1891。
 
  o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關(guān)基準(zhǔn)測(cè)試ARC-AGI中,高配版o3得分為87.5%,低計(jì)算設(shè)置下o3得分為75.7%,是o1模型的三倍。但高計(jì)算模式需要花費(fèi)極其昂貴的成本,每個(gè)任務(wù)高達(dá)數(shù)千美元,低計(jì)算模式則需要20美元左右。
關(guān)鍵詞

相關(guān)閱讀 Related Reading

查看更多+
  • 大消息!美宣布對(duì)中國(guó)商品加征10%關(guān)稅

    近日,美國(guó)簽署行政令,對(duì)所有進(jìn)口自中國(guó)的商品,將在現(xiàn)有關(guān)稅基礎(chǔ)上加征10%的關(guān)稅。
    2025-02-05 10:00:10
  • 聚焦“六大”行動(dòng) 江蘇省大力推動(dòng)制造業(yè)智能化改造

    江蘇省人民政府發(fā)布三年行動(dòng)計(jì)劃,其中提出到2027年底,培育優(yōu)秀工業(yè)軟件企業(yè)100家,推廣優(yōu)秀工業(yè)軟件產(chǎn)品和解決方案、首版次軟件產(chǎn)...
    2025-01-27 10:20:00
  • 靈感源于人體蛋白質(zhì):人工電機(jī)模仿“驅(qū)動(dòng)生命”的自然機(jī)制

    近年來,科學(xué)家們從人體蛋白質(zhì)中汲取靈感,開發(fā)出一種新型的人工電機(jī),這種電機(jī)不僅能夠高效運(yùn)轉(zhuǎn),還能模仿生命體內(nèi)驅(qū)動(dòng)各種生物過程的自然...
    2025-01-24 15:59:59
  • 《國(guó)家糧食質(zhì)量安全檢驗(yàn)監(jiān)測(cè)機(jī)構(gòu)管理辦法(征求意見稿)》解讀

    為進(jìn)一步加強(qiáng)國(guó)家糧食質(zhì)量安全檢驗(yàn)監(jiān)測(cè)體系的建設(shè)和管理,確保糧食質(zhì)量安全,國(guó)家糧食和物資儲(chǔ)備局近期發(fā)布了《國(guó)家糧食質(zhì)量安全檢驗(yàn)監(jiān)測(cè)機(jī)...
    2025-01-24 15:27:34
  • 重慶出臺(tái)35條“硬核舉措”,真金白銀支持制造業(yè)穩(wěn)增長(zhǎng)、促轉(zhuǎn)型

    近日,重慶市經(jīng)濟(jì)和信息化委員會(huì)聯(lián)合重慶市財(cái)政局,發(fā)布了35條具體而有力的政策措施,旨在全面支持制造業(yè)的穩(wěn)增長(zhǎng)、促轉(zhuǎn)型和提能級(jí)。
    2025-01-24 15:11:17
  • 2024年度新培育國(guó)家層面綠色工廠達(dá)1382家

    工業(yè)和信息化部(MIIT)近日公布了2024年度綠色制造名單,新培育國(guó)家層面的綠色工廠數(shù)量達(dá)到了1382家,這標(biāo)志著中國(guó)在推進(jìn)綠色...
    2025-01-24 14:52:59

版權(quán)與免責(zé)聲明

  • 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
  • 本網(wǎng)轉(zhuǎn)載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。
  • 如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。