斗破苍穹续集,古风名字,小说阅读网站

2025-08-22

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱

　　IMO金牌的頭魁原來是谷歌DeepMind，只是因為內(nèi)部流程審批慢，被OpenAI搶占先機，占盡風(fēng)頭。那助OpenAI拿下IMO金牌的模型有何特殊之處？它背后的爭議為何引發(fā)菲爾茲獎得主陶哲軒公開出面發(fā)聲？

　　爆料稱，谷歌DeepMind的AI模型早在本周五，也就是兩天前，便拿下了IMO金牌。

　　但由于內(nèi)部審核慢，需等下周一市場部批準(zhǔn)后，DeepMind才能官宣具體情況。

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖1)

　　OpenAI瞅中了時機，用全新通用推理模型在IMO刷題后，立即公開了結(jié)果。

　　昨天，全網(wǎng)幾乎都被OpenAI拿下IMO金牌刷屏了。自家研究員紛紛現(xiàn)身，宣傳OpenAI神秘模型的強大。

　　谷歌DeepMind研究員Archit Sharma調(diào)侃道，「恭喜！居然比我們先官宣了——現(xiàn)在P6是新標(biāo)桿了嗎」？

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖2)

　　簡而言之，OpenAI這次的通用推理模型在「通用強化學(xué)習(xí)和測試時計算擴展方面開辟了新天地?！?

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖3)

　　OpenAI推理研究員Noam Brown指出，這個模型并非專門為國際數(shù)學(xué)奧林匹克競賽（IMO）設(shè)計。

　　它是一個融合了全新實驗性通用技術(shù)的推理LLM，使其在難以驗證的任務(wù)上表現(xiàn)得更好。

　　IMO問題正是這一挑戰(zhàn)的完美體現(xiàn)：證明過程長達數(shù)頁，專家需要花費數(shù)小時來評分。

　　這次的通用推理模型，在推理時間跨度上實現(xiàn)了逐步進步：從GSM8K（頂尖人類約 0.1 分鐘）→ MATH基準(zhǔn)（約1分鐘）→ AIME（約10分鐘）→ IMO（約100 分鐘）。

　　「重要的是，它的思考效率也更高。而且在測試時計算能力和效率方面還有很大的提升空間?！?

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖4)

　　通過這樣做，就可以獲得一個能夠像人類數(shù)學(xué)家一樣，構(gòu)建復(fù)雜且無懈可擊論證的模型。

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖5)

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖6)

　　他稱，OpenAI拿下IMO金牌這事，需要強調(diào)的是，「這是一個LLM在做數(shù)學(xué)題，而不是一個特定的形式化數(shù)學(xué)系統(tǒng)這是朝著AGI邁進的主要部分?！?

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖7)

　　其實，奧特曼之所以這么「積極主動」，也不難發(fā)現(xiàn)是在為GPT-5發(fā)布提前鋪路呢！

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖8)

　　他們估計想在這個重要節(jié)點上，利用OpenAI拿下IMO金牌這事，為GPT-5來波神助攻。

　　他指出，GPT-5是一個實驗性模型，用了一些將在未來模型中使用的新研究技術(shù)。

　　陶哲軒簡明扼要，在缺乏受控測試環(huán)境的情況下，AI的數(shù)學(xué)能力難以準(zhǔn)確評估。

　　他指出，很多人對AI有個誤解，就是把它的能力看成是「行」或「不行」兩個極端。

　　但實際上，它的能力是一個巨大的范圍。你給它提供的計算資源、給它的指令有多好，以及你要求它如何輸出結(jié)果，都會導(dǎo)致最終效果產(chǎn)生天壤之別。

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖9)

　　以人類競賽舉個栗子：在剛結(jié)束的IMO競賽中，各國派出六名高中生選手組成的團隊（由職業(yè)數(shù)學(xué)家擔(dān)任領(lǐng)隊）。

　　期間選手AG真人平臺官網(wǎng)嚴(yán)禁交流（包括與領(lǐng)隊），僅可向監(jiān)考詢問題目表述問題。領(lǐng)隊僅在評分環(huán)節(jié)向評審委員會申訴，不直接參與解題。

　　都知道，IMO被視為衡量中學(xué)生數(shù)學(xué)能力的金標(biāo)準(zhǔn)：金牌線分（即完美解答五題），完整解出一題即可獲「榮譽提名」。

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖10)

　　考慮一下如果我們以其他方式改變奧林匹克競賽的形式，其難度水平會發(fā)生什么變化？

　　學(xué)生可以無限使用計算器、計算機代數(shù)軟件包、形式化證明助手、教科書或上網(wǎng)搜索。

　　領(lǐng)隊讓六人團隊同時處理同一個問題，相互交流各自的部分進展和遇到的死胡同。

　　在此期間，隊長會引導(dǎo)學(xué)生采用更有利的方法，并在某個學(xué)生花費過多時間在他們知道不太可能成功的方向時進行干預(yù)。

　　提交階段，每位隊員提交解答，但隊長只選出「最佳」解答遞交競賽，其余的都棄之不用。

　　如果團隊中的學(xué)生都未能獲得令人滿意的解決方案，團隊負(fù)責(zé)人將不會提交任何解決方案，并且會悄然退出比賽，而他們的參與也永遠(yuǎn)不會被記錄。

　　「這警示我們，在缺乏統(tǒng)一測試標(biāo)準(zhǔn)的情況下，貿(mào)然對比不同AI模型（或AI與人類選手）的IMO表現(xiàn)如同比較蘋果與橙子，沒有對比意義可言，」陶哲軒指出。

上一篇：從職業(yè)賽場到云端對決：海馬云電腦助職業(yè)選手演繹電競級流暢操作

下一篇：文化和旅游部組織開展暑期文化和旅游領(lǐng)域暗訪工作

AG（中國）官方網(wǎng)站-專注真人游戲陪玩平臺

資訊

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱

聯(lián)系我們

友情鏈接

AG（中國）官方網(wǎng)站-專注真人游戲陪玩平臺

資訊

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱

一盤大棋！OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱