一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱

  IMO金牌的頭魁原來是谷歌DeepMind,只是因為內(nèi)部流程審批慢,被OpenAI搶占先機,占盡風(fēng)頭。那助OpenAI拿下IMO金牌的模型有何特殊之處?它背后的爭議為何引發(fā)菲爾茲獎得主陶哲軒公開出面發(fā)聲?

  爆料稱,谷歌DeepMind的AI模型早在本周五,也就是兩天前,便拿下了IMO金牌。

  但由于內(nèi)部審核慢,需等下周一市場部批準(zhǔn)后,DeepMind才能官宣具體情況。

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖1)

  OpenAI瞅中了時機,用全新通用推理模型在IMO刷題后,立即公開了結(jié)果。

  昨天,全網(wǎng)幾乎都被OpenAI拿下IMO金牌刷屏了。自家研究員紛紛現(xiàn)身,宣傳OpenAI神秘模型的強大。

  谷歌DeepMind研究員Archit Sharma調(diào)侃道,「恭喜!居然比我們先官宣了——現(xiàn)在P6是新標(biāo)桿了嗎」?

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖2)

  簡而言之,OpenAI這次的通用推理模型在「通用強化學(xué)習(xí)和測試時計算擴展方面開辟了新天地?!?

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖3)

  OpenAI推理研究員Noam Brown指出,這個模型并非專門為國際數(shù)學(xué)奧林匹克競賽(IMO)設(shè)計。

  它是一個融合了全新實驗性通用技術(shù)的推理LLM,使其在難以驗證的任務(wù)上表現(xiàn)得更好。

  IMO問題正是這一挑戰(zhàn)的完美體現(xiàn):證明過程長達數(shù)頁,專家需要花費數(shù)小時來評分。

  這次的通用推理模型,在推理時間跨度上實現(xiàn)了逐步進步:從GSM8K(頂尖人類約 0.1 分鐘)→ MATH基準(zhǔn)(約1分鐘)→ AIME(約10分鐘)→ IMO(約100 分鐘)。

  「重要的是,它的思考效率也更高。而且在測試時計算能力和效率方面還有很大的提升空間?!?

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖4)

  通過這樣做,就可以獲得一個能夠像人類數(shù)學(xué)家一樣,構(gòu)建復(fù)雜且無懈可擊論證的模型。

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖5)

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖6)

  他稱,OpenAI拿下IMO金牌這事,需要強調(diào)的是,「這是一個LLM在做數(shù)學(xué)題,而不是一個特定的形式化數(shù)學(xué)系統(tǒng)這是朝著AGI邁進的主要部分?!?

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖7)

  其實,奧特曼之所以這么「積極主動」,也不難發(fā)現(xiàn)是在為GPT-5發(fā)布提前鋪路呢!

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖8)

  他們估計想在這個重要節(jié)點上,利用OpenAI拿下IMO金牌這事,為GPT-5來波神助攻。

  他指出,GPT-5是一個實驗性模型,用了一些將在未來模型中使用的新研究技術(shù)。

  陶哲軒簡明扼要,在缺乏受控測試環(huán)境的情況下,AI的數(shù)學(xué)能力難以準(zhǔn)確評估。

  他指出,很多人對AI有個誤解,就是把它的能力看成是「行」或「不行」兩個極端。

  但實際上,它的能力是一個巨大的范圍。你給它提供的計算資源、給它的指令有多好,以及你要求它如何輸出結(jié)果,都會導(dǎo)致最終效果產(chǎn)生天壤之別。

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖9)

  以人類競賽舉個栗子: 在剛結(jié)束的IMO競賽中,各國派出六名高中生選手組成的團隊(由職業(yè)數(shù)學(xué)家擔(dān)任領(lǐng)隊)。

  期間選手AG真人平臺官網(wǎng)嚴(yán)禁交流(包括與領(lǐng)隊),僅可向監(jiān)考詢問題目表述問題。領(lǐng)隊僅在評分環(huán)節(jié)向評審委員會申訴,不直接參與解題。

  都知道,IMO被視為衡量中學(xué)生數(shù)學(xué)能力的金標(biāo)準(zhǔn):金牌線分(即完美解答五題),完整解出一題即可獲「榮譽提名」。

一盤大棋!OpenAI「截胡」IMO金牌奧特曼為GPT-5獻上「核彈級」預(yù)熱(圖10)

  考慮一下如果我們以其他方式改變奧林匹克競賽的形式,其難度水平會發(fā)生什么變化?

  學(xué)生可以無限使用計算器、計算機代數(shù)軟件包、形式化證明助手、教科書或上網(wǎng)搜索。

  領(lǐng)隊讓六人團隊同時處理同一個問題,相互交流各自的部分進展和遇到的死胡同。

  在此期間,隊長會引導(dǎo)學(xué)生采用更有利的方法,并在某個學(xué)生花費過多時間在他們知道不太可能成功的方向時進行干預(yù)。

  提交階段,每位隊員提交解答,但隊長只選出「最佳」解答遞交競賽,其余的都棄之不用。

  如果團隊中的學(xué)生都未能獲得令人滿意的解決方案,團隊負(fù)責(zé)人將不會提交任何解決方案,并且會悄然退出比賽,而他們的參與也永遠(yuǎn)不會被記錄。

  「這警示我們,在缺乏統(tǒng)一測試標(biāo)準(zhǔn)的情況下,貿(mào)然對比不同AI模型(或AI與人類選手)的IMO表現(xiàn)如同比較蘋果與橙子,沒有對比意義可言,」陶哲軒指出。