丰满熟女在线综合_国产精品一二三四_人人操人人青青草_亚洲AV无码乱码在线激情_日韩精品尤物一区二区

OpenAI o1模型到博士水平了?復旦教授:沒有真正推理

2024-09-13 15:42| 發(fā)布者: | 查看: |

在進行高達1500億美元的估值融資之際,OpenAI放出了一個大招,預熱了許久的“草莓”(Strawberry) 模型終于來了。

“需要耐心等待的時刻結(jié)束了。”該公司CEO山姆·奧特曼(Sam Altman)說。這就是名為 o1的新模型,這次發(fā)布包括預覽版o1-preview和小尺寸版o1-mini。

OpenAI官方發(fā)文稱,新模型旨在解決復雜推理問題,訓練模型在響應之前花更多時間思考,類似于人類的思考方式。

“新模型在推理能力上代表了AI能力的新水平。”OpenAI稱,該模型可以解決科學、編程和數(shù)學等更為復雜的任務,且比此前的GPT-4o有顯著提升。

奧特曼發(fā)帖表示,“這是我們迄今為止功能最強大、最一致的模型,也是迄今為止我們最好的推理模型,這是新范式的開始。”

推理能力吊打GPT-4o,數(shù)學編程能力“爆表”

新模型到底有多強?它在需要深入思考和邏輯推理的專業(yè)任務上不僅吊打GPT-4o,還超過了擁有博士學位的人類專家。

OpenAI表示,新模型在物理、化學和生物等學科的挑戰(zhàn)性基準測試中,表現(xiàn)超過人類專家。在國際數(shù)學奧林匹克(IMO)資格考試中,新模型得分超83%,遠高于GPT-4o的13%。在Codeforces編程競賽中,o1模型的成績達到了前89%,而GPT-4o僅達到11%。

OpenAI表示, o1模型在推理能力上相比GPT-4o顯著進步。綜合評測顯示,在絕大多數(shù)需要深入思考和復雜推理的任務中,新模型都展現(xiàn)出了明顯優(yōu)于GPT-4o的表現(xiàn),并在多個細分測試上超過90%。

在啟用視覺感知能力的情況下,o1模型在MMMU(多模態(tài)理解)測試中獲得了78.2%的高分,成為首個能與人類專家展開競爭的AI模型。

在 MMLU(大規(guī)模多任務語言理解)測試中,在總計57個子類別中,o1在54個類別上都超越了GPT-4o 的表現(xiàn)。

上述評測還顯示,o1模型在MMLU Categories中的高數(shù)測試正確率高達98%,且在ML Benchmarks中的數(shù)學測試相較GPT-4o獲得了超過34%的最大絕對性優(yōu)勢,足以顯示o1模型是個數(shù)學超級“學霸”。

OpenAI還選擇了專為美國最優(yōu)秀的高中數(shù)學生而設計的高難度考試——美國數(shù)學邀請賽(AIME)作為基準,來測試模型的極限能力。

結(jié)果顯示,在2024年AIME考試中(15題),GPT-4o平均只解決了12%(答對 1.8 )的問題,o1模型測試單次正確率高達74%,64次采樣的正確率提升至 83%,1000次采樣后使用學習型評分函數(shù)重新排序后的正確率高達93%, 即能答對13.9 題,躋身美國前500名學生之列,也超出美國數(shù)學奧林匹克競賽的分數(shù)線。

OpenAI進一步將o1模型應用于GPQA diamond 測試,其專門用于評估模型在化學、物理和生物學等領域的專業(yè)知識水平,并邀請了擁有相關領域博士學位的專家參與測試。

測試結(jié)果顯示,o1不僅成功完成了測試,更是超越了博士表現(xiàn),成為首個在GPQA diamond 基準上擊敗人類專家的AI模型。

“這些結(jié)果并不意味著它在所有方面都比擁有博士學位的專家更強,只是說o1更擅長解決一些博士能夠解決的特定問題。”OpenAI稱。

在編程方面,OpenAI基于o1模型深度優(yōu)化和專項訓練出一個新的AI模型,其在2024年國際信息學奧林匹克競賽(IOI)獲得了213分的高分,躋身參賽者的前50%。

在Codeforces平臺的模擬競爭性編程比賽中,該新模型超越了93%的人類競爭者。相比之下,GPT-4o僅超過11%的人類競爭者。

這些評測顯示出,新模型不僅在數(shù)學、編程等需要高推理能力的專業(yè)領域可比肩人類專家,同時在更為廣泛的多模態(tài)和語言理解方面也有更好表現(xiàn)。

OpenAI發(fā)布的一項匿名人類偏好評估顯示,o1-preview在數(shù)據(jù)分析、編碼和數(shù)學等推理密集型類別中,比GPT-4o更受歡迎,但在某些自然語言任務中,o1-preview并不是首選。這表明它并不適合所有用例,GPT-4o在文本生成方面仍保持優(yōu)勢。

OpenAI負責新模型研發(fā)的員工也提到,o1模型并不總是比GPT-4o更好,許多任務并不需要推理能力,有時等待o1的回應相比快速獲得GPT-4o的回應并不值得。

“作為早期模型,o1-preview還不具備ChatGPT的許多實用功能,如瀏覽網(wǎng)頁、上傳文件和圖片。對于許多常見情況,GPT-4o短期內(nèi)變得更加強大。但對于復雜的推理任務來說,這是一個重大進步,代表了人工智能能力的新水平。”OpenAI表示。

強化學習+思維鏈加持,幻覺依然無法徹底解決

o1模型更強的推理能力得益于OpenAI開發(fā)了一種創(chuàng)新的大規(guī)模強化學習算法。這種算法不僅能高效利用數(shù)據(jù),還能有效訓練模型運用思維鏈進行推理思考。

這種訓練的核心在于教會模型“如何思考”。因此,與傳統(tǒng)模型追求的快速響應不同,新模型開始學會慢思考——在回答之前,內(nèi)部進行長鏈條的思考和推理,確保生成內(nèi)容的質(zhì)量。在OpenAI的一項單詞推理測試中,o1-preview響應時間達32秒,而GPT-4o僅需3秒。

“我們訓練這些模型花更多的時間去思考問題,然后再做出反應,就像人類一樣。”OpenAI稱,借助強化學習和思維鏈,新模型能完善自己的思維過程,具備自我檢查的能力,識別糾正出現(xiàn)的錯誤,可以將復雜問題進行分解,并能在發(fā)現(xiàn)當前方法無效時嘗試不同的策略。

OpenAI還發(fā)現(xiàn),隨著強化學習計算量的增加,以及模型思考時間的延長,o1的性能會不斷提高。這顯示新模型更多依賴計算資源和算法優(yōu)化,而傳統(tǒng)大語言模型預訓練則依賴于海量數(shù)據(jù)的收集處理。

“這有很大不同,我們正深入研究這種新方法的擴展限制。”OpenAI表示,模型思考的時間越長,在推理任務上的表現(xiàn)就越好。“這開辟了一個新的擴展維度,不再受預訓練的瓶頸限制,現(xiàn)在也可以擴展推理計算能力。”

得益于這些技術創(chuàng)新所帶來的能力,OpenAI將新模型計數(shù)器重置為 1,并命名為o1。

某種程度來說,這意味著大模型的“摩爾定律”Scaling Law有效,但重點已從堆數(shù)據(jù),轉(zhuǎn)移到堆算力和算法優(yōu)化方面,提高模型思考時間,可以說是一條提升大模型能力的新路徑。

英偉達的科學家Jim Fan對此也點評稱,模型不僅僅擁有訓練時的Scaling law,還擁有推理層面的Scaling law,雙曲線的共同增長,將突破大模型能力的提升瓶頸。

同時,OpenAI表示,思維鏈推理為AI對齊和安全提供了新的機會。“這是教授模型人類價值觀和原則的有效方法,推理能力的提升有利于模型穩(wěn)健性,并使我們能夠以清晰的方式觀察模型思維的過程。”

不過,這仍然無法徹底解決幻覺問題,但思維鏈為AI的三大缺陷(不可信、不可控、不透明)提供了思路。它可以“讀取模型的思想”并理解其思維過程,檢測AI是否試圖操縱用戶,以及為 AI決策提供解釋性,增加透明度和可信度。

OpenAI總裁Greg Brockman也提到,這提供了新的安全機會,公司正在積極探索,包括可靠性、幻覺和對抗攻擊者的魯棒性。

“在權(quán)衡了用戶體驗、競爭優(yōu)勢、思維鏈監(jiān)控和安全等在內(nèi)的多種因素后,我們決定不向用戶展示原始思維鏈。”OpenAI表示,o1模型會提供由模型生成的思維鏈摘要。

預覽版成本比GPT-4o貴三四倍,9.11和9.8誰大仍翻車

“發(fā)布o1-preview的一個動機是為了觀察哪些使用場景會變得流行,以及這些模型在哪些方面還需要改進。”OpenAI員工稱。

該公司表示,新模型將為多個領域的專業(yè)人士帶來顯著助益,尤其是那些在科學研究、軟件開發(fā)、數(shù)學計算等領域面臨復雜挑戰(zhàn)的領域,將是一個輔助工具。

ChatGPT Plus和Team用戶從今天開始可以在ChatGPT 中訪問 o1 模型。ChatGPT Enterprise 和Edu用戶將從下周開始獲得訪問權(quán)限。

部分開發(fā)者今日起也可使用o1-preview和o1-mini,速率限制為20 RPM。OpenAI計劃在未來向所有ChatGPT的免費用戶開放o1-mini的使用權(quán)。

對開發(fā)者來說,使用o1模型要付出更高的價格。目前,o1-preview輸入定價15美元/百萬token,是GPT-4o(5美元/百萬token)的3倍;輸出定價60美元/百萬token,是GPT-4o(15美元/百萬token)的4倍。

不過,開發(fā)者可以選擇小版本的o1-mini。相較o1-preview,它速度更快、成本更低,適用于需要推理但沒有廣泛知識的應用程序,尤其擅長數(shù)據(jù)和編碼,成本比o1-preview低80%,即和GPT-4o價格相當。

對于OpenAI此次發(fā)布的新模型,復旦大學計算機科學技術學院教授、MOSS大模型核心人員張奇對搜狐科技表示,它依然不具備真正的推理能力。

“統(tǒng)計機器學習進行可以擬合數(shù)據(jù)集,但是無法進行類人的演繹和歸納推理,它學習到的仍然是概率相關性。”張奇表示。

他提到,換一些簡單題目,與訓練語料不同的數(shù)據(jù),o1-preview的結(jié)果就會變的很差。比如雖然它數(shù)學能力突出,但對9.11和9.8哪個大這種問題,第一次回答時仍然翻車,而在進行第二次反饋后,它才從不同角度解讀,最后給出了正確答案。

這意味著,評測代表的是評測數(shù)據(jù)集的能力,但用到具體的實際場景,OpenAI新模型的首次輸出準確性仍有很大的改進空間。實際上,Open發(fā)布的前述評測中,部分表現(xiàn)突出的結(jié)果都是多次測試綜合得出。

OpenAI稱,o1模型還處于早期,未來將進行定期更新和改進,后續(xù)會加入更多功能,如網(wǎng)頁瀏覽、文件和圖像上傳等。同時,會繼續(xù)開發(fā)GPT系列模型,與o1系列模型并行發(fā)展。

這意味著,我們還是有機會見到GPT-5,你還期待嗎?

注:文章及圖片轉(zhuǎn)載自網(wǎng)絡,如有侵權(quán)請聯(lián)系刪除

<
>
?
QQ在線咨詢
售前咨詢熱線
0312-2397237
售后服務熱線
85917613
返回頂部
容城县| 广灵县| 津南区| 武冈市| 英山县| 塔河县| 漯河市| 阜康市| 咸丰县| 新巴尔虎左旗| 澄江县| 诸城市| 桐庐县| 贵港市| 凌海市| 胶南市| 阿鲁科尔沁旗| 洞头县| 白山市| 沐川县| 合江县| 丽江市| 论坛| 民和| 邢台市| 栾城县| 梅州市| 无为县| 浪卡子县| 堆龙德庆县| 郑州市| 遵化市| 宣威市| 哈密市| 阳原县| 来安县| 海丰县| 南丹县| 潼南县| 万山特区| 滁州市|