OpenAI全新推理模型o1 - 超越博士生的推理能力
OpenAI於9月13日發佈了用於解決難題的全新推理模型o1。o1模型可將複雜的推理分步進行,在數學、程式設計和科學領域的相關問題的測試對比上一模型ChatGPT-4o有了長足的進步;而o1具備的關聯思考能力(COT)讓o1在許多複雜的推理任務測試中表現超群,甚至表現出超越人類博士的能力表現。
一、o1亮點
代號為Strawberry的生成式AI在9月13日的OpenAI發佈會上被正式命名為o1。
1強大的推理能力
o1模型的一大亮點是能夠進行分步複雜推理,思維鏈能力(COT)實現了結構化推理,將單個任務拆解成多個簡單任務,提升了回答的邏輯性。o1在回答複雜問題時,會逐步解釋每一步的推理過程,而不是直接給出答案,使模型在回答問題時就像是人類在解題時,先思考每一步的邏輯,再逐步推導出最終的結果,例如偵測律師收件匣中的特權電子郵件或集思廣益產品行銷策略。
2獨特的訓練方式
o1是使用一種全新的優化演算法和專門為其定制的新訓練數據集進行訓練的(使用RL訓練模型,最終更好地執行思維鏈思考)。這種新的訓練方法,使得模型更加準確,並且研究人員表示該模型的“幻覺”(即生成看似合理但不正確或荒謬的答案)更少。
OpenAI 的研究科學家 Noam Brown 在一系列推文中表示:“o1 經過強化學習訓練,能夠在通過私人思維鏈做出反應之前進行‘思考’。它思考的時間越長,它在推理任務上的表現就越好。”
3o1缺點
然而,o1的思考時間也可能會成為它的缺點之一,與其他AI模型相比,o1的反應時間可能會比較慢。另外,o1目前為純文本模型,僅支援針對特定的檔案進行推理或從網路收集即時資訊的能力。最後,即使是有試用o1權限的用戶,也會收到每週30次試用o1-preview及50次試用o1-mini的限制。
二、o1與其他AI模型對比
o1在數學、程式設計、科學領域的能力大幅提升,其成就之上均勝過過去最優異的 Claude 3.5 Sonnet。科學問答環節超過人類博士水準。具體而言,在程式設計能力方面,o1在Codeforces程式設計競賽上超過了83%的專業人員。在數學競賽方面,以AIME 2024為例,GPT-4o平均只能解決12%的問題,而o1平均能解決74%的問題,若採用64個樣本的共識,解決率能達到83%。而在科學能力方面,對於博士級科學問題(GPQA Diamond),GPT-4o的精確度為56.1,人類專家的水準是69.7,而o1達到了78。o1是目前第一個在GPQA科學測試中超越人類博士的AI模型。
數據顯示,在2024年美國中學生數學邀請賽和Codeforces編程競賽上,o1-preview解決數學和程式設計問題的能力相較GPT-4o提高了5至6倍;更令人驚訝的是,真正版本的o1比GPT-4o的提升高達8至9倍。數據還顯示,在GPQA-diamond(一個測試化學、物理和生物學專業知識的高難度智能基準)測試上,o1-preview和o1均顯著超過了GPT-4o,最關鍵的是超越了人類專家。
三、o1體驗方式及價格
從9月13日起,ChatGPT Plus(進階版)和Team(團隊版)用戶可以在ChatGPT中訪問o1模型。o1-preview和 o1-mini均可在ChatGPT的模型選擇器中以手動選擇的方式使用。目前o1-preview每週消息限制為30條,o1-mini每週消息限制為50條。
OpenAI正在努力提高o1的消息限制,並且讓ChatGPT根據用戶的提示內容自動選擇合適的AI模型。ChatGPT Enterprise(企業)和Edu(教育)版用戶將從下周開始獲得這兩個模型的訪問許可權。此外,OpenAI還計畫為所有ChatGPT免費用戶開放o1-mini的訪問許可權。
費用:與之前發佈的GPT-4o相比,o1更貴。通過API使用o1-preview,匯入每百萬token要收費15美元,匯出每百萬token收費60美元;而GPT-4o的百萬token匯入收費只有5美元,匯出為15美元(100萬個token即模型解析文字塊的規模大小,相當於大約75萬個單詞)。換言之,o1的使用成本是GPT-4o的三到四倍。
四、更多ChatGPT模型工具體驗
覺得OpenAI的價格較貴?想要一次性體驗內構多個AI模型的AI工具?ChatArt無疑是您的最佳選擇!不僅可通過AI聊天即時獲取任意問題的解答,還有100多個寫作工具等你體驗!同時,AI內容檢測及人性化改寫助力原創論文寫作及文本創作!
ChatArt
最佳AI聊天、AI寫作、行銷助手
5,323,556名用戶已免費體驗
- 整合ChatGPT-4o、Gemini 、Claude 3.5,重塑創作速度與品質,一鍵秒生成高質量文本。
- AI作文產生器一鍵搞定高質量且流暢文章、部落格、社交媒體帖文、論文、報告、心得等。
- 50多種寫作內容模板,簡化寫作流程,支援多語言文本匯出,如中文、英文、法文等。
- 專業AI行銷SEO寫作助手一網打盡行銷文案、電商文案、Slogan、郵件寫作,品牌塑造。
- 文法檢測、AI檢測與人性化重寫助力100%原創文本內容,全面解放寫作靈感!
結語
o1的出現,可以說是AI另外一個新紀元的開始。不僅在理論上重新定義了 AI 的潛力,更使我們看到未來運用這類技術的廣闊前景。但無論如何,我們都應正確使用AI工具。
Apple AI與其他手機品牌AI有何不同?
蘋果Apple AI攜手iPhone 16等新品能否逆風翻盤?
無懼招牌設計!AI製圖讓招牌脫穎而出