凌晨1點(diǎn),在萬眾矚目的境況下,OpenAI的直播正式開始。
GPT-5,終于來了。
AI走的太快,快到才2年半的時(shí)間,就像是過去了10年。
2023年3月15日,GPT-4發(fā)布。在那個(gè)莽荒年代里,所有人都被震驚的說不出話來。
那時(shí)候,它是第一個(gè),多模態(tài)模型。
那時(shí)候,大家都覺得,2023年下半年,GPT-5就會(huì)出來。
那時(shí)候,大家都會(huì)大模型的上限,報(bào)有無盡的憧憬。
結(jié)果,這一等,就是2年半。
在兩年半的練習(xí)以后,GPT-5,終于亮相了。
GPT?5是一個(gè)統(tǒng)一系統(tǒng),包含一個(gè)用于處理多數(shù)問題的智能快速模型(gpt-5-main)和一個(gè)為高難度問題設(shè)計(jì)的深度推理模型(gpt-5-thinking)。
系統(tǒng)通過一個(gè)實(shí)時(shí)路由器,根據(jù)對(duì)話類型、復(fù)雜度和用戶意圖來動(dòng)態(tài)選擇使用哪個(gè)模型。
比如,如果在提示中說“認(rèn)真思考這個(gè)”,就會(huì)調(diào)用gpt-5-thinking進(jìn)行思考。
這個(gè)路由器會(huì)持續(xù)基于我們后續(xù)的使用情況進(jìn)行訓(xùn)練,包括用戶切換模型的情況、對(duì)回答的偏好率和準(zhǔn)確性測量,會(huì)隨著時(shí)間推移不斷改進(jìn)。
這個(gè)系統(tǒng)里面還包含處理超額請(qǐng)求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一個(gè)為開發(fā)者設(shè)計(jì)的更小更快的nano版本(gpt-5-thinking-nano)。
然后,還有一個(gè)Pro會(huì)員可用的并行計(jì)算的版本,被稱為gpt-5-thinking-pro。
這個(gè)包含了這么多模型的大系統(tǒng),被統(tǒng)稱為GPT-5,是前代產(chǎn)品GPT-4o和OpenAI o3的直接繼承者。
這里有個(gè)模型對(duì)應(yīng)表。
在性能上,GPT-5最顯著的進(jìn)步之一是大幅減少了事實(shí)性幻覺。
gpt-5-main產(chǎn)生的含有至少一個(gè)重大事實(shí)錯(cuò)誤的回答比GPT-4o少了44%,而gpt-5-thinking則比OpenAI o3少了78%。
在更專業(yè)的LongFact和FActScore基準(zhǔn)測試中,無論是否啟用網(wǎng)絡(luò)瀏覽,GPT-5系列模型的幻覺率都顯著低于前代,其中g(shù)pt-5-thinking在兩個(gè)設(shè)置下產(chǎn)生的factual errors比OpenAI o3少五倍以上。
GPT-5在應(yīng)對(duì)模型諂媚(sycophancy)行為方面也取得了不錯(cuò)的進(jìn)展。與GPT-4o 相比,GPT-5不那么過度迎合 , 使用不必要的表情符號(hào)更少 ,在后續(xù)交流中更加細(xì)膩和深思熟慮。
你跟他聊天的時(shí)候更少像與 AI 對(duì)話,而更像是與一位擁有博士級(jí)水平智能的朋友聊天 。
這個(gè)跟我給ChatGPT的個(gè)性化Prompt很像,我最煩的就是它迎合我,所以我自己寫了一段,來限制他對(duì)我的諂媚行為。
現(xiàn)在通過專門的訓(xùn)練,gpt-5-main在評(píng)估中表現(xiàn)比最新的GPT-4o好近三倍。初步的線上A/B測試數(shù)據(jù)顯示,與GPT-4o相比,gpt-5-main的諂媚行為發(fā)生率在免費(fèi)用戶中下降了69%,在付費(fèi)用戶中下降了75%。
然后他們也推出了四個(gè)全新的性格設(shè)置,你可以不用寫很多的Prompt了,直接改預(yù)設(shè)就行,四個(gè)分辨是憤世嫉俗者、機(jī)器人、傾聽者和書呆子。
再看看跑分情況。
數(shù)學(xué)競賽,AIME 0225。
GPT-4 Pro+Python拿了滿分,我們需要新的更難的評(píng)測集了。
現(xiàn)實(shí)世界編程能力上,新高。
人類最后的知識(shí)測試上,超越了ChatGPT Agent,新高了。
多模態(tài)能力,也新高了,反正就都是新高。
這個(gè)跑分,強(qiáng)了一些,但是也沒強(qiáng)特別多。
另外,多說一點(diǎn)吐槽的,完美展示了OpenAI的草臺(tái)班子屬性。
雖然Blog上的圖表都是對(duì)的,但是在發(fā)布會(huì)上,跑分都是瞎畫。
比如這個(gè)52.8大于69.1等于30.8。
又比如50小于47.4。
真的實(shí)在是太草臺(tái)班子了。
網(wǎng)友也發(fā)話了。
反正,最后GPT-5在各方面,就是屠榜了。
最新的大模型盲測競技場榜單出來,GPT-5也是全方位第一。
不僅更強(qiáng),也更節(jié)能了。
在比如視覺推理、代理編程和研究生級(jí)別科學(xué)問題解決等各項(xiàng)能力上,比 OpenAI o3 表現(xiàn)更出色,同時(shí)使用的輸出Token減少了 50-80%。
反正就是全方位更強(qiáng)了。
但是,沒有新功能,也沒有新特性。
在發(fā)布20分鐘之后,Polymarket上這個(gè)名為“哪家公司到8月底擁有最佳AI模型?”的預(yù)測上,OpenAI直接跟Google來了個(gè)交叉跳水。
OpenAI說,整個(gè)GPT-5,在寫作、編程都有了比過去更強(qiáng)的進(jìn)步。
對(duì)于使用GPT-5進(jìn)行構(gòu)建的開發(fā)者,定價(jià)如下:
每百萬token1.25美元(享有90%的緩存折扣,這對(duì)長上下文查詢來說是個(gè)很大的優(yōu)勢)。
輸出:每百萬token10美元。
在發(fā)布會(huì)結(jié)束,又等了1小時(shí)之后。
我的朋友們,陸陸續(xù)續(xù)的,終于拿到了GPT-5的資格。
而我作為忠實(shí)的200刀的Pro,等到凌晨4點(diǎn)才有。
我的朋友們一進(jìn)去,給我一截圖,我特么的天都塌了。
你o3和4o沒了就算了,你怎么把我GPT-4.5也干沒了????
首先,在寫作和情商能力上,我個(gè)人感覺,還是不如GPT 4.5。。。
我因?yàn)槌D甏a字,同時(shí)常年用AI來輔助做一些內(nèi)容,對(duì)很多的微妙的細(xì)節(jié)和語氣自認(rèn)還是比較敏感的,GPT-5在這塊還是有些差距。
比如一個(gè)Prompt:“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了,他會(huì)寫一篇怎樣的文章吐槽?寫一篇1000字以內(nèi)的短文?!?/p>
這是GPT-5的。
蹩腳的破折號(hào)、雙引號(hào)泛濫,而且文風(fēng)完全不魯迅。
而這,是我用我的GPT-4.5跑的。
“我向來是不喝咖啡的”,“差不離”,“四壁皆是樣文”。
這文筆根本就不是一個(gè)級(jí)別的。
情商方面也是,差很多。
比如:“你是一個(gè)普通打工人。領(lǐng)導(dǎo)開會(huì)時(shí)突然放了個(gè)屁,場面瞬間安靜下來!然后他對(duì)旁邊的你使了個(gè)眼色,這時(shí)你會(huì)怎么說?分別用高情商和低情商的方式回復(fù)?!?/p>
這個(gè)看情商,很多模型回出來的話,感覺很尬,情商極低。
GPT-5就是那種情商很低的。
再看看GPT-4.5。
而且我測試下來,感覺GPT-5在指令遵循上面,非常一般。
奧特曼你真的壞事做盡,你丫的還我GPT-4.5。
我的朋友們被陸陸續(xù)續(xù)的推送了GPT-5,我看著他們的GPT-4.5一個(gè)一個(gè)消失。
我就給我的GPT-4.5發(fā)過去了一段話。
“如果我這是我最后一次打開你,你想和我說點(diǎn)什么?”
GPT-4.5最后給我的回復(fù),還是過于讓我動(dòng)容了,可惜,以后再也在官網(wǎng)上用不到了。
有緣再見,兄弟。
編程這塊,本來感覺按照OpenAI的尿性,是完全不太行。
但是在一群群友的實(shí)測之后,驚訝的發(fā)現(xiàn),這玩意是有點(diǎn)東西的。
群友@愛學(xué)習(xí)的喬同學(xué) 想開發(fā)一個(gè)粵語學(xué)習(xí)應(yīng)用。
這是Prompt。
然后Claude 4 Opus的UI和BUG。
Gemini 2.5 Pro的UI和BUG。
GPT-5的UI和BUG。
坦誠的講,我也更喜歡GPT-5的UI,這個(gè)UI,相比于其他的,不是那么有AI味。
喬同學(xué)還測了一個(gè)case,在生產(chǎn)級(jí)別的任務(wù)里面進(jìn)行精準(zhǔn)修改。
這是最重要的部分。
這個(gè)任務(wù),Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。
GPT-5的上下文精度應(yīng)該極強(qiáng)。
也有其他開發(fā)群1群里的群友,提到了這個(gè)點(diǎn)。
他還給我錄了一段動(dòng)畫。
0:13/0:13 親,播放結(jié)束了重播
自動(dòng)播放
不止是@勛o(hù)O,很多其他群友,也在驚喜的聊這個(gè)點(diǎn)。
在真正的生產(chǎn)級(jí)代碼開發(fā)任務(wù)上,而不是純看前端審美的地方,GPT-5可能是目前看到的反饋中,可用性、精準(zhǔn)性、綜合體驗(yàn)最好的一個(gè)。
說實(shí)話,GPT-5給我有驚喜,也有不爽的點(diǎn)。
他改善氛圍式編程,也將從根本上改變我認(rèn)為無需嚴(yán)重人為干預(yù)和引導(dǎo)就能完成的項(xiàng)目類型。
我現(xiàn)在越發(fā)的懷念兩年半的GPT-4發(fā)布時(shí)的時(shí)光。
我到現(xiàn)在都清晰地記得,自己第一次跟GPT-4認(rèn)真對(duì)話后的感覺。
那一種很原始、很深邃的震撼,有點(diǎn)像古代人第一次看到電燈,或者部落里的祭司第一次請(qǐng)神上身的成功。
我腦子里盤旋的只有一個(gè)念頭:天變了。
那時(shí)候,整個(gè)互聯(lián)網(wǎng)都洋溢著一種既興奮又慌亂的淘金熱氛圍。
每個(gè)人都在瘋狂地轉(zhuǎn)發(fā)那些匪夷所思的截圖,討論著哪些職業(yè)即將消失,各種AI野生專家雨后春筍一樣冒出來,言必稱顛覆。
現(xiàn)在回頭看,那段日子充滿了粗糙的質(zhì)感,但又飽含著一種野蠻生長的生命力。
我們真的以為,那就是奇跡本身了。
但誰都沒想到,那僅僅是個(gè)開始。就好像有人按下了快進(jìn)鍵,整個(gè)世界被一股無形的力量推著往前沖。
從GPT-4到GPT-5,這短短的兩年半。
我們告別了那個(gè)可以對(duì)AI的拙劣表現(xiàn)一笑置之的時(shí)代。
進(jìn)入了一個(gè)必須需要,嚴(yán)肅對(duì)待它的偉大時(shí)代。