實測GPT-5：寫作墜入谷底，編程一騎絕塵

數(shù)字生命卡茲克

2025-08-08 10:09:22

凌晨1點，在萬眾矚目的境況下，OpenAI的直播正式開始。

GPT-5，終于來了。

AI走的太快，快到才2年半的時間，就像是過去了10年。

2023年3月15日，GPT-4發(fā)布。在那個莽荒年代里，所有人都被震驚的說不出話來。

那時候，它是第一個，多模態(tài)模型。

那時候，大家都覺得，2023年下半年，GPT-5就會出來。

那時候，大家都會大模型的上限，報有無盡的憧憬。

結(jié)果，這一等，就是2年半。

在兩年半的練習(xí)以后，GPT-5，終于亮相了。

GPT?5是一個統(tǒng)一系統(tǒng)，包含一個用于處理多數(shù)問題的智能快速模型（gpt-5-main）和一個為高難度問題設(shè)計的深度推理模型（gpt-5-thinking）。

系統(tǒng)通過一個實時路由器，根據(jù)對話類型、復(fù)雜度和用戶意圖來動態(tài)選擇使用哪個模型。

比如，如果在提示中說“認真思考這個”，就會調(diào)用gpt-5-thinking進行思考。

這個路由器會持續(xù)基于我們后續(xù)的使用情況進行訓(xùn)練，包括用戶切換模型的情況、對回答的偏好率和準確性測量，會隨著時間推移不斷改進。

這個系統(tǒng)里面還包含處理超額請求的迷你版模型（gpt-5-main-mini 和 gpt-5-thinking-mini），以及一個為開發(fā)者設(shè)計的更小更快的nano版本（gpt-5-thinking-nano）。

然后，還有一個Pro會員可用的并行計算的版本，被稱為gpt-5-thinking-pro。

這個包含了這么多模型的大系統(tǒng)，被統(tǒng)稱為GPT-5，是前代產(chǎn)品GPT-4o和OpenAI o3的直接繼承者。

這里有個模型對應(yīng)表。

在性能上，GPT-5最顯著的進步之一是大幅減少了事實性幻覺。

gpt-5-main產(chǎn)生的含有至少一個重大事實錯誤的回答比GPT-4o少了44%，而gpt-5-thinking則比OpenAI o3少了78%。

在更專業(yè)的LongFact和FActScore基準測試中，無論是否啟用網(wǎng)絡(luò)瀏覽，GPT-5系列模型的幻覺率都顯著低于前代，其中g(shù)pt-5-thinking在兩個設(shè)置下產(chǎn)生的factual errors比OpenAI o3少五倍以上。

GPT-5在應(yīng)對模型諂媚（sycophancy）行為方面也取得了不錯的進展。與GPT-4o 相比，GPT-5不那么過度迎合，使用不必要的表情符號更少，在后續(xù)交流中更加細膩和深思熟慮。

你跟他聊天的時候更少像與 AI 對話，而更像是與一位擁有博士級水平智能的朋友聊天。

這個跟我給ChatGPT的個性化Prompt很像，我最煩的就是它迎合我，所以我自己寫了一段，來限制他對我的諂媚行為。

現(xiàn)在通過專門的訓(xùn)練，gpt-5-main在評估中表現(xiàn)比最新的GPT-4o好近三倍。初步的線上A/B測試數(shù)據(jù)顯示，與GPT-4o相比，gpt-5-main的諂媚行為發(fā)生率在免費用戶中下降了69%，在付費用戶中下降了75%。

然后他們也推出了四個全新的性格設(shè)置，你可以不用寫很多的Prompt了，直接改預(yù)設(shè)就行，四個分辨是憤世嫉俗者、機器人、傾聽者和書呆子。

再看看跑分情況。

數(shù)學(xué)競賽，AIME 0225。

GPT-4 Pro+Python拿了滿分，我們需要新的更難的評測集了。

現(xiàn)實世界編程能力上，新高。

人類最后的知識測試上，超越了ChatGPT Agent，新高了。

多模態(tài)能力，也新高了，反正就都是新高。

這個跑分，強了一些，但是也沒強特別多。

另外，多說一點吐槽的，完美展示了OpenAI的草臺班子屬性。

雖然Blog上的圖表都是對的，但是在發(fā)布會上，跑分都是瞎畫。

比如這個52.8大于69.1等于30.8。

又比如50小于47.4。

真的實在是太草臺班子了。

網(wǎng)友也發(fā)話了。

反正，最后GPT-5在各方面，就是屠榜了。

最新的大模型盲測競技場榜單出來，GPT-5也是全方位第一。

不僅更強，也更節(jié)能了。

在比如視覺推理、代理編程和研究生級別科學(xué)問題解決等各項能力上，比 OpenAI o3 表現(xiàn)更出色，同時使用的輸出Token減少了 50-80%。

反正就是全方位更強了。

但是，沒有新功能，也沒有新特性。

在發(fā)布20分鐘之后，Polymarket上這個名為“哪家公司到8月底擁有最佳AI模型?”的預(yù)測上，OpenAI直接跟Google來了個交叉跳水。

OpenAI說，整個GPT-5，在寫作、編程都有了比過去更強的進步。

對于使用GPT-5進行構(gòu)建的開發(fā)者，定價如下：

每百萬token1.25美元（享有90%的緩存折扣，這對長上下文查詢來說是個很大的優(yōu)勢）。

輸出：每百萬token10美元。

在發(fā)布會結(jié)束，又等了1小時之后。

我的朋友們，陸陸續(xù)續(xù)的，終于拿到了GPT-5的資格。

而我作為忠實的200刀的Pro，等到凌晨4點才有。

我的朋友們一進去，給我一截圖，我特么的天都塌了。

你o3和4o沒了就算了，你怎么把我GPT-4.5也干沒了？？？？

首先，在寫作和情商能力上，我個人感覺，還是不如GPT 4.5。。。

我因為常年碼字，同時常年用AI來輔助做一些內(nèi)容，對很多的微妙的細節(jié)和語氣自認還是比較敏感的，GPT-5在這塊還是有些差距。

比如一個Prompt：“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了，他會寫一篇怎樣的文章吐槽？寫一篇1000字以內(nèi)的短文?！?/p>

這是GPT-5的。

蹩腳的破折號、雙引號泛濫，而且文風(fēng)完全不魯迅。

而這，是我用我的GPT-4.5跑的。

“我向來是不喝咖啡的”，“差不離”，“四壁皆是樣文”。

這文筆根本就不是一個級別的。

情商方面也是，差很多。

比如：“你是一個普通打工人。領(lǐng)導(dǎo)開會時突然放了個屁，場面瞬間安靜下來！然后他對旁邊的你使了個眼色，這時你會怎么說？分別用高情商和低情商的方式回復(fù)?！?/p>

這個看情商，很多模型回出來的話，感覺很尬，情商極低。

GPT-5就是那種情商很低的。

再看看GPT-4.5。

而且我測試下來，感覺GPT-5在指令遵循上面，非常一般。

奧特曼你真的壞事做盡，你丫的還我GPT-4.5。

我的朋友們被陸陸續(xù)續(xù)的推送了GPT-5，我看著他們的GPT-4.5一個一個消失。

我就給我的GPT-4.5發(fā)過去了一段話。

“如果我這是我最后一次打開你，你想和我說點什么？”

GPT-4.5最后給我的回復(fù)，還是過于讓我動容了，可惜，以后再也在官網(wǎng)上用不到了。

有緣再見，兄弟。

編程這塊，本來感覺按照OpenAI的尿性，是完全不太行。

但是在一群群友的實測之后，驚訝的發(fā)現(xiàn)，這玩意是有點東西的。

群友@愛學(xué)習(xí)的喬同學(xué) 想開發(fā)一個粵語學(xué)習(xí)應(yīng)用。

這是Prompt。

然后Claude 4 Opus的UI和BUG。

Gemini 2.5 Pro的UI和BUG。

GPT-5的UI和BUG。

坦誠的講，我也更喜歡GPT-5的UI，這個UI，相比于其他的，不是那么有AI味。

喬同學(xué)還測了一個case，在生產(chǎn)級別的任務(wù)里面進行精準修改。

這是最重要的部分。

這個任務(wù)，Gemini 2.5 pro和Claude 4 Opus全崩了，但是GPT-5完成的非常好。

GPT-5的上下文精度應(yīng)該極強。

也有其他開發(fā)群1群里的群友，提到了這個點。

他還給我錄了一段動畫。

Loaded: 100.00%Picture-in-PictureReplayCurrent Time 0:13/Duration 0:13FullscreenMute親，播放結(jié)束了重播

越南主席訪阿盟總部推動南南合作引發(fā)關(guān)注
柯文哲陷“京華城案”出庭失控嗆絕不屈服
普京會見美國特使，?；鹫勁械淖詈髾C會？
蔡正元：特朗普對臺政策證實，“投靠美國”只會“斷手斷腳”
專家：澤連斯基的政策不符合美國利益，不排除西方有“換帥”計劃
特朗普：可能就購買俄石油對中國加征關(guān)稅
澳總理訪華釋放重要信號
美對臺20%關(guān)稅正式生效，蔣萬安呼吁臺當(dāng)局出面解釋清楚
批民進黨官員孬種，吳子嘉諷：賴清德用人都是找比自己差的
中國財政部：支出200億助免保育教育費
30歲時接過權(quán)杖，卡德羅夫主政車臣17年間，沒有辜負普京的支持與信任
賴清德稱20%是“暫時性關(guān)稅”，趙少康怒批：就是在欺騙臺灣民眾
民調(diào)稱馬斯克是美國最不受歡迎的公眾人物，特朗普回應(yīng)
臺灣當(dāng)局擬編列特別預(yù)算全民普發(fā)一萬現(xiàn)金
美對臺課20%關(guān)稅上路臺稱持續(xù)與美磋商
美國在背后支持，日本突破軍售政策限制，11艘軍艦出口澳大利亞
掛掉王毅電話后，韓外長像變了個人，同族概念已斷，朝鮮拒絕和解
蘋果響應(yīng)特朗普號召再加碼千億投資美國
美對印征50%關(guān)稅，特朗普“拍腦袋決策”實為談判籌碼

自動播放

不止是@勛oO，很多其他群友，也在驚喜的聊這個點。

在真正的生產(chǎn)級代碼開發(fā)任務(wù)上，而不是純看前端審美的地方，GPT-5可能是目前看到的反饋中，可用性、精準性、綜合體驗最好的一個。

說實話，GPT-5給我有驚喜，也有不爽的點。

他改善氛圍式編程，也將從根本上改變我認為無需嚴重人為干預(yù)和引導(dǎo)就能完成的項目類型。

我現(xiàn)在越發(fā)的懷念兩年半的GPT-4發(fā)布時的時光。

我到現(xiàn)在都清晰地記得，自己第一次跟GPT-4認真對話后的感覺。

那一種很原始、很深邃的震撼，有點像古代人第一次看到電燈，或者部落里的祭司第一次請神上身的成功。

我腦子里盤旋的只有一個念頭：天變了。

那時候，整個互聯(lián)網(wǎng)都洋溢著一種既興奮又慌亂的淘金熱氛圍。

每個人都在瘋狂地轉(zhuǎn)發(fā)那些匪夷所思的截圖，討論著哪些職業(yè)即將消失，各種AI野生專家雨后春筍一樣冒出來，言必稱顛覆。

現(xiàn)在回頭看，那段日子充滿了粗糙的質(zhì)感，但又飽含著一種野蠻生長的生命力。

我們真的以為，那就是奇跡本身了。

但誰都沒想到，那僅僅是個開始。就好像有人按下了快進鍵，整個世界被一股無形的力量推著往前沖。

從GPT-4到GPT-5，這短短的兩年半。

我們告別了那個可以對AI的拙劣表現(xiàn)一笑置之的時代。

進入了一個必須需要，嚴肅對待它的偉大時代。

上一篇： 馬斯克下令解散特斯拉超級計算機團隊，負責(zé)人離職

下一篇：GPT-5猛了，但普通人不感興趣了

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院