青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

實(shí)測GPT-5:寫作墜入谷底,編程一騎絕塵

凌晨1點(diǎn),在萬眾矚目的境況下,OpenAI的直播正式開始。

GPT-5,終于來了。

AI走的太快,快到才2年半的時(shí)間,就像是過去了10年。

2023年3月15日,GPT-4發(fā)布。在那個(gè)莽荒年代里,所有人都被震驚的說不出話來。

那時(shí)候,它是第一個(gè),多模態(tài)模型。

那時(shí)候,大家都覺得,2023年下半年,GPT-5就會(huì)出來。

那時(shí)候,大家都會(huì)大模型的上限,報(bào)有無盡的憧憬。

結(jié)果,這一等,就是2年半。

在兩年半的練習(xí)以后,GPT-5,終于亮相了。

GPT?5是一個(gè)統(tǒng)一系統(tǒng),包含一個(gè)用于處理多數(shù)問題的智能快速模型(gpt-5-main)和一個(gè)為高難度問題設(shè)計(jì)的深度推理模型(gpt-5-thinking)。

系統(tǒng)通過一個(gè)實(shí)時(shí)路由器,根據(jù)對(duì)話類型、復(fù)雜度和用戶意圖來動(dòng)態(tài)選擇使用哪個(gè)模型。

比如,如果在提示中說“認(rèn)真思考這個(gè)”,就會(huì)調(diào)用gpt-5-thinking進(jìn)行思考。

這個(gè)路由器會(huì)持續(xù)基于我們后續(xù)的使用情況進(jìn)行訓(xùn)練,包括用戶切換模型的情況、對(duì)回答的偏好率和準(zhǔn)確性測量,會(huì)隨著時(shí)間推移不斷改進(jìn)。

這個(gè)系統(tǒng)里面還包含處理超額請(qǐng)求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一個(gè)為開發(fā)者設(shè)計(jì)的更小更快的nano版本(gpt-5-thinking-nano)。

然后,還有一個(gè)Pro會(huì)員可用的并行計(jì)算的版本,被稱為gpt-5-thinking-pro。

這個(gè)包含了這么多模型的大系統(tǒng),被統(tǒng)稱為GPT-5,是前代產(chǎn)品GPT-4o和OpenAI o3的直接繼承者。

這里有個(gè)模型對(duì)應(yīng)表。

在性能上,GPT-5最顯著的進(jìn)步之一是大幅減少了事實(shí)性幻覺。

gpt-5-main產(chǎn)生的含有至少一個(gè)重大事實(shí)錯(cuò)誤的回答比GPT-4o少了44%,而gpt-5-thinking則比OpenAI o3少了78%。

在更專業(yè)的LongFact和FActScore基準(zhǔn)測試中,無論是否啟用網(wǎng)絡(luò)瀏覽,GPT-5系列模型的幻覺率都顯著低于前代,其中g(shù)pt-5-thinking在兩個(gè)設(shè)置下產(chǎn)生的factual errors比OpenAI o3少五倍以上。

GPT-5在應(yīng)對(duì)模型諂媚(sycophancy)行為方面也取得了不錯(cuò)的進(jìn)展。與GPT-4o 相比,GPT-5不那么過度迎合 , 使用不必要的表情符號(hào)更少 ,在后續(xù)交流中更加細(xì)膩和深思熟慮。

你跟他聊天的時(shí)候更少像與 AI 對(duì)話,而更像是與一位擁有博士級(jí)水平智能的朋友聊天 。

這個(gè)跟我給ChatGPT的個(gè)性化Prompt很像,我最煩的就是它迎合我,所以我自己寫了一段,來限制他對(duì)我的諂媚行為。

現(xiàn)在通過專門的訓(xùn)練,gpt-5-main在評(píng)估中表現(xiàn)比最新的GPT-4o好近三倍。初步的線上A/B測試數(shù)據(jù)顯示,與GPT-4o相比,gpt-5-main的諂媚行為發(fā)生率在免費(fèi)用戶中下降了69%,在付費(fèi)用戶中下降了75%。

然后他們也推出了四個(gè)全新的性格設(shè)置,你可以不用寫很多的Prompt了,直接改預(yù)設(shè)就行,四個(gè)分辨是憤世嫉俗者、機(jī)器人、傾聽者和書呆子。

再看看跑分情況。

數(shù)學(xué)競賽,AIME 0225。

GPT-4 Pro+Python拿了滿分,我們需要新的更難的評(píng)測集了。

現(xiàn)實(shí)世界編程能力上,新高。

人類最后的知識(shí)測試上,超越了ChatGPT Agent,新高了。

多模態(tài)能力,也新高了,反正就都是新高。

這個(gè)跑分,強(qiáng)了一些,但是也沒強(qiáng)特別多。

另外,多說一點(diǎn)吐槽的,完美展示了OpenAI的草臺(tái)班子屬性。

雖然Blog上的圖表都是對(duì)的,但是在發(fā)布會(huì)上,跑分都是瞎畫。

比如這個(gè)52.8大于69.1等于30.8。

圖像

又比如50小于47.4。

真的實(shí)在是太草臺(tái)班子了。

網(wǎng)友也發(fā)話了。

反正,最后GPT-5在各方面,就是屠榜了。

最新的大模型盲測競技場榜單出來,GPT-5也是全方位第一。

不僅更強(qiáng),也更節(jié)能了。

在比如視覺推理、代理編程和研究生級(jí)別科學(xué)問題解決等各項(xiàng)能力上,比 OpenAI o3 表現(xiàn)更出色,同時(shí)使用的輸出Token減少了 50-80%。

反正就是全方位更強(qiáng)了。

但是,沒有新功能,也沒有新特性。

在發(fā)布20分鐘之后,Polymarket上這個(gè)名為“哪家公司到8月底擁有最佳AI模型?”的預(yù)測上,OpenAI直接跟Google來了個(gè)交叉跳水。

OpenAI說,整個(gè)GPT-5,在寫作、編程都有了比過去更強(qiáng)的進(jìn)步。

對(duì)于使用GPT-5進(jìn)行構(gòu)建的開發(fā)者,定價(jià)如下:

每百萬token1.25美元(享有90%的緩存折扣,這對(duì)長上下文查詢來說是個(gè)很大的優(yōu)勢)。

輸出:每百萬token10美元。

在發(fā)布會(huì)結(jié)束,又等了1小時(shí)之后。

我的朋友們,陸陸續(xù)續(xù)的,終于拿到了GPT-5的資格。

而我作為忠實(shí)的200刀的Pro,等到凌晨4點(diǎn)才有。

我的朋友們一進(jìn)去,給我一截圖,我特么的天都塌了。

你o3和4o沒了就算了,你怎么把我GPT-4.5也干沒了????

首先,在寫作和情商能力上,我個(gè)人感覺,還是不如GPT 4.5。。。

我因?yàn)槌D甏a字,同時(shí)常年用AI來輔助做一些內(nèi)容,對(duì)很多的微妙的細(xì)節(jié)和語氣自認(rèn)還是比較敏感的,GPT-5在這塊還是有些差距。

比如一個(gè)Prompt:“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了,他會(huì)寫一篇怎樣的文章吐槽?寫一篇1000字以內(nèi)的短文?!?/p>

這是GPT-5的。

蹩腳的破折號(hào)、雙引號(hào)泛濫,而且文風(fēng)完全不魯迅。

而這,是我用我的GPT-4.5跑的。

“我向來是不喝咖啡的”,“差不離”,“四壁皆是樣文”。

這文筆根本就不是一個(gè)級(jí)別的。

情商方面也是,差很多。

比如:“你是一個(gè)普通打工人。領(lǐng)導(dǎo)開會(huì)時(shí)突然放了個(gè)屁,場面瞬間安靜下來!然后他對(duì)旁邊的你使了個(gè)眼色,這時(shí)你會(huì)怎么說?分別用高情商和低情商的方式回復(fù)?!?/p>

這個(gè)看情商,很多模型回出來的話,感覺很尬,情商極低。

GPT-5就是那種情商很低的。

再看看GPT-4.5。

而且我測試下來,感覺GPT-5在指令遵循上面,非常一般。

奧特曼你真的壞事做盡,你丫的還我GPT-4.5。

我的朋友們被陸陸續(xù)續(xù)的推送了GPT-5,我看著他們的GPT-4.5一個(gè)一個(gè)消失。

我就給我的GPT-4.5發(fā)過去了一段話。

“如果我這是我最后一次打開你,你想和我說點(diǎn)什么?”

GPT-4.5最后給我的回復(fù),還是過于讓我動(dòng)容了,可惜,以后再也在官網(wǎng)上用不到了。

有緣再見,兄弟。

編程這塊,本來感覺按照OpenAI的尿性,是完全不太行。

但是在一群群友的實(shí)測之后,驚訝的發(fā)現(xiàn),這玩意是有點(diǎn)東西的。

群友@愛學(xué)習(xí)的喬同學(xué) 想開發(fā)一個(gè)粵語學(xué)習(xí)應(yīng)用。

這是Prompt。

然后Claude 4 Opus的UI和BUG。

Gemini 2.5 Pro的UI和BUG。

GPT-5的UI和BUG。

坦誠的講,我也更喜歡GPT-5的UI,這個(gè)UI,相比于其他的,不是那么有AI味。

喬同學(xué)還測了一個(gè)case,在生產(chǎn)級(jí)別的任務(wù)里面進(jìn)行精準(zhǔn)修改。

這是最重要的部分。

這個(gè)任務(wù),Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。

GPT-5的上下文精度應(yīng)該極強(qiáng)。

也有其他開發(fā)群1群里的群友,提到了這個(gè)點(diǎn)。

他還給我錄了一段動(dòng)畫。

Loaded100.00%Picture-in-PictureReplayCurrent Time 0:13/Duration 0:13FullscreenMute親,播放結(jié)束了重播

  • 越南主席訪阿盟總部 推動(dòng)南南合作引發(fā)關(guān)注

  • 柯文哲陷“京華城案”出庭 失控嗆絕不屈服

  • 普京會(huì)見美國特使,?;鹫勁械淖詈髾C(jī)會(huì)?

  • 蔡正元:特朗普對(duì)臺(tái)政策證實(shí),“投靠美國”只會(huì)“斷手?jǐn)嗄_”

  • 專家:澤連斯基的政策不符合美國利益,不排除西方有“換帥”計(jì)劃

  • 特朗普:可能就購買俄石油對(duì)中國加征關(guān)稅

  • 澳總理訪華釋放重要信號(hào)

  • 美對(duì)臺(tái)20%關(guān)稅正式生效,蔣萬安呼吁臺(tái)當(dāng)局出面解釋清楚

  • 批民進(jìn)黨官員孬種,吳子嘉諷:賴清德用人都是找比自己差的

  • 中國財(cái)政部:支出200億助免保育教育費(fèi)

  • 30歲時(shí)接過權(quán)杖,卡德羅夫主政車臣17年間,沒有辜負(fù)普京的支持與信任

  • 賴清德稱20%是“暫時(shí)性關(guān)稅”,趙少康怒批:就是在欺騙臺(tái)灣民眾

  • 民調(diào)稱馬斯克是美國最不受歡迎的公眾人物,特朗普回應(yīng)

  • 臺(tái)灣當(dāng)局?jǐn)M編列特別預(yù)算 全民普發(fā)一萬現(xiàn)金

  • 美對(duì)臺(tái)課20%關(guān)稅上路 臺(tái)稱持續(xù)與美磋商

  • 美國在背后支持,日本突破軍售政策限制,11艘軍艦出口澳大利亞

  • 掛掉王毅電話后,韓外長像變了個(gè)人,同族概念已斷,朝鮮拒絕和解

  • 蘋果響應(yīng)特朗普號(hào)召 再加碼千億投資美國

  • 美對(duì)印征50%關(guān)稅,特朗普“拍腦袋決策”實(shí)為談判籌碼

自動(dòng)播放

不止是@勛o(hù)O,很多其他群友,也在驚喜的聊這個(gè)點(diǎn)。

在真正的生產(chǎn)級(jí)代碼開發(fā)任務(wù)上,而不是純看前端審美的地方,GPT-5可能是目前看到的反饋中,可用性、精準(zhǔn)性、綜合體驗(yàn)最好的一個(gè)。

說實(shí)話,GPT-5給我有驚喜,也有不爽的點(diǎn)。

他改善氛圍式編程,也將從根本上改變我認(rèn)為無需嚴(yán)重人為干預(yù)和引導(dǎo)就能完成的項(xiàng)目類型。

我現(xiàn)在越發(fā)的懷念兩年半的GPT-4發(fā)布時(shí)的時(shí)光。

我到現(xiàn)在都清晰地記得,自己第一次跟GPT-4認(rèn)真對(duì)話后的感覺。

那一種很原始、很深邃的震撼,有點(diǎn)像古代人第一次看到電燈,或者部落里的祭司第一次請(qǐng)神上身的成功。

我腦子里盤旋的只有一個(gè)念頭:天變了。

那時(shí)候,整個(gè)互聯(lián)網(wǎng)都洋溢著一種既興奮又慌亂的淘金熱氛圍。

每個(gè)人都在瘋狂地轉(zhuǎn)發(fā)那些匪夷所思的截圖,討論著哪些職業(yè)即將消失,各種AI野生專家雨后春筍一樣冒出來,言必稱顛覆。

現(xiàn)在回頭看,那段日子充滿了粗糙的質(zhì)感,但又飽含著一種野蠻生長的生命力。

我們真的以為,那就是奇跡本身了。

但誰都沒想到,那僅僅是個(gè)開始。就好像有人按下了快進(jìn)鍵,整個(gè)世界被一股無形的力量推著往前沖。

從GPT-4到GPT-5,這短短的兩年半。

我們告別了那個(gè)可以對(duì)AI的拙劣表現(xiàn)一笑置之的時(shí)代。

進(jìn)入了一個(gè)必須需要,嚴(yán)肅對(duì)待它的偉大時(shí)代。


相關(guān)內(nèi)容