
沒(méi)有漫長(cháng)的谷歌預熱,沒(méi)有虛頭巴腦的深夜數理視力概念片,直接上線(xiàn) Model Card(模型卡片),掀翻直接開(kāi)放 API,牌桌直接端出應用平臺。滿(mǎn)分
如果說(shuō)兩年前的碾壓 Gemini 1.0 是一次倉促的追趕,一年前的谷歌 Gemini 2.0 是一次平起平坐的嘗試,那么今天凌晨的深夜數理視力 Gemini 3.0,給我的掀翻感覺(jué)只有兩個(gè)字:窒息。
這不是牌桌形容詞,是滿(mǎn)分物理意義上的窒息??赐觊L(cháng)達 60 頁(yè)的碾壓技術(shù)報告和 20 個(gè)演示視頻后,我必須負責任地說(shuō):Google 這次不裝了,谷歌它不僅掀翻了牌桌,深夜數理視力甚至把房子都拆了。掀翻
連 OpenAI 的掌門(mén)人 Sam Altman,都在半夜罕見(jiàn)給這一波發(fā)布點(diǎn)了個(gè)贊。這個(gè)贊背后的意味,是英雄惜英雄,還是感到脊背發(fā)涼,大家自己細品。

在這篇長(cháng)文中,我將帶大家逐幀拆解 Gemini 3 到底強在哪里,為什么說(shuō)它宣告了“Prompt Engineer(提示詞工程師)”的死亡,以及它如何開(kāi)啟了軟件開(kāi)發(fā)的“自動(dòng)駕駛”時(shí)代。
01. “滿(mǎn)分”的恐怖:當 AI 終于捅穿了人類(lèi)智商的天花板
不僅是強,而是“離譜”。
我們先看一張讓所有數學(xué)家、做題家以及競爭對手都陷入沉默的圖表。

在 AIME 2025(美國數學(xué)邀請賽) 的測試中,配合代碼執行(Code Execution),Gemini 3 Pro 的準確率是:100%。
你沒(méi)看錯,是 100%。是滿(mǎn)分。
以前我們在評測 GPT-4 或者 Claude 3.5 的時(shí)候,還在討論“這道幾何題它是不是蒙對的”、“這個(gè)邏輯陷阱它有沒(méi)有跳過(guò)去”。但 Gemini 3 用這個(gè)滿(mǎn)分直接終結了討論:在現有的標準化數學(xué)測試體系下,它已經(jīng)沒(méi)有對手了,甚至連測試題都不夠用了。
即使是撤掉所有工具,讓他“裸考”(無(wú)工具模式),它的準確率也高達 95.0%。作為對比,GPT-5.1 是 94.0%,Claude Sonnet 4.5 是 87.0%。
但這還不是最嚇人的。
真正的屠殺發(fā)生在一個(gè)叫 MathArena Apex 的榜單上。這是數學(xué)競賽的“地獄模式”,里面的題目充滿(mǎn)了復雜的陷阱和極度晦澀的邏輯。在這個(gè)榜單上,包括 GPT-5.1 在內的所有頂尖模型,得分都在 1% 上下徘徊——這說(shuō)明它們基本是在瞎蒙。
而 Gemini 3 Pro 呢?它拿到了 23.4%。
兄弟們,從 1% 到 23.4%,這不僅僅是分數的提升,這是**“不可知”到“可知”的維度跨越**。這證明了 Gemini 3 不再是依靠概率預測下一個(gè)字的“鸚鵡”,它真正具備了深度推理(Reasoning)的能力。
核武器:Deep Think(深度思考模式)
Google 這次還藏了一手絕活——Gemini 3 Deep Think。
你可以把它理解為 Google 版的 o1,但更強、更穩。在這個(gè)模式下,模型會(huì )花更多時(shí)間進(jìn)行思維鏈(CoT)的推導。


然而,Gemini 3 Deep Think 在不使用任何工具的情況下,直接轟出了 41.0% 的高分。
這是什么概念?這意味著(zhù)在純粹的智力攻堅戰中,在處理那些需要層層剝繭、邏輯嵌套極其復雜的博士級難題時(shí),Gemini 3 已經(jīng)甩開(kāi)了競爭對手整整一個(gè)身位。
02. 72.7% vs 3.5%:GPT-5 就像個(gè)“瞎子”
如果說(shuō)數學(xué)能力是“大腦”,那么接下來(lái)的這個(gè)數據,關(guān)乎 AI 的“眼睛”。而這,正是 Google 這一次能做成“真·Agent”的關(guān)鍵勝負手。
在 AI 圈子里,大家一直有個(gè)痛點(diǎn):大模型雖然聰明,但它們對計算機屏幕的理解能力極差。給它截個(gè)圖,它可能認不出哪個(gè)是“提交”按鈕,哪個(gè)是“終端窗口”。
Google 這次專(zhuān)門(mén)針對 Screen Understanding(屏幕理解) 進(jìn)行了魔鬼般的優(yōu)化。
看 ScreenSpot-Pro 這一欄數據:
GPT-5.1 得分:3.5%Gemini 3 Pro 得分:72.7%
炸裂嗎?這是 20 倍 的差距!
這意味著(zhù)什么?
意味著(zhù) GPT-5.1 在面對復雜的操作系統界面時(shí),基本等同于一個(gè)“瞎子”。它只能靠猜,或者靠你把代碼復制出來(lái)喂給它。
而 Gemini 3 Pro 擁有了“像素級的視覺(jué)智能”。它能像人類(lèi)一樣,看懂 IDE 里的報錯紅線(xiàn),看懂瀏覽器渲染出的 UI 錯位,看懂終端里滾動(dòng)的日志。
正是因為有了這雙“眼睛”,Google 才敢在今晚發(fā)布那個(gè)讓所有程序員既興奮又恐懼的產(chǎn)品——Antigravity。
03. Antigravity:程序員的“賈維斯”時(shí)刻
今晚發(fā)布會(huì )的真正高潮,不是模型本身,而是一個(gè)名為 Google Antigravity(反重力) 的全新開(kāi)發(fā)平臺。
之前大家都在吹 Cursor,說(shuō)它是程序員最好的“外骨骼”。Cursor 的邏輯是:你寫(xiě)代碼,AI 幫你補全;你問(wèn)問(wèn)題,AI 幫你回答。

但 Antigravity 的邏輯是:“你喝咖啡,我來(lái)搞定?!?
Google 極其囂張地將其定義為 Agent-first(智能體優(yōu)先) 平臺。
什么是“Vibe Coding”(直覺(jué)編程)?
Google 提出了一個(gè)新詞:Vibe Coding。
意思是,你只需要把握一種“感覺(jué)”(Vibe),一種模糊的想法或意圖,剩下的實(shí)現細節,全部交給 AI。
Antigravity 不再是一個(gè)編輯器,它是一個(gè)擁有完整權限的虛擬員工。它集成了 Gemini 3 的推理大腦,配合 Gemini 2.5 Computer Use 模型(那是它的手),它可以直接控制你的 VS Code,直接在你的 Terminal 里敲命令,直接打開(kāi)你的 Chrome 瀏覽器去測試網(wǎng)頁(yè)。
實(shí)測案例:它真的在“自己干活”
讓我們來(lái)看看 Google 放出的那個(gè)讓 GitHub Copilot 看起來(lái)像上個(gè)世紀產(chǎn)物的演示——“開(kāi)發(fā)一個(gè)航班追蹤 App”。
第一步:任務(wù)下發(fā)
開(kāi)發(fā)者只在對話(huà)框里輸入了一句:“幫我做一個(gè)航班追蹤應用,要有地圖可視化?!?
第二步:多 Agent 分裂(并行開(kāi)發(fā))
Antigravity 瞬間在后臺分裂出多個(gè) Agent:
: 開(kāi)始規劃 API 接口,編寫(xiě) Python 后端代碼。
: 開(kāi)始寫(xiě) React 組件,并調用 Nano Banana 模型生成了所需的 UI 圖標素材。
: 這個(gè)最騷。它直接打開(kāi)了一個(gè)內置的瀏覽器窗口,像真人一樣去點(diǎn)擊頁(yè)面上的按鈕。
第三步:自我糾錯
Agent C 發(fā)現地圖加載不出來(lái),報錯了。注意,這時(shí)候開(kāi)發(fā)者什么都沒(méi)做。
Agent C 迅速截取了報錯的屏幕(得益于那 72.7% 的屏幕理解能力),扔回給 Agent A。
Agent A 秒懂:“哦,API Key 沒(méi)配置?!?
它自己打開(kāi)配置文件,填入 Mock 數據,重啟服務(wù)。
Agent C 刷新頁(yè)面:“通了?!?
整個(gè)過(guò)程,開(kāi)發(fā)者就像是一個(gè) P8 級別的架構師,只是在旁邊看著(zhù),偶爾點(diǎn)個(gè)“Approve(批準)”。

賺錢(qián)能力:它比你更懂商業(yè)
為了證明 Antigravity 不僅僅是個(gè)代碼生成器,而是一個(gè)能解決復雜現實(shí)問(wèn)題的 Agent,Google 搬出了 Vending-Bench 2 測試。
這是一個(gè)模擬經(jīng)營(yíng)自動(dòng)售貨機公司的測試,考察模型在長(cháng)達一年的虛擬時(shí)間里,能否持續做出正確的維護、進(jìn)貨和定價(jià)決策。
結果相當諷刺:
GPT-5.1 忙活了一年,凈資產(chǎn)賺了 $1,473.43。Gemini 3 Pro 忙活了一年,凈資產(chǎn)賺了 $5,478.16。
Gemini 3 不僅代碼寫(xiě)得好,它還沒(méi)忘記這生意的本質(zhì)是賺錢(qián)。它不僅是一個(gè) Coder,更是一個(gè) Manager。
04. 對 SWE-Bench 的爭議:為什么 Google 不在乎 SOTA?
眼尖的朋友可能發(fā)現了,在衡量軟件工程能力的 SWE-Bench Verified 測試中,Gemini 3 Pro 得分 76.2%,雖然極強,但并沒(méi)有超過(guò) Claude Sonnet 4.5 的 77.2% 拿到世界第一(SOTA)。
有人可能會(huì )說(shuō):“你看,Google 還是不行嘛,寫(xiě)代碼還是不如 Claude?!?
大錯特錯。
這正是 Google 的雞賊之處,也是 Antigravity 的可怕之處。SWE-Bench 測的是單一模型解決 GitHub Issue 的能力。但 Google 的思路是:我為什么要用一個(gè)模型去死磕?我用的是系統工程(System 2)。
Antigravity 的核心在于“工具鏈的整合”。
Claude 寫(xiě)代碼也許略強 1%,但 Claude 沒(méi)有原生集成到瀏覽器里去點(diǎn)點(diǎn)點(diǎn),沒(méi)有原生集成到終端里去運行 npm install。
Google 用 76.2% 的模型能力,加上 100% 的系統權限整合,加上 72.7% 的視覺(jué)理解,構建出了一個(gè)**“能跑通最后一公里”**的解決方案。
對于開(kāi)發(fā)者來(lái)說(shuō),我不在乎你的代碼是不是寫(xiě)得最最最優(yōu)雅,我在乎的是當你寫(xiě)完代碼報錯的時(shí)候,能不能自己幫我修好?
在這點(diǎn)上,Gemini 3 + Antigravity 目前是無(wú)敵的。
05. 搜索與生活:AI 終于學(xué)會(huì )“說(shuō)人話(huà)”了
除了硬核的編程,Gemini 3 在消費級產(chǎn)品上的落地也讓人眼前一亮。
我們都受夠了以前 AI 那種“作為一個(gè)大型語(yǔ)言模型,我建議你……”的爹味說(shuō)教。
Google 這次在 Model Card 里專(zhuān)門(mén)寫(xiě)了一句話(huà):"Telling you what you need to hear, not just what you want to hear."(告訴你需要的,而不是你想聽(tīng)的。)
它學(xué)會(huì )了“Read the room”(讀懂空氣)。
AI Mode in Search:不再是給鏈接,而是給答案
Google 搜索正式上線(xiàn)了 AI Mode。這不是簡(jiǎn)單的搜索生成體驗(SGE)升級,這是**“即時(shí)軟件生成”**。
演示中,用戶(hù)搜索“RNA 聚合酶是如何工作的?”
以前的搜索會(huì )給你一堆維基百科和生物學(xué)網(wǎng)站的鏈接。
現在的 Gemini 3,直接在搜索結果頁(yè)里,當場(chǎng)寫(xiě)代碼生成了一個(gè)可交互的 3D 分子模型。你可以用鼠標拖拽這個(gè)模型,看酶是怎么結合的。
注意,這個(gè) 3D 模型不是預先存在網(wǎng)上的,是 Gemini 3 根據你的問(wèn)題,On the fly(實(shí)時(shí)) 敲代碼寫(xiě)出來(lái)的。
多模態(tài)的溫情時(shí)刻
還有一個(gè)案例特別打動(dòng)我。
你想學(xué)習家里長(cháng)輩傳下來(lái)的做菜手藝,但長(cháng)輩只會(huì )寫(xiě)潦草的方言筆記。 你把這些筆記拍照扔給 Gemini 3,再上傳一段長(cháng)輩做菜的視頻。
Gemini 3 不僅能識別那些連人都看不懂的字跡,還能結合視頻動(dòng)作,生成一份圖文并茂、甚至帶有“交互式倒計時(shí)”的電子食譜,順便還能生成一段代碼,把這個(gè)食譜做成一個(gè)精美的網(wǎng)頁(yè)分享給家族群。
這就是 Google 宣稱(chēng)的:Learn anything, Build anything, Plan anything.
06. 護城河:Google 的“鈔能力”與數據霸權
為什么是 Google?為什么不是 OpenAI?為什么不是 Anthropic?
在大模型跑馬拉松的后半程,拼的早已不是單一算法的靈光一閃,而是算力、數據和生態(tài)的厚度。
1. TPU 的硅基霸權:
當全世界都在跪求黃仁勛分配一點(diǎn) H100 顯卡時(shí),Google 坐在自家堆積如山的 TPU v5/v6 礦山上笑而不語(yǔ)。
TPU 是專(zhuān)門(mén)為 Transformer 架構設計的,擁有極高的帶寬內存(HBM)。正是這種算力冗余,讓 Google 敢于把 Gemini 3 的參數規模推向極致,敢于讓 millions of users 同時(shí)使用 Deep Think 這種極度消耗算力的模式。
2. 數據的全維度覆蓋:
Gemini 3 的訓練數據不僅是網(wǎng)上的文本。它吞噬了 YouTube 的長(cháng)視頻(視頻理解能力的來(lái)源)、GitHub 的代碼庫、Google Scholar 的論文,以及——User Data(用戶(hù)數據)。
當然,是在隱私協(xié)議下。但無(wú)可否認,Google 擁有地球上最龐大的用戶(hù)交互數據。它知道用戶(hù)在搜索什么,在點(diǎn)什么,在改什么代碼。這些 Human Feedback(人類(lèi)反饋),是模型“情商”來(lái)源的根本。
07. 結語(yǔ):不要焦慮,去成為那個(gè)“架構師”
看完發(fā)布會(huì ),我看很多技術(shù)群里開(kāi)始哀嚎:“完了,程序員真要失業(yè)了?!?
說(shuō)實(shí)話(huà),看完 Antigravity 的演示,初級“碼農”(Coder)確實(shí)該抖三抖了。如果你的工作只是把產(chǎn)品經(jīng)理的需求翻譯成代碼,那 Gemini 3 干得比你快、比你好、還比你便宜。
Architect(架構師) 不會(huì )死。

Gemini 3 的出現,實(shí)際上是把軟件開(kāi)發(fā)的門(mén)檻再次拉低,同時(shí)把天花板無(wú)限拉高。
以前,你想做一個(gè)“3D 飛船游戲”,你需要學(xué) Unity,學(xué) C#,學(xué) 3D 建模,折騰一個(gè)月。
現在,你只需要在 Antigravity 里告訴 Gemini 3:“我要一個(gè)復古像素風(fēng)的 3D 飛船游戲,要有光影渲染?!?
30 秒后,游戲跑起來(lái)了。
這時(shí)候,什么最重要?
你的品味(Taste): 你知道什么樣的游戲好玩。
你的創(chuàng )意(Idea): 你有別人想不到的點(diǎn)子。
你的判斷力(Judgment): 你知道 AI 給出的方案里哪個(gè)是最好的。
Google 用 Gemini 3 告訴我們:AI 不是來(lái)替代你的,它是來(lái)幫你把腦海中那個(gè)最瘋狂的想法,以光速變成現實(shí)的。
在這個(gè)新時(shí)代,最大的風(fēng)險不是 AI 太強,而是你還抱著(zhù)舊工具不放。

Action!
現在,Gemini 3 已經(jīng)全面上線(xiàn)。Antigravity 雖然還是 Preview,但一定要去申請。
別睡了,起來(lái)試用。因為今晚之后,世界已經(jīng)變了。
(責任編輯:熱點(diǎn))