a级网站,国产亚洲综合,亚洲资源网站,亚洲综合资源,亚洲成人免费在线,成人午夜性a一级毛片美女,a级毛片网

<dl id="3hh1e"></dl>

會(huì )員登錄 - 用戶(hù)注冊 - 設為首頁(yè) - 加入收藏 - 網(wǎng)站地圖谷歌Gemini 3深夜掀翻牌桌：數理滿(mǎn)分、視力碾壓 GPT！

主頁(yè)休閑綜合焦點(diǎn)知識娛樂(lè )熱點(diǎn)時(shí)尚百科

熱門(mén)搜索：

當前位置：首頁(yè) >探索 >谷歌Gemini 3深夜掀翻牌桌：數理滿(mǎn)分、視力碾壓 GPT 正文

谷歌Gemini 3深夜掀翻牌桌：數理滿(mǎn)分、視力碾壓 GPT

時(shí)間：2025-12-01 06:24:54 來(lái)源：素昧平生網(wǎng) 作者：探索閱讀：731次

沒(méi)有漫長(cháng)的谷歌預熱，沒(méi)有虛頭巴腦的深夜數理視力概念片，直接上線(xiàn) Model Card（模型卡片），掀翻直接開(kāi)放 API，牌桌直接端出應用平臺。滿(mǎn)分

如果說(shuō)兩年前的碾壓 Gemini 1.0 是一次倉促的追趕，一年前的谷歌 Gemini 2.0 是一次平起平坐的嘗試，那么今天凌晨的深夜數理視力 Gemini 3.0，給我的掀翻感覺(jué)只有兩個(gè)字：窒息。

這不是牌桌形容詞，是滿(mǎn)分物理意義上的窒息?？赐觊L(cháng)達 60 頁(yè)的碾壓技術(shù)報告和 20 個(gè)演示視頻后，我必須負責任地說(shuō)：Google 這次不裝了，谷歌它不僅掀翻了牌桌，深夜數理視力甚至把房子都拆了。掀翻

連 OpenAI 的掌門(mén)人 Sam Altman，都在半夜罕見(jiàn)給這一波發(fā)布點(diǎn)了個(gè)贊。這個(gè)贊背后的意味，是英雄惜英雄，還是感到脊背發(fā)涼，大家自己細品。

在這篇長(cháng)文中，我將帶大家逐幀拆解 Gemini 3 到底強在哪里，為什么說(shuō)它宣告了“Prompt Engineer（提示詞工程師）”的死亡，以及它如何開(kāi)啟了軟件開(kāi)發(fā)的“自動(dòng)駕駛”時(shí)代。

01. “滿(mǎn)分”的恐怖：當 AI 終于捅穿了人類(lèi)智商的天花板

不僅是強，而是“離譜”。

我們先看一張讓所有數學(xué)家、做題家以及競爭對手都陷入沉默的圖表。

在 AIME 2025（美國數學(xué)邀請賽）的測試中，配合代碼執行（Code Execution），Gemini 3 Pro 的準確率是：100%。

你沒(méi)看錯，是 100%。是滿(mǎn)分。

以前我們在評測 GPT-4 或者 Claude 3.5 的時(shí)候，還在討論“這道幾何題它是不是蒙對的”、“這個(gè)邏輯陷阱它有沒(méi)有跳過(guò)去”。但 Gemini 3 用這個(gè)滿(mǎn)分直接終結了討論：在現有的標準化數學(xué)測試體系下，它已經(jīng)沒(méi)有對手了，甚至連測試題都不夠用了。

即使是撤掉所有工具，讓他“裸考”（無(wú)工具模式），它的準確率也高達 95.0%。作為對比，GPT-5.1 是 94.0%，Claude Sonnet 4.5 是 87.0%。

但這還不是最嚇人的。

真正的屠殺發(fā)生在一個(gè)叫 MathArena Apex 的榜單上。這是數學(xué)競賽的“地獄模式”，里面的題目充滿(mǎn)了復雜的陷阱和極度晦澀的邏輯。在這個(gè)榜單上，包括 GPT-5.1 在內的所有頂尖模型，得分都在 1% 上下徘徊——這說(shuō)明它們基本是在瞎蒙。

而 Gemini 3 Pro 呢？它拿到了 23.4%。

兄弟們，從 1% 到 23.4%，這不僅僅是分數的提升，這是**“不可知”到“可知”的維度跨越**。這證明了 Gemini 3 不再是依靠概率預測下一個(gè)字的“鸚鵡”，它真正具備了深度推理（Reasoning）的能力。

核武器：Deep Think（深度思考模式）

Google 這次還藏了一手絕活——Gemini 3 Deep Think。

你可以把它理解為 Google 版的 o1，但更強、更穩。在這個(gè)模式下，模型會(huì )花更多時(shí)間進(jìn)行思維鏈（CoT）的推導。

然而，Gemini 3 Deep Think 在不使用任何工具的情況下，直接轟出了 41.0% 的高分。

這是什么概念？這意味著(zhù)在純粹的智力攻堅戰中，在處理那些需要層層剝繭、邏輯嵌套極其復雜的博士級難題時(shí)，Gemini 3 已經(jīng)甩開(kāi)了競爭對手整整一個(gè)身位。

02. 72.7% vs 3.5%：GPT-5 就像個(gè)“瞎子”

如果說(shuō)數學(xué)能力是“大腦”，那么接下來(lái)的這個(gè)數據，關(guān)乎 AI 的“眼睛”。而這，正是 Google 這一次能做成“真·Agent”的關(guān)鍵勝負手。

在 AI 圈子里，大家一直有個(gè)痛點(diǎn)：大模型雖然聰明，但它們對計算機屏幕的理解能力極差。給它截個(gè)圖，它可能認不出哪個(gè)是“提交”按鈕，哪個(gè)是“終端窗口”。

Google 這次專(zhuān)門(mén)針對 Screen Understanding（屏幕理解）進(jìn)行了魔鬼般的優(yōu)化。

看 ScreenSpot-Pro 這一欄數據：

GPT-5.1 得分：3.5%Gemini 3 Pro 得分：72.7%

炸裂嗎？這是 20 倍的差距！

這意味著(zhù)什么？

意味著(zhù) GPT-5.1 在面對復雜的操作系統界面時(shí)，基本等同于一個(gè)“瞎子”。它只能靠猜，或者靠你把代碼復制出來(lái)喂給它。

而 Gemini 3 Pro 擁有了“像素級的視覺(jué)智能”。它能像人類(lèi)一樣，看懂 IDE 里的報錯紅線(xiàn)，看懂瀏覽器渲染出的 UI 錯位，看懂終端里滾動(dòng)的日志。

正是因為有了這雙“眼睛”，Google 才敢在今晚發(fā)布那個(gè)讓所有程序員既興奮又恐懼的產(chǎn)品——Antigravity。

03. Antigravity：程序員的“賈維斯”時(shí)刻

今晚發(fā)布會(huì )的真正高潮，不是模型本身，而是一個(gè)名為 Google Antigravity（反重力）的全新開(kāi)發(fā)平臺。

之前大家都在吹 Cursor，說(shuō)它是程序員最好的“外骨骼”。Cursor 的邏輯是：你寫(xiě)代碼，AI 幫你補全；你問(wèn)問(wèn)題，AI 幫你回答。

但 Antigravity 的邏輯是：“你喝咖啡，我來(lái)搞定?！?

Google 極其囂張地將其定義為 Agent-first（智能體優(yōu)先）平臺。

什么是“Vibe Coding”（直覺(jué)編程）？

Google 提出了一個(gè)新詞：Vibe Coding。

意思是，你只需要把握一種“感覺(jué)”（Vibe），一種模糊的想法或意圖，剩下的實(shí)現細節，全部交給 AI。

Antigravity 不再是一個(gè)編輯器，它是一個(gè)擁有完整權限的虛擬員工。它集成了 Gemini 3 的推理大腦，配合 Gemini 2.5 Computer Use 模型（那是它的手），它可以直接控制你的 VS Code，直接在你的 Terminal 里敲命令，直接打開(kāi)你的 Chrome 瀏覽器去測試網(wǎng)頁(yè)。

實(shí)測案例：它真的在“自己干活”

讓我們來(lái)看看 Google 放出的那個(gè)讓 GitHub Copilot 看起來(lái)像上個(gè)世紀產(chǎn)物的演示——“開(kāi)發(fā)一個(gè)航班追蹤 App”。

第一步：任務(wù)下發(fā)

開(kāi)發(fā)者只在對話(huà)框里輸入了一句：“幫我做一個(gè)航班追蹤應用，要有地圖可視化?！?

第二步：多 Agent 分裂（并行開(kāi)發(fā)）

Antigravity 瞬間在后臺分裂出多個(gè) Agent：

Agent A（后端專(zhuān)家）
：開(kāi)始規劃 API 接口，編寫(xiě) Python 后端代碼。
Agent B（前端專(zhuān)家）
：開(kāi)始寫(xiě) React 組件，并調用 Nano Banana 模型生成了所需的 UI 圖標素材。
Agent C（測試專(zhuān)家）
：這個(gè)最騷。它直接打開(kāi)了一個(gè)內置的瀏覽器窗口，像真人一樣去點(diǎn)擊頁(yè)面上的按鈕。

第三步：自我糾錯

Agent C 發(fā)現地圖加載不出來(lái)，報錯了。注意，這時(shí)候開(kāi)發(fā)者什么都沒(méi)做。

Agent C 迅速截取了報錯的屏幕（得益于那 72.7% 的屏幕理解能力），扔回給 Agent A。

Agent A 秒懂：“哦，API Key 沒(méi)配置?！?

它自己打開(kāi)配置文件，填入 Mock 數據，重啟服務(wù)。

Agent C 刷新頁(yè)面：“通了?！?

整個(gè)過(guò)程，開(kāi)發(fā)者就像是一個(gè) P8 級別的架構師，只是在旁邊看著(zhù)，偶爾點(diǎn)個(gè)“Approve（批準）”。

賺錢(qián)能力：它比你更懂商業(yè)

為了證明 Antigravity 不僅僅是個(gè)代碼生成器，而是一個(gè)能解決復雜現實(shí)問(wèn)題的 Agent，Google 搬出了 Vending-Bench 2 測試。

這是一個(gè)模擬經(jīng)營(yíng)自動(dòng)售貨機公司的測試，考察模型在長(cháng)達一年的虛擬時(shí)間里，能否持續做出正確的維護、進(jìn)貨和定價(jià)決策。

結果相當諷刺：

GPT-5.1 忙活了一年，凈資產(chǎn)賺了 $1,473.43。Gemini 3 Pro 忙活了一年，凈資產(chǎn)賺了 $5,478.16。

Gemini 3 不僅代碼寫(xiě)得好，它還沒(méi)忘記這生意的本質(zhì)是賺錢(qián)。它不僅是一個(gè) Coder，更是一個(gè) Manager。

04. 對 SWE-Bench 的爭議：為什么 Google 不在乎 SOTA？

眼尖的朋友可能發(fā)現了，在衡量軟件工程能力的 SWE-Bench Verified 測試中，Gemini 3 Pro 得分 76.2%，雖然極強，但并沒(méi)有超過(guò) Claude Sonnet 4.5 的 77.2% 拿到世界第一（SOTA）。

有人可能會(huì )說(shuō)：“你看，Google 還是不行嘛，寫(xiě)代碼還是不如 Claude?！?

大錯特錯。

這正是 Google 的雞賊之處，也是 Antigravity 的可怕之處。SWE-Bench 測的是單一模型解決 GitHub Issue 的能力。但 Google 的思路是：我為什么要用一個(gè)模型去死磕？我用的是系統工程（System 2）。

Antigravity 的核心在于“工具鏈的整合”。

Claude 寫(xiě)代碼也許略強 1%，但 Claude 沒(méi)有原生集成到瀏覽器里去點(diǎn)點(diǎn)點(diǎn)，沒(méi)有原生集成到終端里去運行 npm install。

Google 用 76.2% 的模型能力，加上 100% 的系統權限整合，加上 72.7% 的視覺(jué)理解，構建出了一個(gè)**“能跑通最后一公里”**的解決方案。

對于開(kāi)發(fā)者來(lái)說(shuō)，我不在乎你的代碼是不是寫(xiě)得最最最優(yōu)雅，我在乎的是當你寫(xiě)完代碼報錯的時(shí)候，能不能自己幫我修好？

在這點(diǎn)上，Gemini 3 + Antigravity 目前是無(wú)敵的。

05. 搜索與生活：AI 終于學(xué)會(huì )“說(shuō)人話(huà)”了

除了硬核的編程，Gemini 3 在消費級產(chǎn)品上的落地也讓人眼前一亮。

我們都受夠了以前 AI 那種“作為一個(gè)大型語(yǔ)言模型，我建議你……”的爹味說(shuō)教。

Google 這次在 Model Card 里專(zhuān)門(mén)寫(xiě)了一句話(huà)："Telling you what you need to hear, not just what you want to hear."（告訴你需要的，而不是你想聽(tīng)的。）

它學(xué)會(huì )了“Read the room”（讀懂空氣）。

AI Mode in Search：不再是給鏈接，而是給答案

Google 搜索正式上線(xiàn)了 AI Mode。這不是簡(jiǎn)單的搜索生成體驗（SGE）升級，這是**“即時(shí)軟件生成”**。

演示中，用戶(hù)搜索“RNA 聚合酶是如何工作的？”

以前的搜索會(huì )給你一堆維基百科和生物學(xué)網(wǎng)站的鏈接。

現在的 Gemini 3，直接在搜索結果頁(yè)里，當場(chǎng)寫(xiě)代碼生成了一個(gè)可交互的 3D 分子模型。你可以用鼠標拖拽這個(gè)模型，看酶是怎么結合的。

注意，這個(gè) 3D 模型不是預先存在網(wǎng)上的，是 Gemini 3 根據你的問(wèn)題，On the fly（實(shí)時(shí)）敲代碼寫(xiě)出來(lái)的。

多模態(tài)的溫情時(shí)刻

還有一個(gè)案例特別打動(dòng)我。

你想學(xué)習家里長(cháng)輩傳下來(lái)的做菜手藝，但長(cháng)輩只會(huì )寫(xiě)潦草的方言筆記。你把這些筆記拍照扔給 Gemini 3，再上傳一段長(cháng)輩做菜的視頻。

Gemini 3 不僅能識別那些連人都看不懂的字跡，還能結合視頻動(dòng)作，生成一份圖文并茂、甚至帶有“交互式倒計時(shí)”的電子食譜，順便還能生成一段代碼，把這個(gè)食譜做成一個(gè)精美的網(wǎng)頁(yè)分享給家族群。

這就是 Google 宣稱(chēng)的：Learn anything, Build anything, Plan anything.

06. 護城河：Google 的“鈔能力”與數據霸權

為什么是 Google？為什么不是 OpenAI？為什么不是 Anthropic？

在大模型跑馬拉松的后半程，拼的早已不是單一算法的靈光一閃，而是算力、數據和生態(tài)的厚度。

1. TPU 的硅基霸權：

當全世界都在跪求黃仁勛分配一點(diǎn) H100 顯卡時(shí)，Google 坐在自家堆積如山的 TPU v5/v6 礦山上笑而不語(yǔ)。

TPU 是專(zhuān)門(mén)為 Transformer 架構設計的，擁有極高的帶寬內存（HBM）。正是這種算力冗余，讓 Google 敢于把 Gemini 3 的參數規模推向極致，敢于讓 millions of users 同時(shí)使用 Deep Think 這種極度消耗算力的模式。

2. 數據的全維度覆蓋：

Gemini 3 的訓練數據不僅是網(wǎng)上的文本。它吞噬了 YouTube 的長(cháng)視頻（視頻理解能力的來(lái)源）、GitHub 的代碼庫、Google Scholar 的論文，以及——User Data（用戶(hù)數據）。

當然，是在隱私協(xié)議下。但無(wú)可否認，Google 擁有地球上最龐大的用戶(hù)交互數據。它知道用戶(hù)在搜索什么，在點(diǎn)什么，在改什么代碼。這些 Human Feedback（人類(lèi)反饋），是模型“情商”來(lái)源的根本。

07. 結語(yǔ)：不要焦慮，去成為那個(gè)“架構師”

看完發(fā)布會(huì )，我看很多技術(shù)群里開(kāi)始哀嚎：“完了，程序員真要失業(yè)了?！?

說(shuō)實(shí)話(huà)，看完 Antigravity 的演示，初級“碼農”（Coder）確實(shí)該抖三抖了。如果你的工作只是把產(chǎn)品經(jīng)理的需求翻譯成代碼，那 Gemini 3 干得比你快、比你好、還比你便宜。

Architect（架構師）不會(huì )死。

Gemini 3 的出現，實(shí)際上是把軟件開(kāi)發(fā)的門(mén)檻再次拉低，同時(shí)把天花板無(wú)限拉高。

以前，你想做一個(gè)“3D 飛船游戲”，你需要學(xué) Unity，學(xué) C#，學(xué) 3D 建模，折騰一個(gè)月。

現在，你只需要在 Antigravity 里告訴 Gemini 3：“我要一個(gè)復古像素風(fēng)的 3D 飛船游戲，要有光影渲染?！?

30 秒后，游戲跑起來(lái)了。

這時(shí)候，什么最重要？

你的品味（Taste）：你知道什么樣的游戲好玩。
你的創(chuàng )意（Idea）：你有別人想不到的點(diǎn)子。
你的判斷力（Judgment）：你知道 AI 給出的方案里哪個(gè)是最好的。

Google 用 Gemini 3 告訴我們：AI 不是來(lái)替代你的，它是來(lái)幫你把腦海中那個(gè)最瘋狂的想法，以光速變成現實(shí)的。

在這個(gè)新時(shí)代，最大的風(fēng)險不是 AI 太強，而是你還抱著(zhù)舊工具不放。

Action！

現在，Gemini 3 已經(jīng)全面上線(xiàn)。Antigravity 雖然還是 Preview，但一定要去申請。

別睡了，起來(lái)試用。因為今晚之后，世界已經(jīng)變了。

(責任編輯：熱點(diǎn))

上一篇：美媒稱(chēng)德國秘密制訂對俄作戰計劃
下一篇：樂(lè )弈場(chǎng)第16屆月賽如期而至張弘弢榮獲雙冠王

相關(guān)內容

最新內容

推薦內容

熱點(diǎn)內容

-- 友情鏈接 --

<input id="yt3vd"></input>

<center id="yt3vd"></center>