xAI 推出 Grok 3 Beta,並開放試用
Elon Musk 稱這是最聰明的 AI Grok3 是一款由 xAI 開發的先進 AI 聊天機器人,於 2025 年 2 月發布,旨在作為個人助理,提供網頁搜索和其他功能以準確回答用戶問題。這款聊天機器人由 Elon Musk 創建的 xAI 公司開發,作為其 AI 技術進展的一部分,旨在與其他主要 AI 模型競爭,如 OpenAI 的 GPT-4o 和 Google 的 Gemini。 開發背景與發布 根據多個新聞來源和 xAI 的官方博客,Grok3 於 2025 年 2 月發布,標誌著 AI 技術的重大進展。它的發布正值 AI 競爭加劇的關鍵時刻,xAI 試圖與 DeepSeek、OpenAI 和 Google 等競爭對手競爭。發布後,Grok3 立即向 X 的 Premium+ 訂閱者推出,並通過移動應用和 Grok 網站 提供新的 SuperGrok 訂閱層級。 訓練與計算能力 Grok3 的訓練在 Colossus 超級集群上進行,使用了比前代模型多 10 倍的計算能力。這一訓練過程包括對法院案件檔案等擴展數據集的處理,使其在推理、數學、編碼、世界知識和指令遵循任務上表現顯著提升。據 xAI 的博客稱,Grok3 的預訓練於 2025 年 1 月初完成,顯示出其開發的快速進展。 推理與性能基準 Grok3 的核心優勢在於其強大的推理能力,通過大規模強化學習(RL)精煉,能夠進行秒級到分鐘級的思考,糾正錯誤並探索替代方案以提供準確答案。在聊天機器人競技場中,Grok3 取得了 1402 的 Elo 分數,顯示出其在實世界用戶偏好中的領先表現。 其性能在多個基準測試中也表現優異,以下是與其他主要模型的比較表: 基準測試 Grok 3 Beta Grok 3 mini Beta GPT-4o Gemini 2.0 Pro DeepSeek-V3 Claude 3.5 Sonnet AIME’24 52.2% 39.7% 9.3% — 39.2% 16.0% GPQA 75.4% 66.2% 53.6% 64.7% 59.1% 65.0% LCB 57.0% 41.5% 32.3% 36.0% 33.1% 40.2% MMLU-pro 79.9% 78.9% 72.6% 79.1% 75.9% 78.0% LOFT (128k) 83.3% 83....