網易首頁 > 網易號 > 正文申請入駐

1B小模型超越2B對手，寫訓練框架的竟是AI自己

2026-05-30 17:19:05　來源: 萬物皆可科普2啊

北京舉報

分享至

你可能很難想象，一個只有1B參數的小模型，能把參數是自己兩倍的對手甩在身后。更讓你意外的是，訓練這個模型所用的預訓練框架，并不是哪個人類工程師一行行敲出來的——它是由另一個AI親手寫的。最近，面壁智能做了一件聽起來有點科幻的事：讓AI自己動手寫了一套大模型預訓練框架，然后用這套框架訓練出了一個全新的小尺寸模型。這套AI寫出來的框架叫ForgeTrain，訓練出的模型叫MiniCPM5?1B。兩者像一個自循環的閉環，把“AI制造AI”從概念推到了可展示、可評測、可復現的工程樣本。

過去行業里喊“AI造AI”喊了很久，但基本都停留在寫個函數、改個腳本、調一組參數的層面。面壁智能這次直接邁進了大模型研發最核心的基礎設施層，讓AI端到端產出了下一代模型。他們把這件事劃分成了L1到L5五個階段：L1是AI只給建議，人類執行一切，比如你熟悉的Github Copilot；L2是AI輔助研發，完成具體環節，比如Cursor或Claude Code；L3是AI端到端產出下一代模型；L4是AI遞歸自改進，改造訓練管線和自身；L5是終極形態。ForgeTrain對應的是L3?L4的階段——它還沒有到AI自己發明下一代Transformer的程度，但已經可以手寫一套生產級的預訓練框架，然后把一個能用的模型訓練出來。

預訓練框架到底是什么？說人話就是，大模型訓練的時候不能直接拿一堆GPU胡亂算，而要依賴一套底層的軟件系統，去協調數據怎么切、梯度怎么傳、參數怎么更新。這就像你要蓋一棟摩天大樓，得先搭好施工的腳手架和塔吊。過去，全世界的這類腳手架都是人類程序員一磚一瓦壘起來的——英偉達的Megatron、Meta的Fairseq、谷歌的TensorFlow，莫不如此。而ForgeTrain這套腳手架，是AI一筆一筆自己畫的。

那么問題來了，AI怎么知道自己寫的預訓練框架對不對、快不快？面壁智能設計了一個叫作Harness的自動化考場。它的原理不復雜，但很巧妙：先從現有預訓練框架里采集關鍵數據，形成一套評測標準和Harness；然后讓AI在Harness里一輪一輪生成代碼、運行測試、拿到反饋，再繼續修改。整個過程完全自動，不需要人類插手。AI先要能寫出一個二進制完全一致、功能與參考框架對齊的版本，接著打破二進制一致的限制，往更優的方向迭代優化。最終的結果是，ForgeTrain不僅做到了和英偉達Megatron功能對齊，而且在相同的硬件條件下，訓練速度還要快出10%。

別小看這10%。同樣的算力，用ForgeTrain可以省下十分之一的訓練時間和成本。而且這種加速還跨平臺——在華為昇騰上預訓練MiniCPM5?1B的時候，ForgeTrain相比昇騰原廠的框架也交出了10%的加速。對于動輒燒掉成千上萬GPU小時的預訓練來說，10%就是一筆巨大的能量和資金節省。

ForgeTrain背后是一套新的軟件編程范式，面壁智能把它叫作Forge Engineering。你可以這樣理解它的思路。傳統的軟件工程追求通用框架，一套代碼要兼容各種模型、各種硬件、各種訓練任務。好處是復用，代價是“均碼衣服”——誰都能穿，但誰都不那么合身。Forge Engineering則反過來：既然AI寫代碼越來越快、成本越來越低，那為什么還要死守通用？完全可以讓AI針對每一個具體的模型、具體的硬件、具體的任務，現場鍛造一套專用代碼。這就像從工業化批量生產退回了高級定制，而那個永遠不知疲倦的頂級工匠就是AI。

而這套AI定制工廠鍛壓出的第一個產品——MiniCPM5?1B，本身就是為“合身”而生。它的參數量只有1B，在FP16精度下權重體積約2GB，適合GPU、高端筆記本和服務器；再壓到INT4或Q4精度，體積能縮到0.5GB左右，可以直接塞進手機、平板、車機里。對端側應用來說，小本身就是最大的友好。正因為足夠小，MiniCPM5?1B可以常駐在你的電腦桌面上，變成一個隨時響應的AI小寵物。你可以跟它聊天，讓它根據上下文接話，也可以給它設置不同的人格，像一個輕量級的桌面精靈。

這只是趣味玩法，真正體現能力的地方在評測。在綜合知識、數學推理、代碼推理、工具調用等方向上，MiniCPM5?1B拿出了面向同尺寸端側模型的硬核成績。在國際知名榜單AA?Index上，它一口氣超越了所有2B參數以下的模型。尤其在與3個月前發布的Qwen3.5?2B對比時，MiniCPM5?1B不僅效果更優，參數量還少了一半。公開評測中，它的平均分為42.57，在MMLU?Pro、MMLU?Redux、AIME?2025、AIME?2026、BFCL?v4等榜單上也給出了對應成績。

這些數字指向一個越來越清晰的趨勢：小模型的智能密度正在暴漲。按照面壁智能的觀察，大模型的智能密度大約每3.5個月就翻一番。這意味著模型能力提升，不再只靠把參數規模越堆越大。更小的體積，可以承載更高的智能濃度。MiniCPM5?1B想證明的正是這一點：1B規模的小模型在參數規模、部署成本和實際能力之間重新找到了平衡點，成為一個更能打的端側模型。

光有模型權重還不夠，能不能被開發者用起來，關鍵看工具鏈。MiniCPM5?1B提供了模型、推理、微調相關的一整套

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.