你可能很難想象,一個只有1B參數的小模型,能把參數是自己兩倍的對手甩在身后。更讓你意外的是,訓練這個模型所用的預訓練框架,并不是哪個人類工程師一行行敲出來的——它是由另一個AI親手寫的。最近,面壁智能做了一件聽起來有點科幻的事:讓AI自己動手寫了一套大模型預訓練框架,然后用這套框架訓練出了一個全新的小尺寸模型。這套AI寫出來的框架叫ForgeTrain,訓練出的模型叫MiniCPM5?1B。兩者像一個自循環的閉環,把“AI制造AI”從概念推到了可展示、可評測、可復現的工程樣本。
過去行業里喊“AI造AI”喊了很久,但基本都停留在寫個函數、改個腳本、調一組參數的層面。面壁智能這次直接邁進了大模型研發最核心的基礎設施層,讓AI端到端產出了下一代模型。他們把這件事劃分成了L1到L5五個階段:L1是AI只給建議,人類執行一切,比如你熟悉的Github Copilot;L2是AI輔助研發,完成具體環節,比如Cursor或Claude Code;L3是AI端到端產出下一代模型;L4是AI遞歸自改進,改造訓練管線和自身;L5是終極形態。ForgeTrain對應的是L3?L4的階段——它還沒有到AI自己發明下一代Transformer的程度,但已經可以手寫一套生產級的預訓練框架,然后把一個能用的模型訓練出來。
![]()
預訓練框架到底是什么?說人話就是,大模型訓練的時候不能直接拿一堆GPU胡亂算,而要依賴一套底層的軟件系統,去協調數據怎么切、梯度怎么傳、參數怎么更新。這就像你要蓋一棟摩天大樓,得先搭好施工的腳手架和塔吊。過去,全世界的這類腳手架都是人類程序員一磚一瓦壘起來的——英偉達的Megatron、Meta的Fairseq、谷歌的TensorFlow,莫不如此。而ForgeTrain這套腳手架,是AI一筆一筆自己畫的。
那么問題來了,AI怎么知道自己寫的預訓練框架對不對、快不快?面壁智能設計了一個叫作Harness的自動化考場。它的原理不復雜,但很巧妙:先從現有預訓練框架里采集關鍵數據,形成一套評測標準和Harness;然后讓AI在Harness里一輪一輪生成代碼、運行測試、拿到反饋,再繼續修改。整個過程完全自動,不需要人類插手。AI先要能寫出一個二進制完全一致、功能與參考框架對齊的版本,接著打破二進制一致的限制,往更優的方向迭代優化。最終的結果是,ForgeTrain不僅做到了和英偉達Megatron功能對齊,而且在相同的硬件條件下,訓練速度還要快出10%。
別小看這10%。同樣的算力,用ForgeTrain可以省下十分之一的訓練時間和成本。而且這種加速還跨平臺——在華為昇騰上預訓練MiniCPM5?1B的時候,ForgeTrain相比昇騰原廠的框架也交出了10%的加速。對于動輒燒掉成千上萬GPU小時的預訓練來說,10%就是一筆巨大的能量和資金節省。
ForgeTrain背后是一套新的軟件編程范式,面壁智能把它叫作Forge Engineering。你可以這樣理解它的思路。傳統的軟件工程追求通用框架,一套代碼要兼容各種模型、各種硬件、各種訓練任務。好處是復用,代價是“均碼衣服”——誰都能穿,但誰都不那么合身。Forge Engineering則反過來:既然AI寫代碼越來越快、成本越來越低,那為什么還要死守通用?完全可以讓AI針對每一個具體的模型、具體的硬件、具體的任務,現場鍛造一套專用代碼。這就像從工業化批量生產退回了高級定制,而那個永遠不知疲倦的頂級工匠就是AI。
而這套AI定制工廠鍛壓出的第一個產品——MiniCPM5?1B,本身就是為“合身”而生。它的參數量只有1B,在FP16精度下權重體積約2GB,適合GPU、高端筆記本和服務器;再壓到INT4或Q4精度,體積能縮到0.5GB左右,可以直接塞進手機、平板、車機里。對端側應用來說,小本身就是最大的友好。正因為足夠小,MiniCPM5?1B可以常駐在你的電腦桌面上,變成一個隨時響應的AI小寵物。你可以跟它聊天,讓它根據上下文接話,也可以給它設置不同的人格,像一個輕量級的桌面精靈。
這只是趣味玩法,真正體現能力的地方在評測。在綜合知識、數學推理、代碼推理、工具調用等方向上,MiniCPM5?1B拿出了面向同尺寸端側模型的硬核成績。在國際知名榜單AA?Index上,它一口氣超越了所有2B參數以下的模型。尤其在與3個月前發布的Qwen3.5?2B對比時,MiniCPM5?1B不僅效果更優,參數量還少了一半。公開評測中,它的平均分為42.57,在MMLU?Pro、MMLU?Redux、AIME?2025、AIME?2026、BFCL?v4等榜單上也給出了對應成績。
這些數字指向一個越來越清晰的趨勢:小模型的智能密度正在暴漲。按照面壁智能的觀察,大模型的智能密度大約每3.5個月就翻一番。這意味著模型能力提升,不再只靠把參數規模越堆越大。更小的體積,可以承載更高的智能濃度。MiniCPM5?1B想證明的正是這一點:1B規模的小模型在參數規模、部署成本和實際能力之間重新找到了平衡點,成為一個更能打的端側模型。
光有模型權重還不夠,能不能被開發者用起來,關鍵看工具鏈。MiniCPM5?1B提供了模型、推理、微調相關的一整套
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.