<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛,百度開源拿下全球第一!作者疑似DeepSeek出走大神

      0
      分享至


      新智元報(bào)道


      【新智元導(dǎo)讀】百度開源Unlimited OCR!3B參數(shù)500M激活,一口氣讀完40頁不失憶。作者疑似DeepSeek出走的OCR核心大神。

      就在剛剛,百度悶聲干了票大的!

      最新開源的Unlimited OCR,總參數(shù)3B,實(shí)際激活僅500M——放在大模型時(shí)代幾乎是個(gè)零頭。

      但就是這個(gè)小到離譜的模型,在OmniDocBench v1.5上拿下93.23%的綜合分,v1.6更是達(dá)到93.92%,直接刷新了端到端SOTA。

      什么概念?v1.5同臺競技的選手里,235B的Qwen3-VL拿了89.15,72B的Qwen2.5-VL拿了87.02,不公布參數(shù)量的Gemini-2.5 Pro也只有88.03。激活參數(shù)不到它們零頭的選手,反手把它們?nèi)α恕?/p>

      更離譜的是,它還干了件之前沒有OCR模型干成過的事:一口氣解析40多頁文檔,不失憶、不降速,一次推理從第一頁讀到最后一頁。

      目前,模型和代碼都已同步上線GitHub和HuggingFace。


      GitHub:

      https://github.com/baidu/Unlimited-OCR

      Hugging Face:

      https://huggingface.co/baidu/Unlimited-OCR

      為什么所有模型都在「逐頁失憶」

      說到OCR,現(xiàn)在模型笨得讓人意外。

      它們會(huì)把一件原本連貫的長程任務(wù),硬生生切成幾十個(gè)互不相干的小任務(wù),再靠一個(gè)外部調(diào)度器把結(jié)果勉強(qiáng)縫起來。就像在跑一個(gè)for循環(huán),處理完一頁就把記憶清空,再從頭開始下一頁。

      能用,但本質(zhì)上只是工程的權(quán)宜之計(jì),離真正的智能還差著一大截。

      究其原因在于,隨著輸出越來越長,標(biāo)準(zhǔn)注意力機(jī)制下的KV緩存像滾雪球一樣瘋漲——內(nèi)存吃不消,速度越來越慢。

      這才是逼著所有模型逐頁處理、頻頻「失憶」的真正元兇。


      但人類抄書,從來不是這么干的。

      我們會(huì)維持一種連續(xù)的認(rèn)知狀態(tài)——眼睛盯著三個(gè)點(diǎn):原書、剛寫下的一小段、即將要寫的下一個(gè)字。

      早些寫過的內(nèi)容慢慢淡出腦海,最近的上下文用來盯住當(dāng)前進(jìn)度。

      這種能力有個(gè)很妙的名字:「軟遺忘」(soft forgetting)。

      正是靠著這種「該忘就忘」的本事,人才能在極低認(rèn)知負(fù)荷下扛住超長任務(wù)。比如,抄一本書、譯幾百頁、連續(xù)轉(zhuǎn)錄數(shù)小時(shí)音頻。

      百度想做的,就是把人類這種「原文全局可見、記憶只保留最近幾行」的注意力方式,搬進(jìn)模型里。讓OCR告別失憶。

      R-SWA:把「抄書的秘密」寫進(jìn)注意力

      順著這個(gè)思路,百度提出了報(bào)告里的核心技術(shù)——參考滑動(dòng)窗口注意力(Reference Sliding Window Attention,R-SWA),精確對應(yīng)前面說的人抄書時(shí)的注意力模式。

      具體來說,每生成一個(gè)token,R-SWA都會(huì)去看全部「參考token」,也就是整張圖像的視覺token和提示詞,保證模型始終「看得見」完整原文。

      但在輸出這一側(cè),它只回看前面128個(gè)token,就像你抄書時(shí)只瞄一眼剛寫的那幾行。

      落到實(shí)現(xiàn)上,Unlimited OCR把所有注意力層全換成R-SWA,從而把KV緩存變成一個(gè)固定容量的隊(duì)列。

      每生成一個(gè)新token,最老的那個(gè)就被擠出去,大小始終不變。輸出1萬個(gè)token和10萬個(gè)token,內(nèi)存占用是完全一樣的。


      報(bào)告中Flash Attention v3的延遲測試也一目了然。

      DeepSeek OCR的標(biāo)準(zhǔn)MHA隨著解碼步數(shù)增加,每步耗時(shí)穩(wěn)步攀升;而Unlimited OCR的R-SWA從頭到尾一條平線,紋絲不動(dòng)。


      一次推理,讀完幾十頁

      這里還有一個(gè)至關(guān)重要的配合:DeepEncoder。

      這個(gè)最初在DeepSeek OCR中登場的編碼器,能把一張1024×1024的PDF頁面壓縮到僅僅256個(gè)視覺token,壓縮率高達(dá)16倍。

      而且由于視覺token在R-SWA下不參與狀態(tài)轉(zhuǎn)移,因此無論文檔多長,圖像信息永遠(yuǎn)清清楚楚,不會(huì)隨解碼過程逐漸退化。

      配合DeepEncoder的極致壓縮和R-SWA的恒定緩存,Unlimited OCR在標(biāo)準(zhǔn)的32K上下文里,一次前向推理就能轉(zhuǎn)錄數(shù)十頁文檔。

      結(jié)果顯示,同時(shí)輸入20頁文檔,轉(zhuǎn)錄與原文逐字比對的編輯距離僅0.057;即便輸入40頁以上,依然控制在0.11以下,衡量重復(fù)輸出的Distinct-35高達(dá)97%——幾十頁一口氣轉(zhuǎn)錄,幾乎沒有復(fù)讀。


      在OmniDocBench v1.5上,Unlimited OCR拿到93.23%的綜合得分,比DeepSeek OCR的87.01%高出6.22個(gè)百分點(diǎn)。

      文本編輯距離從0.073降到0.038,公式CDM從83.37飆到92.61,表格TEDS從84.97升至90.93。

      在更新的v1.6上,同樣以93.92%拿下端到端SOTA。


      效率方面同樣碾壓。

      輸出達(dá)到6144個(gè)token時(shí),Unlimited OCR的TPS是7847,DeepSeek OCR已經(jīng)掉到5822,差距高達(dá)35%。


      別忘了,這是一個(gè)500M激活的MoE小模型,在DeepSeek OCR基礎(chǔ)上僅繼續(xù)訓(xùn)練4000步的結(jié)果。

      投入不算大,但效果拔群——R-SWA對解析任務(wù)是一種真正的「免費(fèi)午餐」。

      九大文檔類型的細(xì)分對比中,PPT、論文、雜志、報(bào)紙無一短板,Unlimited OCR在文本和閱讀順序兩項(xiàng)上全面超越DeepSeek OCR,且在七個(gè)類別中領(lǐng)先DeepSeek OCR 2。

      一位神秘的技術(shù)總監(jiān)

      跑分說完了。但這份報(bào)告真正有意思的地方,是行文方式。

      從副標(biāo)題的語氣到技術(shù)的敘事,讀過DeepSeek那幾份技術(shù)報(bào)告的人,幾頁下來就會(huì)覺得似曾相識。

      末尾還斷言R-SWA是通用解析機(jī)制,而OCR只是第一站。

      一篇OCR報(bào)告,硬是寫出了探索通用智能的味道。

      然后,是那個(gè)最讓人在意的地方——作者名單。

      核心貢獻(xiàn)者三位:Youyang Yin,Huanhuan Liu*(項(xiàng)目leader),YY?(技術(shù)總監(jiān))。

      兩個(gè)人用真名,唯獨(dú)技術(shù)總監(jiān)掛了個(gè)兩字母縮寫。有點(diǎn)意思。

      雖然論文沒多說,但GitHub致謝欄卻把線索遞了過來:Deepseek-OCR和Deepseek-OCR-2,排在致謝前兩位。


      順著這條線往回找。DeepSeek OCR從一代到二代,核心作者始終三個(gè)人:魏浩然、孫耀峰、李宇琨。同一支小隊(duì)伍,從無到有。

      今年4月DeepSeek發(fā)V4,魏浩然名字后面多了星號——已離職。

      三個(gè)人里,只有他已經(jīng)公開離開。

      再看履歷。魏浩然,階躍星辰出身,主導(dǎo)開發(fā)了端到端OCR最早跑通的開源標(biāo)桿GOT-OCR2.0。到DeepSeek后,更是一手搭起整條OCR線,DeepEncoder、MoE解碼器,一代到二代都是他的團(tuán)隊(duì)。

      能力、時(shí)間線、署名方式,三條都對得上。

      國內(nèi)OCR圈不大,能做出R-SWA這種級別突破、還對DeepSeek OCR架構(gòu)有「親手做過」級別熟悉的人,一只手?jǐn)?shù)得過來。魏浩然是其中最顯眼的那一個(gè)。

      如此一來,YY大概率就是魏浩然了。

      百度,依然能打

      過去幾年,PaddleOCR幾乎是國產(chǎn)OCR的代名詞。開源、輕量,產(chǎn)業(yè)落地最廣——從手機(jī)端到服務(wù)器到嵌入式設(shè)備,覆蓋了最主流的應(yīng)用場景。

      不過之前百度更側(cè)重產(chǎn)業(yè)應(yīng)用。穩(wěn)定性、部署成本、場景覆蓋是強(qiáng)項(xiàng),「用前沿研究理念重塑OCR范式」這個(gè)方向并非其敘事重點(diǎn)。

      而魏浩然做的,恰好就是這件事。

      從GOT-OCR2.0的端到端一次解析,到DeepSeek-OCR的視覺壓縮,再到R-SWA——先想清楚OCR應(yīng)該長什么樣,再做出來。

      一邊是產(chǎn)業(yè)落地最成熟、場景覆蓋最廣的工程底座;一邊是端到端長程解析最前沿的研究品味。兩者疊加,補(bǔ)齊的不只是一個(gè)技術(shù)短板,而是一種「既能大規(guī)模鋪開、又能持續(xù)引領(lǐng)范式」的完整能力。

      百度今年把AIDU人才計(jì)劃升級為集團(tuán)級項(xiàng)目、薪酬不設(shè)上限。對一個(gè)想把研究做到落地的人來說,百度多年鋪下來的產(chǎn)業(yè)底座,比單純的高薪更有說服力。

      魏浩然如果真的選了百度,邏輯就很清楚——這里有最成熟的產(chǎn)業(yè)底座,也有把研究推到前沿的空間和資源。

      如果他真的把R-SWA推廣到ASR和翻譯,那百度手里握著的就不只是一個(gè)OCR模型,而是一套通用長程解析的技術(shù)框架。

      論文展望里還留了一句:下一步,上下文窗口訓(xùn)到128K,構(gòu)建prefill pool讓模型學(xué)會(huì)自動(dòng)翻頁。

      如果做到了,OCR就不再是識別一頁文字,而是理解一整本書。

      參考資料:

      https://github.com/baidu/Unlimited-OCR

      https://huggingface.co/baidu/Unlimited-OCR

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      退休要變天?若不出意外的話,2026年延遲退休將迎來4大轉(zhuǎn)變

      退休要變天?若不出意外的話,2026年延遲退休將迎來4大轉(zhuǎn)變

      阿萊美食匯
      2026-06-24 08:37:56
      35頁PPT瘋傳:洛陽女子1女談3男,每天卡時(shí)間,都已談婚論嫁

      35頁PPT瘋傳:洛陽女子1女談3男,每天卡時(shí)間,都已談婚論嫁

      烈史
      2026-05-30 13:23:41
      稀土原來是我們農(nóng)村的常見物

      稀土原來是我們農(nóng)村的常見物

      蜉蝣說
      2026-06-23 18:04:44
      梅西第三場必須輪休,兩大替身誰會(huì)首發(fā)?

      梅西第三場必須輪休,兩大替身誰會(huì)首發(fā)?

      小潌拍客在北漂
      2026-06-24 09:12:29
      《中餐廳10》里昆凌的5個(gè)圈粉細(xì)節(jié),才是她贏下周杰倫的全部籌碼

      《中餐廳10》里昆凌的5個(gè)圈粉細(xì)節(jié),才是她贏下周杰倫的全部籌碼

      喵喵娛樂團(tuán)
      2026-06-23 16:34:00
      蔡和森向警予之子:你想不想見出賣我母親和夏明翰烈士的大叛徒?

      蔡和森向警予之子:你想不想見出賣我母親和夏明翰烈士的大叛徒?

      水木史記
      2026-06-24 03:52:17
      對俄總攻開始?32國接到通知,德國已介入,澤連斯基當(dāng)眾下死命令

      對俄總攻開始?32國接到通知,德國已介入,澤連斯基當(dāng)眾下死命令

      快看張同學(xué)
      2026-06-23 11:33:13
      “開屏廣告沒了!”網(wǎng)友反饋稱百度地圖、高德地圖、網(wǎng)易云音樂等APP均已取消

      “開屏廣告沒了!”網(wǎng)友反饋稱百度地圖、高德地圖、網(wǎng)易云音樂等APP均已取消

      都市快報(bào)橙柿互動(dòng)
      2026-06-24 09:14:06
      注意!南浦大橋即將全封閉施工三個(gè)月,交通分流方案公布→

      注意!南浦大橋即將全封閉施工三個(gè)月,交通分流方案公布→

      新浪財(cái)經(jīng)
      2026-06-23 21:35:12
      別吹梅西了!阿根廷隱藏核心徹底爆發(fā),斯卡洛尼離不開他

      別吹梅西了!阿根廷隱藏核心徹底爆發(fā),斯卡洛尼離不開他

      瀾歸序
      2026-06-24 05:57:33
      東南亞人口拐賣最新套路:20萬一個(gè)人,落地就被賣進(jìn)園區(qū)!

      東南亞人口拐賣最新套路:20萬一個(gè)人,落地就被賣進(jìn)園區(qū)!

      命運(yùn)自認(rèn)幽默
      2026-06-22 01:28:36
      沉默96小時(shí)后,臺當(dāng)局公開道歉,蔣萬安開始行動(dòng),兩岸已簽約成功

      沉默96小時(shí)后,臺當(dāng)局公開道歉,蔣萬安開始行動(dòng),兩岸已簽約成功

      鐵錘簡科
      2026-06-24 14:10:05
      世界杯歷史性梅羅對決,阿根廷vs葡萄牙,C羅首次表態(tài)

      世界杯歷史性梅羅對決,阿根廷vs葡萄牙,C羅首次表態(tài)

      余飩搞笑段子
      2026-06-24 10:40:34
      A股:緊急提醒2.5億股民!從今天6月24日起,A股或迎大級別調(diào)整行情?

      A股:緊急提醒2.5億股民!從今天6月24日起,A股或迎大級別調(diào)整行情?

      趨勢清風(fēng)俠
      2026-06-24 07:21:04
      陪玩陪睡只是皮毛!繼關(guān)曉彤后,向佐再曝“猛料”,謝娜也沒逃過

      陪玩陪睡只是皮毛!繼關(guān)曉彤后,向佐再曝“猛料”,謝娜也沒逃過

      趣文說娛
      2026-06-21 23:14:56
      上世紀(jì)有人將一棵草種在密封玻璃瓶中,54年過去了,植物還在生長

      上世紀(jì)有人將一棵草種在密封玻璃瓶中,54年過去了,植物還在生長

      怪羅
      2026-06-20 23:02:20
      嘉年華?法媒:C羅雙響就像全村過年!比賽毫無含金量 淘汰賽或現(xiàn)原形

      嘉年華?法媒:C羅雙響就像全村過年!比賽毫無含金量 淘汰賽或現(xiàn)原形

      煙潯渺渺
      2026-06-24 11:37:23
      世界杯小組賽前兩輪收官,最新奪冠概率:法國跌至第2,葡萄牙第6

      世界杯小組賽前兩輪收官,最新奪冠概率:法國跌至第2,葡萄牙第6

      球場沒跑道
      2026-06-24 13:51:38
      注意!中老年男性有性生活和沒性生活,差別居然這么大?

      注意!中老年男性有性生活和沒性生活,差別居然這么大?

      皓皓情感說
      2026-04-22 08:20:32
      9000歐拒得漂亮!董路這巴掌,打醒的是整個(gè)中國青訓(xùn)的遮羞布

      9000歐拒得漂亮!董路這巴掌,打醒的是整個(gè)中國青訓(xùn)的遮羞布

      觀星娛記
      2026-06-13 11:13:49
      2026-06-24 14:55:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
      15518文章數(shù) 66935關(guān)注度
      往期回顧 全部

      科技要聞

      豆包專業(yè)版上線:定價(jià)68-500元每月

      頭條要聞

      鄭麗文稱國民黨追求和平但不放棄自我防衛(wèi) 國臺辦回應(yīng)

      頭條要聞

      鄭麗文稱國民黨追求和平但不放棄自我防衛(wèi) 國臺辦回應(yīng)

      體育要聞

      字母哥,會(huì)把凱爾特人拆了嗎?

      娛樂要聞

      向佐向佑兄弟合體直播!母子終于和解

      財(cái)經(jīng)要聞

      爆料人:如果我錯(cuò)了,賠償坐牢都接受

      汽車要聞

      施鵬澤:為什么奧迪E7X強(qiáng)調(diào)座艙氣味安全?

      態(tài)度原創(chuàng)

      房產(chǎn)
      本地
      游戲
      旅游
      教育

      房產(chǎn)要聞

      這個(gè)海南地王,可能是今年豪宅的分水嶺!

      本地新聞

      吃一次廣東龍舟飯,才懂什么是豪華盛宴

      可可愛愛!《怪獵:荒野》泡狐龍等開發(fā)設(shè)計(jì)圖展示

      旅游要聞

      山為骨,水為血,天地為窖,時(shí)光為曲,釀一杯迎駕山河

      教育要聞

      2026內(nèi)蒙古普通高考錄取控制分?jǐn)?shù)線公布

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色欲av伊人久久大香线蕉影院| 久热久热久热久热久热久热| 国产乱子伦精品视频| 东京热加勒比日韩精品| 无码精品一区二区三区免费16| 亚洲欧美人成人综合在线播放| 国产精品无码久久AV嫩草| 国产东北女人拳交5| 成人无码精品一区二区三区| 高清有码国产一区二区| 国产精品第八页| 国产一卡二卡在线播放| 久操人妻| 永久免费AV无码国产网站| 国产成人亚洲欧美二区综合| 亚洲一区二区三区香蕉| 伊人精品久久久大香线蕉| 久久热这里只有精品66| 日韩av电影一区二区三区四区| 99成人精品| 狠狠97人人婷婷五月| 少妇粗大进出白浆嘿嘿视频| 久久躁狠狠躁夜夜av麻豆| 中文无码人妻| 国产一区二区三区黄网| 亚洲国产精品无码观看久久| av鲁丝一区鲁丝二区鲁丝三区| 无码熟妇人妻av| 2025神马免费电影在线| 国偷自产一区二区三区在线视频| 国产精品美女久久久久久麻豆| 亚洲高清日韩专区精品| 五月天综合网亚洲综合天堂网| 性色av免费观看| 麻豆国产va免费精品高清在线| 亚洲另类丝袜综合网| 中文字幕日本在线视频二区 | 日本色88网站| www亚洲无码| 艾小青国产精品40分钟| 激情综合色五月六月婷婷|