深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
重點一:DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片,最高壓縮10倍且保留約97%資訊,讓AI可處理更長文件。
重點二:DeepSeek OCR 把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。
重點三:DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器,每台伺服器運行 8 塊 A100 處理器,吞吐量將躍升至每天 3,300 萬頁。
中國AI公司Deepseek(深度求索)於10月21日推出DeepSeek-OCR(光學文字辨識)系統,主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是:處理「影像中的文字」比直接處理「數位文字」更省算力。
而在應用上,這套系統的核心賣點也很簡單: 用更少的「視覺符號」(內部的影像單位)就能把文件讀懂,並輸出成可編輯的文字或結構化內容,包含表格、公式與圖表。
OCR讀起字來多有效率?DeepSeek技術報告指出,在維持約97%資訊的前提下,文字脈絡可被壓縮至最多10倍,從而延長LLM可承載的上下文長度,減少記憶體與推論成本。
系統也可將「對話歷史影像化並壓縮」,將較舊的聊天內容以低解析度保存,類似人類「漸漸遺忘」的機制:資料越久、越遠、越低解析,就越模糊。
記憶刻度 :時間從「剛發生」到「1年」,清晰度由「Crystal Clear」逐步變成「Almost Gone」,描述人類記憶隨時間自然衰退。
視覺刻度:距離從 10 cm 到 20 m,越遠越不清楚,對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度(解析度):從「Gundam」到「Tiny」等級,解析度越低、需要的「視覺符號」越少,文字呈現也越模糊,象徵以圖片方式壓縮舊文本。
這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解,以及跨語言(約100種)文件抽取,並在維持原始版面或輸出純文字的彈性間取得平衡。
白話來說,處理更少的符號,意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型,是最直接的效率紅利。
OCR如拼裝車!3步驟把資料「切塊再瘦身」
技術上,OCR如何辦到?DeepSeek‑OCR的做法是:把一頁文件當成「圖片」丟給AI,先切塊、再瘦身,最後才請懂圖又懂字的模型來讀。
第一步,前處理引擎DeepEncoder把版面「劃重點」:段落在哪、表格在哪、圖形在哪,別讓後面的模型浪費力氣在邊角裝飾(這裡用的是臉書母公司Meta的SAM,專門做影像分割)。
第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面,會變成4,096個「視覺單位」(token),先經過壓縮器直接砍到256個,類似把會議逐字稿濃縮成重點條列,將算力和記憶體省下來。
第三步則是「理解」。其利用OpenAI的CLIP,負責把「看到的區塊」對上「語意」,也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身,所以CLIP不用面對整頁的雜訊。
結果,同樣的一頁文件,DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂:一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙,再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token,這套路線是「少算力、更多內容」。
進一步來說,DeepSeek‑OCR的輸入模式分成三類,以對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。
• Tiny|Small:固定尺寸(約 512、640),輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面,用少量符號就能還原內容。
• Base|Large:較大尺寸(約 1024、1280),輸出 256 或 400 符號。以「補邊」保留原始長寬比;有效符號會因黑邊扣除而少於名義值。
• Gundam|Gundam‑Master:動態模式,把頁面切成 n 個局部視野,再加一張全局視野。
一日處理3,300萬頁!OCR資料集與權重全面開放
在實務部署方面,DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁;若以20台伺服器、每台8顆A100組成叢集,日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流,也有助於為LLM建構海量文字語料。
研究團隊訓練時使用約3,000萬頁PDF(含近百種語言,其中中文與英文約2,500萬頁),並加入1,000萬張合成圖表、500萬份化學式、100萬份幾何圖形以強化多模態文件理解。
更重要的是,官方開放程式碼與模型權重,讓生態系可驗證與擴充此技術;在多語、保版面與純文字輸出之間提供彈性,適合長文件抽取、AI訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。
整體而言,DeepSeek-OCR以「影像壓縮+少量token」策略,將OCR從單純文字擷取,推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。
英國資深網頁開發者Simon Willison實測指出,DeepSeek‑OCR 可在 NVIDIA Spark(ARM64 + CUDA)的環境中順利跑通,整體印象是:只要花時間選擇合適的「運行方式/提示」,DeepSeek‑OCR本身的模型表現「非常好」,足以在新硬體條件下完成高品質 OCR。
如何使用 DeepSeek OCR ?
一般讀者可用 Hugging Face 下載模型,安裝必要套件後,把圖片丟進範例程式即可做 OCR。其建議簡易流程如下:
事前準備:有一台可用的電腦。若沒有 NVIDIA 顯示卡,也能跑,但會較慢;Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
安裝工具:安裝 Python(建議 3.12)與套件管理工具(pip 即可)。
安裝必要套件:torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict;加速可選擇安裝 flash-attn 2.7.3。
取得模型:從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR。
放入圖片:把要辨識文字的圖片檔(如掃描的合約、收據、海報)指定到程式,執行後就會輸出文字或 Markdown。
延伸閱讀:Canva回來了!AWS雲端服務全面修復完成,快打開看Perplexity、Coinbase⋯⋯能不能用?
資料來源:DeepSeek、Decoder、Simon Willison’s Weblog
本文初稿為AI編撰,整理.編輯/ 李先泰
更多報導
創新板可以當沖了!主管機關3大策略,朝「亞洲那斯達克」邁進
矽谷創投界炙手可熱的台灣人:陳恩平是誰?a16z也搶投資!他如何以「VC操刀手」逆轉人生?
其他人也在看


從第一性原理重新檢視企業成長
這是我第二次帶台灣企業家到史丹佛大學學習。第一次在 2023 年已經覺得震撼,這一回感受更深。矽谷的節奏明顯再加速,AI 並沒有減輕壓力,競爭反而更加激烈,像極了「996 hits the US」。也因為如此,大家開始重新回到第一性原理,從最根本的問題出發。在一堂探討 AI 發展趨勢的課程中,講師就...
商業周刊 ・ 1 天前
「現在蠻好的,就這樣也不錯…」5關鍵破解Z世代為何不升遷加薪、寧可躺平
破解動機背後的核心需求「艾莉,你最近的專案做得非常出色,客戶給了很高的評價。部門下個月會有一個副理的空缺,我覺得你是最適合的人選。妳有興趣嗎?」 主管麥克說這話的時候,語氣充滿期待,像是在送上一份精心準備的禮物。但面前的艾莉卻只露出一抹禮貌的微笑,輕輕說了句:「謝謝你提拔我,但我覺得現在這樣就很好了...
商業周刊 ・ 1 天前
實在賺不到錢!Automattic執行長親口認栽:6年前收購Tumblr成最大賠錢貨
Automattic執行長近期公開坦言,收購 Tumblr 是他「最大的失敗」,因該平台技術債高昂且持續虧損,營運成本遠超收入。
數位時代 ・ 1 天前
台股市值衝全球第8!證交所再為資本市場添柴火,創新板年底前鬆綁、拚兩年新增40家掛牌
今年台灣資本市場延續科技動能與外資回流效應,集中市場市值已達約89.4兆元,若合計櫃買市場,整體市值位列全球第8,創下史上最佳紀錄。 為了乘勝追擊,以達成金管會推動台灣成為「亞洲資產管理中心」的目標,證交所與櫃買中心雙姝,也就是李愛玲與陳麗卿兩位女總座,在週一(10/20)分別提出針對股票與債券市場即將推動的鬆綁。
今周刊 ・ 1 天前
半導體晶片照亮資本市場,台股市值躍全球第8大!石油不再主導全球,謝金河:晶片力就是國力
晶片力即國力!過去半個世紀以來,大家最常說的一句話是:誰掌握石油?誰掌握世界!在2020年之前,沙國石油公司Aramco經常是世界市值最大的企業,後來逐漸被蘋果超車。
今周刊 ・ 1 天前
亞馬遜雲端服務AWS當機 專家籲企業應有多元備援
亞馬遜雲端服務AWS於20日發生大規模當機,導致全球多個熱門網站與多家銀行在內,全球上千企業網站和應用程式癱瘓。位在美國維吉尼亞州的資料中心經過9個小時搶修,系統才逐步恢復。
公視新聞網 ・ 1 天前
強茂飆不停不敢追?這檔合作夥伴反而低調受惠
近期功率元件大廠強茂(2481)主要受惠於功率半導體面臨中國大陸的出口限制令,因強茂與安世產品重疊性高,使得客戶積極對外尋找其他供應商,推升近期股價表現亮眼,今(21)日再創波段新高,將有望挑戰百元大關,其中作為強茂重要的合作夥伴虹冠電(3257)也值得留意。
理財周刊 ・ 1 天前
南瀛天文館《星軌任務出發-福衛八號特展》 見證自主衛星新紀元
由國家太空中心主導、國內團隊自主研製的「福爾摩沙衛星8號-齊柏林衛星」,將於11月升空,象徵台灣正式進入自主衛星星系時代。南瀛天文館攜手國家太空中心與成功大學,24日起將推出《星軌任務出發-福衛8號特展》,開放民眾免費參觀,展出至明年兒童節連假過後。
自由時報 ・ 1 天前
Nike、Hoka、Saucony都在搶這塊泡棉:誰能造出最強跑鞋?
你是否發現,腳上穿的跑鞋越來越厚?這個過去十年來的設計趨勢,現在更牽動運動鞋大廠間的軍備競賽,搶攻規模超過1100億美元(約合新台幣3兆3572億元)的市場大餅。 2009年,暢銷書作者麥杜格爾(Christopher McDougall)的著作《天生就會跑》(Born to Run),在全球大受歡...
商業周刊 ・ 1 天前
114年1期水稻收入保險理賠1.3億元 有效填補農民營農損失
農業部21日表示,114年1期作各鄉鎮市區水稻產量已完成調查統計,部分地區因低溫寒害影響,造成稻穀不稔實(空包彈)導致減產,經統計有18縣市、65個鄉鎮,共約1.1萬位農民獲得出險,理賠金額達1.3億元,其中,114年1期作「基本型」理賠約0.8億元、「加強型」理賠約0.5億元。
中時財經即時 ・ 1 天前
92%上班族自認薪水偏低 漲薪難靠1招加5K
根據1111人力銀行調查顯示,高達92%的上班族自認薪水偏低,不滿意程度創6年新高。其中更有43.2%直言「非常不滿意」。進一步追問原因,「物價上漲壓力」48.6%與「公司無明確調薪機制」45.7%最為關鍵。1111人力銀行發言人莊雨潔表示,調查指出,距離2026年只剩不到兩個月,但...
CTWANT ・ 1 天前
亞馬遜雲端大崩潰! 上百萬人受當機影響 專家:集中化恐成一大危機
[Newtalk新聞] 亞馬遜旗下的雲端服務供應商「亞馬遜雲端運算服務(AWS)」,於昨日(20)發生持續數小時的大規模當機,由於服務系統中斷,銀行、社群媒體、航空公司與估計數百萬人的日常生活皆受到影響,Facebook、Roblox、Canva、Reddit等知名網路服務也受害。 此次當機有大量企業受影響,連亞馬遜自己的影音平台都不能幸免於難。圖:翻攝自 X《Game Union TV》 AWS 官方頁面指出,本次故障源於美國北維吉尼亞資料中心的 DNS 錯誤,已於當地時間下午 6 點全面恢復服務。美國《有線電視新聞網》( CNN ) 報導指出,這種錯誤大多源自於意外,例如不妥善的更新、意外被輸入的程式碼、與外部軟體相容性不足等,少部分情況也可能源自網路攻擊或海底電纜斷裂。目前錯誤的起因尚不清楚,但網路安全公司「NymVPN」首席數位長 Rob Jardin 認為,沒有跡象表明這是一次網路攻擊,更像是技術故障。 北維吉尼亞地區是美國東岸最大的資料中心聚集區,有資料中心走廊(Data Center Alley)之稱。圖:翻攝自 AWS 官網 他進一步指出,網際網路的設計初衷應該是去中心
新頭殼 ・ 1 天前
輝達等5檔列首選名單!美銀:2027年全球半導體銷售額將邁向1兆美元大關
美國銀行 (BAC-US) 周一 (20 日) 出具最新研究報告指出,受 AI 相關領域需求激增推動,2027 年全球半導體銷售額可望達到約 1 兆美元。這一數字較該銀行先前
鉅亨網 ・ 1 天前元智林志民獲國家講座 近10年唯一入選私校教授
(中央社記者許秩維台北21日電)元智大學今天表示,元智大學電機工程系講座教授林志民專注於人工智慧與電機工程領域研究,近日獲選第29屆「國家講座」主持人,也是近10年來唯一入選的私校教授。
中央社 ・ 1 天前
基隆社福園區政策說明會登場 市府推環評加速公私協力開發進程
基隆市政府於日前(9/26)正式公告「基隆市社會福利綜合園區BOT+ROT案」,本月21日於集思北科大會議中心舉辦政策公告說明會,吸引長照、壽險、建設與金融產業等多家業者踴躍出席。
理財周刊 ・ 21 小時前DeepSeek推新開源模型「DeepSeek-OCR」,以視覺作載體壓縮長文本
【財訊快報/陳孟朔】中媒報導,中國大模型團隊DeepSeek再度發布開源新品——參數量約30億的光學字元識別(OCR)模型DeepSeek-OCR。官方強調,該模型的核心創新在於把長文本透過「光學二維映射」壓縮為像素,再以視覺模態讀取與還原,藉此突破傳統純文本上下文長度的限制,實現更高效的長文處理。技術路徑上,「光學二維映射」可理解為:先把冗長文字編碼成高密度圖像(如類似排版壓縮的文字圖),再交由具備OCR/圖像理解能力的模型一次性解碼。相較把所有字元直接丟進語言模型的「長上下文」計算,這種視覺承載方式降低token帶寬,理論上能在有限算力下處理更長內容。同時,模型兼具一定的通用圖像理解能力,對混合排版、表格與圖文頁面更友善。不過,壓縮帶來的資訊密度上升也意味著對圖像解析度、版式噪聲與字體變形的魯棒性要求更高。應用層面,DeepSeek-OCR對多行業的「資料結構化」具有直接價值:在金融領域,年報季報與券商研報可快速轉成可查詢欄位;在醫療場景,可加速歷史病歷檔案的數位化與索引;對出版與文博機構,古籍影像的批量轉錄效率可望數倍提升。
財訊快報 ・ 1 天前
打詐凍結比特幣 史上頭一遭
「去中心化、跨境、可自我保管」,這三項比特幣核心特質,本是金融去權威化的象徵,但在灰色世界裡,卻成了跨境轉移與分層洗錢的利器。2025年,美英聯手調查柬埔寨太子集團,查扣127,271枚比特幣,市值估計高達150億美元。這是美國司法部歷史上最大宗加密資產沒收案。主謀陳志操縱了包括礦企「魯班」在內的洗錢網絡,結合「殺豬盤」與強迫勞動等產業鏈,將加密貨幣化作黑金通道。
理財周刊 ・ 21 小時前
面板「慘」業!聯詠終於跨入AI 第三季涼了看第四季
IC設計大廠聯詠(3034)沒有吃到這波台股攻堅2萬8的氣勢,反而持續探底,已從7月高點552跌到400快要守不住,不知道何時是個盡頭,有說會回到208元,在一片悲觀中,主要還是聯詠是面板慘業。
理財周刊 ・ 1 天前