圖/KIMI
文/檸檬
當你在手機上快速筆記,AI居然能準確辨識,即使你的筆跡隨興或有點潦草,它仍能將你的筆畫轉換成電腦文字。到底是怎麼辦到的?
這背後的技術核心就是OCR(光學字元辨識),它已經不再只是簡單的圖像比對,而是結合了深度學習、卷積神經網絡(CNN)、轉換器(Transformer)架構與大型語言模型(LLM),讓AI不僅能「看到」字形,還能「理解」內容與語意。
過去的OCR系統主要依賴筆畫特徵來辨識文字,但面對手寫字準確度就大幅下降,因為每個人的筆跡、風格不同,無法直接比對標準字形。現在的OCR不再依賴這種固定的比對方式,而是運用深度學習適應不同的書寫風格。當AI看到一個手寫字時,並不是單純「比對」它是否符合某種標準字形,而是透過學習數百萬筆不同的筆跡範例,來建立判斷模型。
影像處理 修正錯誤
OCR的現代運作方式分為兩個階段,先利用CNN(卷積神經網絡)處理影像,提取筆畫特徵。接下來,AI會使用轉換器來判斷這個字在句子中的位置,並依據語境來修正可能的錯誤。例如,當AI遇到一個筆跡模糊的「永」,它可能會猶豫這是「永」還是「水」,但如果這個字出現在「我學會寫『永』」這句話中,AI會根據語意推斷正確答案。
這樣的技術讓OCR不再只是辨識單個字,而是能夠理解整句話,使得AI的準確率大幅提升。此外,大型語言模型(LLM)進一步提升了OCR的理解能力。OCR這套系統的核心運作,離不開數學。當AI遇到手寫字時,它並不是「看」字,而是將其轉換成數據,並透過數學運算來判斷它最可能是哪個字。
這個過程包含幾個關鍵步驟:矩陣運算、機率計算、梯度下降法,這些數學模型讓AI不僅能識別筆畫形狀,還能根據機率與語境推斷最可能的答案,最終提供更準確的辨識結果。即使AI變得更強大,它仍然可能犯錯。如果你的筆跡太過潦草,像是一條扭曲的蚯蚓,AI可能還是會看不懂。不過,現在的AI會不斷學習,錯誤率也在降低。
智能閱讀 系統提升
此外,AI會經增強學習(Reinforcement Learning)記錄錯誤,讓下一次遇到相似筆跡時,能做出更精確的判斷。這就是為什麼AI會愈來愈懂你的筆跡,甚至能適應你的個人書寫風格。
現代AI不只是「比對字形」,而是能夠透過上下文來判斷語意,讓辨識結果更準確,甚至能理解整段文字的含義,使OCR成為真正的「智能閱讀系統」。
所以,下次當你在手機上手寫輸入「永」時,不妨想想,這背後其實有無數的數學運算在默默進行,幫助AI讀懂你的筆跡。如果哪天AI還是無法識別你的字……那可能是時候練練字了!