什么是OCR技術(shù)?
光學(xué)字符識別(英語(yǔ):Optical Character Recognition,OCR)是指對文本資料的圖像文件進(jìn)行分析識別處理,獲取文字及版面信息的過(guò)程。
和圖像識別以及機器視覺(jué)技術(shù)相類(lèi)似,OCR技術(shù)的處理過(guò)程也分為輸入、前期處理、中期處理、后期處理以及輸出的過(guò)程。
IVY-7500-AI系列OCR字符數字,字母,漢字識別掃碼手持終端PDA
輸入
對于不同的圖像格式,有著(zhù)不同的存儲格式、不同的壓縮方式,目前有OpenCV、CxImage等。
前期處理——二值化
如今數碼攝像頭拍攝的圖片,大多數是彩色圖像,彩色圖像所含信息量巨大,較為不適用于OCR技術(shù)。
對于圖片的內容,我們可以簡(jiǎn)單的分為前景與背景,為了讓計算機更快的、更好地進(jìn)行OCR相關(guān)計算,我們需要先對彩色圖進(jìn)行處理,使圖片只剩下前景信息與背景信息。二值化也可以簡(jiǎn)單地將其理解為“黑白化”。
圖像降噪
對于不同的圖像,噪點(diǎn)的定義可能不同,根據噪點(diǎn)的特征進(jìn)行去噪的過(guò)程,稱(chēng)為降噪。
傾斜校正
由于一般用戶(hù),在拍照文檔時(shí),難以拍攝得完全符合水平平齊與豎直平齊,因此拍照出來(lái)的圖片不可避免的產(chǎn)生傾斜,這就需要圖像處理軟件進(jìn)行校正。
中期處理——版面分析
將文檔圖片分段落,分行的過(guò)程稱(chēng)為版面分析,由于實(shí)際文檔的多樣性、復雜性,此步驟目前仍待優(yōu)化。
字符切割
由于拍照、書(shū)寫(xiě)條件的限制,經(jīng)常造成字符粘連、斷筆,直接使用此類(lèi)圖像進(jìn)行OCR分析將會(huì )極大限制OCR性能。因此需要進(jìn)行字符切割,即:將不同字符之間分割開(kāi)。
字符識別
早期以模板匹配為主,后期以特征提取為主。由于文字的位移、筆畫(huà)的粗細、斷筆、粘連、旋轉等因素的影響,極大地影響特征提取難度。
版面還原
人們希望識別后的文字,仍然像原始文檔圖片那樣排列,段落、位置、順序不變地輸出到Word文檔、PDF文檔等,這一過(guò)程稱(chēng)為版面還原。
后期處理
根據特定的語(yǔ)言上下文的關(guān)系,對識別結果進(jìn)行校正。
輸出
將識別出的字符以某一格式的文本輸出。
基于OCR技術(shù)的手持終端有哪些應用?
通過(guò)裝載有OCR字符識別軟件的手持終端PDA,可以實(shí)現眾多場(chǎng)景應用,如:汽車(chē)車(chē)牌識別、集裝箱箱號識別、進(jìn)口牛羊肉重量標簽識別、護照的機讀區域識別、電表讀數識別、鋼卷上噴涂字符的識別。