人工智慧之Tessercat-OCR字元識別,無開發基礎的也可以學會

要過年了,節前比較忙一直沒有時間來發文章,今年忙裡偷個閑,給大家講一講我最近在看的光學字元識別開源項目Tesseract-OCR。

Tessercat是一個開源的光學字元識別引擎也就是大家所說的ocr(Optical Character Recognition),Tessercat最早是HP公司的實驗室開發的由google維護的,現在整個庫已經支持了全球60多種語言文字,其中也包括中文。

tessercat依賴兩個模塊 模塊 pil + tessercat-ocr

安裝pil 命令行 pip install pillow

安裝 tesseract-ocr 命令行 pip install pytessercat

Advertisements

安裝完成後需將tessercat路徑加入到系統的PATH中

再沒有安裝中文語言庫時,我們可以測試些簡單的數字如使用畫圖隨便畫一些數字或者屏幕截圖一些數字

隨便畫一畫

通過命令行找到Tessercat的安裝目錄,如果已將Tessercat安裝路徑加入到系統的PATH中可省去這步直接輸入命令:

tessercat.py number.jpg result -l eng

命令完成後開發Tessercat的安裝目錄下面可以找到Tessercat自動新建的result.txt的文件,打開以後可以看到結果為0642316857,整個識別率還是很高的,想要提高識別率的話需要自己訓練,生成自己需要的識別語言庫。

相關的資料我整理好,有興趣的朋友可以關注我,沒有學習過編程愛好者也可以看得懂。

Advertisements

喜歡該教程的同學可以點擊關注我,點擊發私信輸入「OCR」,就可以獲得資料信息。

Advertisements

你可能會喜歡