ubuntu で Adobe Acrobat Reader DCインストール
を参考に
1 2 3 | sudo apt update sudo apt install snapd sudo snap install acrordrdc |
でインストール
次に
pyperclip のインストール
PythonのPyperclipモジュールでテキストをコピーして貼り付ける
を参考に
1 | pip install pyperclip |
TesseractOCR
をインストール
Tesseract OCR のインストール(Ubuntu 上)
を参考に
実行しようとしたがパッケージがないとなるので
OCRエンジンTesseractをUbuntuインストールして文字画像を認識させてみた
を参考に
1 2 | sudo add-apt-repository ppa:alex-p /tesseract-ocr sudo apt-get update |
でリポジトリの追加と更新
1 2 | sudo apt install tesseract-ocr sudo apt install libtesseract-dev |
で Tesseract のインストール
1 | tesseract - v |
でバージョンを確認
1 2 3 4 5 6 | tesseract 4.1.1-rc2-37-gc1a5 leptonica-1.78.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2 Found AVX Found SSE Found libarchive 3.1.2 |
となっているのを確認できる
続いて訓練済モデルのインストール
1 2 | sudo apt install tesseract-ocr-jpn tesseract-ocr-jpn-vert sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert |
実行後インストールの確認
1 | tesseract --list-langs |
を実行し
1 2 3 4 5 6 7 | List of available languages (6): Japanese Japanese_vert eng jpn jpn_vert osd |
となればOK
なお Github で日本語データがあり
そっちをダウンロードしてやるほうほうが
ubuntuで画像から日本語OCRでテキスト抽出
に掲載されているので
もし日本語対応が微妙な場合こちらを試したほうがいいかもしれない
次に pyocr のインストール
python3でPyOCRを使って画像を文字列に変換する方法
を参考に
1 | pip install pyocr |
でインストール
pyocr の ver0.8 から以前にあったバグが解消されているため
エラー箇所の修正は不要らしい