ubuntu で Adobe Acrobat Reader DCインストール
を参考に
sudo apt update sudo apt install snapd sudo snap install acrordrdc
でインストール
次に
pyperclip のインストール
PythonのPyperclipモジュールでテキストをコピーして貼り付ける
を参考に
pip install pyperclip
TesseractOCR
をインストール
Tesseract OCR のインストール(Ubuntu 上)
を参考に
実行しようとしたがパッケージがないとなるので
OCRエンジンTesseractをUbuntuインストールして文字画像を認識させてみた
を参考に
sudo add-apt-repository ppa:alex-p/tesseract-ocr sudo apt-get update
でリポジトリの追加と更新
sudo apt install tesseract-ocr sudo apt install libtesseract-dev
で Tesseract のインストール
tesseract -v
でバージョンを確認
tesseract 4.1.1-rc2-37-gc1a5 leptonica-1.78.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2 Found AVX Found SSE Found libarchive 3.1.2
となっているのを確認できる
続いて訓練済モデルのインストール
sudo apt install tesseract-ocr-jpn tesseract-ocr-jpn-vert sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
実行後インストールの確認
tesseract --list-langs
を実行し
List of available languages (6): Japanese Japanese_vert eng jpn jpn_vert osd
となればOK
なお Github で日本語データがあり
そっちをダウンロードしてやるほうほうが
ubuntuで画像から日本語OCRでテキスト抽出
に掲載されているので
もし日本語対応が微妙な場合こちらを試したほうがいいかもしれない
次に pyocr のインストール
python3でPyOCRを使って画像を文字列に変換する方法
を参考に
pip install pyocr
でインストール
pyocr の ver0.8 から以前にあったバグが解消されているため
エラー箇所の修正は不要らしい