チラシ解析を cloud vision API で行う

Python のバージョンを変えたので

pip install google-auth google-auth-oauthlib google-auth-httplib2 google-api-python-client pillow selenium google-cloud-vision requests

で必要なライブラリを再インストール
こういう時に
Requestments.txt を作ってあると何が必要かわかる

次に

from google.cloud import vision

client = vision.ImageAnnotatorClient()

with open("test.jpg", "rb") as fb:
    content = fb.read()

image = vision.Image(content=content)

response = client.document_text_detection(image=image)
texts = response.text_annotations
print(texts[0].description)

でまずは動作するかテスト
成功したら

cp ../gemini/step-1.png .

でこのスクショでも読み込めるかテストする

from google.cloud import vision

client = vision.ImageAnnotatorClient()

# with open("test.jpg", "rb") as fb:
with open("step-1.png", "rb") as fb:
    
    content = fb.read()

image = vision.Image(content=content)

response = client.document_text_detection(image=image)
texts = response.text_annotations
print(texts[0].description)

これを

python vision_api_test.py

で実行

結果は

4月 16日
水餃
125
249
本日限定
50
699
涼食品3a
10
30
$150
179
ジャクエッセン
POCA
109 329 459
SWEAT
ちゃんぽん
299
399
介護オムツ
20
10
$299
249
169
クレラップレ
299
救急バン
259
クレラッ 399
250
199119
Häagen-Dazs
99
89-35
139 128
159
89
99 299
299
249
30
299 399 179848
179 848 880
Q
Q
?
搞大
縮小 ブラウザ表示 プリント ヘルプ

というようになる

大きな文字は読み取れるが
小さな文字は解像度の問題か読み取れていない

次はgemini を試す