Pdf の中身を取り出す

Gmail でPDFをダウンロードし、PDFを読み上げしたいので
まずPDFの中身を読み出す

まずはPDF単体の取り扱いから

pip install pdfminer.six requests

でインストール

vim text_from_pdf.py

from pdfminer.high_level import extract_text

def extract_text_from_pdf(pdf_file):
    return extract_text(pdf_file)

pdf_text = extract_text_from_pdf("your_file.pdf")
print(pdf_text)  # PDFの内容を表示

ファイル名を

tunagu.pdf

に変えてみる

実行結果は
読み上げできる量を超える可能性が高いため

念の為文字数をカウントする

vim pdf_text.txt

でこの実行結果の文章を保存する

次に

vim count_characters_in_text_file

でファイルの文字数をカウントするようにする

def count_characters_in_text_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        return len(content)

file_path = 'path/to/your/textfile.txt'
char_count = count_characters_in_text_file(file_path)
print(f"The file has {char_count} characters.")

のファイルを

pdf_text.txt

に変更して実行

The file has 995 characters.

となるため
Voicevox の扱える量を超える
このため対策が必要

あとファイルの取得に関しては
そのまま
メール内の
ファイルリンク
へアクセスしてもできたので
これを直接ダウンロードできるか試す

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です