Pdf の中身を取り出す

Gmail でPDFをダウンロードし、PDFを読み上げしたいので
まずPDFの中身を読み出す

まずはPDF単体の取り扱いから

1
pip install pdfminer.six requests

でインストール

1
vim text_from_pdf.py

1
2
3
4
5
6
7
from pdfminer.high_level import extract_text
 
def extract_text_from_pdf(pdf_file):
    return extract_text(pdf_file)
 
pdf_text = extract_text_from_pdf("your_file.pdf")
print(pdf_text)  # PDFの内容を表示

ファイル名を

1
tunagu.pdf

に変えてみる

実行結果は
読み上げできる量を超える可能性が高いため

念の為文字数をカウントする

1
vim pdf_text.txt

でこの実行結果の文章を保存する

次に

1
vim count_characters_in_text_file

でファイルの文字数をカウントするようにする

1
2
3
4
5
6
7
8
def count_characters_in_text_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        return len(content)
 
file_path = 'path/to/your/textfile.txt'
char_count = count_characters_in_text_file(file_path)
print(f"The file has {char_count} characters.")

のファイルを

1
pdf_text.txt

に変更して実行

1
The file has 995 characters.

となるため
Voicevox の扱える量を超える
このため対策が必要

あとファイルの取得に関しては
そのまま
メール内の
ファイルリンク
へアクセスしてもできたので
これを直接ダウンロードできるか試す

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です