Gmail でPDFをダウンロードし、PDFを読み上げしたいので
まずPDFの中身を読み出す
まずはPDF単体の取り扱いから
pip install pdfminer.six requests
でインストール
vim text_from_pdf.py
で
from pdfminer.high_level import extract_text def extract_text_from_pdf(pdf_file): return extract_text(pdf_file) pdf_text = extract_text_from_pdf("your_file.pdf") print(pdf_text) # PDFの内容を表示
ファイル名を
tunagu.pdf
に変えてみる
実行結果は
読み上げできる量を超える可能性が高いため
念の為文字数をカウントする
vim pdf_text.txt
でこの実行結果の文章を保存する
次に
vim count_characters_in_text_file
でファイルの文字数をカウントするようにする
def count_characters_in_text_file(file_path): with open(file_path, 'r', encoding='utf-8') as file: content = file.read() return len(content) file_path = 'path/to/your/textfile.txt' char_count = count_characters_in_text_file(file_path) print(f"The file has {char_count} characters.")
のファイルを
pdf_text.txt
に変更して実行
The file has 995 characters.
となるため
Voicevox の扱える量を超える
このため対策が必要
あとファイルの取得に関しては
そのまま
メール内の
ファイルリンク
へアクセスしてもできたので
これを直接ダウンロードできるか試す