Gmail でPDFをダウンロードし、PDFを読み上げしたいので
まずPDFの中身を読み出す
まずはPDF単体の取り扱いから
1 | pip install pdfminer.six requests |
でインストール
1 | vim text_from_pdf.py |
で
1 2 3 4 5 6 7 | from pdfminer.high_level import extract_text def extract_text_from_pdf(pdf_file): return extract_text(pdf_file) pdf_text = extract_text_from_pdf( "your_file.pdf" ) print(pdf_text) # PDFの内容を表示 |
ファイル名を
1 | tunagu.pdf |
に変えてみる
実行結果は
読み上げできる量を超える可能性が高いため
念の為文字数をカウントする
1 | vim pdf_text.txt |
でこの実行結果の文章を保存する
次に
1 | vim count_characters_in_text_file |
でファイルの文字数をカウントするようにする
1 2 3 4 5 6 7 8 | def count_characters_in_text_file(file_path): with open (file_path, 'r' , encoding= 'utf-8' ) as file : content = file . read () return len(content) file_path = 'path/to/your/textfile.txt' char_count = count_characters_in_text_file(file_path) print(f "The file has {char_count} characters." ) |
のファイルを
1 | pdf_text.txt |
に変更して実行
1 | The file has 995 characters. |
となるため
Voicevox の扱える量を超える
このため対策が必要
あとファイルの取得に関しては
そのまま
メール内の
ファイルリンク
へアクセスしてもできたので
これを直接ダウンロードできるか試す