Gemma3 4b + faster-whisperのコード公開
音声でやり取りできるようにしたのでコードを公開する
まずリポジトリ公開のため作成する
とりあえず voice_llm としておく
いくつか忘れているのでメモ
ライセンスはMITにして
Readme も最初に作成しておく
mkdir github_open cd github_open
で
これから公開ずみコードはここへおく
git clone git@github.com:Snowpooll/voice_llm.git
でリポジトリコピー
cd voice_llm
あとはファイルをコピーしていく
cp -rp ../../gemma/configs .
でfaster-whisper の設定ファイル
cp -rp ../../gemma/module .
でモジュール関連
なおウェイクワード関連は未完成なので削除する
rm module/module_wakeword* rm -r module/__pycache__
メイン処理部分のコピーとリネーム
cp -rp ../../gemma/main5.py . mv main5.py main.py
必要なものはコピーできたので
次に requestment.txt の作成
from module.module_audio_to_text import AudioToTextCorrector from module.module_speaker import Speaker from ollama import chat, ChatResponse import time from module.module_whisper import FasterWhisperModel from module.module_recorder import Recorder from ollama_text_correction import OllamaTextCorrector import numpy as np import sounddevice as sd import os import configparser # ファイルの存在チェック用モジュール import errno import pyttsx3 import emoji import re from faster_whisper import WhisperModel import numpy as np import torch import os import configparser # ファイルの存在チェック用モジュール import errno
これらを使えるように
requirements.txt
を作成する
touch requirements.txt
内容は
ollama numpy sounddevice faster-whisper pyttsx3 emoji torch configparser | ライブラリ名 | 説明 | | ---------------- | -------------------------------- | | `ollama` | ローカルで実行可能なLLMを利用するためのPythonパッケージ | | `numpy` | 数値演算を効率よく行うためのライブラリ | | `sounddevice` | オーディオ入力・録音機能のためのライブラリ | | `faster-whisper` | Whisperモデルの高速音声認識ライブラリ | | `pyttsx3` | テキスト読み上げ(TTS)ライブラリ(オフライン動作可) | | `emoji` | 絵文字を扱うためのライブラリ | | `torch` | PyTorch機械学習フレームワーク(Whisperで必要) | | `configparser` | 設定ファイル(.ini形式)を扱うためのライブラリ |
これで
pip install -r requirements.txt
でモジュールの一括インストールが可能
次に
vim .gitignore
で除外するファイルを設定
なお
README.md や LICENSE はプロジェクトの利用方法やライセンス情報を示すために GitHubなどに必ず公開するべきファイル です。
これらを .gitignore に書いてしまうと、Gitリポジトリに追加されず、外部に公開できなくなります。
とのこと
# OS固有の隠しファイル .DS_Store # Pythonキャッシュ関連 __pycache__/ *.py[cod] *$py.class
を追記して保存
git add . git commit -m "add source code"
あとは
git push origin main
でsshキーのパスワードを入れればOK
これで
https://github.com/Snowpooll/voice_llm#
に
コードが公開された
あとは readme の作成