Gemma3 4b + faster-whisperのコード公開

音声でやり取りできるようにしたのでコードを公開する

まずリポジトリ公開のため作成する
とりあえず voice_llm　としておく

いくつか忘れているのでメモ
ライセンスはMITにして
Readme も最初に作成しておく

mkdir github_open
cd github_open

で
これから公開ずみコードはここへおく

git clone git@github.com:Snowpooll/voice_llm.git

でリポジトリコピー

cd voice_llm

あとはファイルをコピーしていく

cp -rp ../../gemma/configs .

でfaster-whisper の設定ファイル

cp -rp ../../gemma/module .

でモジュール関連
なおウェイクワード関連は未完成なので削除する

rm module/module_wakeword*
rm -r module/__pycache__

メイン処理部分のコピーとリネーム

cp -rp ../../gemma/main5.py .
 mv main5.py main.py

必要なものはコピーできたので
次に requestment.txt の作成

from module.module_audio_to_text import AudioToTextCorrector
from module.module_speaker import Speaker
from ollama import chat, ChatResponse
import time
from module.module_whisper import FasterWhisperModel
from module.module_recorder import Recorder
from ollama_text_correction import OllamaTextCorrector
import numpy as np
import sounddevice as sd

import os
import configparser
# ファイルの存在チェック用モジュール
import errno
import pyttsx3
import emoji
import re
from faster_whisper import WhisperModel
import numpy as np
import torch

import os
import configparser
# ファイルの存在チェック用モジュール
import errno

これらを使えるように
requirements.txt
を作成する

touch requirements.txt

内容は

ollama
numpy
sounddevice
faster-whisper
pyttsx3
emoji
torch
configparser

| ライブラリ名           | 説明                               |
| ---------------- | -------------------------------- |
| `ollama`         | ローカルで実行可能なLLMを利用するためのPythonパッケージ |
| `numpy`          | 数値演算を効率よく行うためのライブラリ              |
| `sounddevice`    | オーディオ入力・録音機能のためのライブラリ            |
| `faster-whisper` | Whisperモデルの高速音声認識ライブラリ           |
| `pyttsx3`        | テキスト読み上げ（TTS）ライブラリ（オフライン動作可）     |
| `emoji`          | 絵文字を扱うためのライブラリ                   |
| `torch`          | PyTorch機械学習フレームワーク（Whisperで必要）   |
| `configparser`   | 設定ファイル(.ini形式)を扱うためのライブラリ        |

これで

pip install -r requirements.txt

でモジュールの一括インストールが可能

次に

vim .gitignore

で除外するファイルを設定

なお
README.md や LICENSE はプロジェクトの利用方法やライセンス情報を示すために GitHubなどに必ず公開するべきファイルです。
これらを .gitignore に書いてしまうと、Gitリポジトリに追加されず、外部に公開できなくなります。
とのこと

# OS固有の隠しファイル
.DS_Store

# Pythonキャッシュ関連
__pycache__/
*.py[cod]
*$py.class

を追記して保存

git add .
git commit -m "add source code"

あとは

git push origin main

でsshキーのパスワードを入れればOK

これで
https://github.com/Snowpooll/voice_llm#
に
コードが公開された

あとは readme の作成

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル