-
安裝 Python ,如果你已經安裝,就跳過此步驟,我使用的版本是Python 3.10.11,作業系統是Win 11:
- 確保您已經在 Windows 上安裝了 Python 3.10.11 或3.9以上版本 。可以從 Python 官方網站 下載並安裝。
-
**安裝Windows版的Ollama, 本機或其它主機都行,最好是有GPU支援CUDA的最好,AI效能越高的越好:
- 到Ollama 的官方網站 下載安裝和pull模型。
- 電腦效能不是太高的話,建議不要下載太大的模型,llama3.2提供1B 、3B共2種參數規模的模型,11B, 90B模型在Ollama沒有 ,llama3.2:3b速度還不錯,但中文沒那麼溜,可以使用通義千問qwen2.5,有提供 0.5B 、1.5B 、3B 、7B 、14B 、32B 和 72B 共7種參數規模
- 預設的Ollama服務是http://127.0.01:11434。應用程式可以直接運行。如果在一台PC上安裝了Ollama,在另一台PC上安裝了whisper-ollama-gui, 則Ollama服務主機需要創建一個新的系統環境變數為“Ollama”_主機= 0.0.0.0:11434”。
- 驗證安裝:
打開 命令提示字元 或 PowerShell,執行以下命令確認 Ollama 是否安裝成功:
應該會顯示 Ollama 的版本資訊。
ollama --version
ollama pull llama3.2:3b ollama pull qwen2.5:7b ollama serve
確認模型運行: 確保模型已成功運行,並且可以通過 API 訪問。例如: ```bash ollama list
應該會顯示正在運行的模型列表,表示你的Ollama已正常運作待命中了。
-
安裝 FFmpeg(僅限音頻處理)
-
pydub** 套件需要 FFmpeg 來處理音頻文件。請按照以下步驟在 Windows 上安裝和配置 FFmpeg:
-
下載 FFmpeg: 前往 FFmpeg 官方下載頁面。 選擇適用於 Windows 的靜態編譯版本,例如 Gyan.dev 提供的版本。
-
解壓縮 FFmpeg: 將下載的壓縮包解壓縮到一個目錄,例如
C:\ffmpeg
. -
配置環境變數:
-
將 FFmpeg 的
bin
目錄添加到系統的 PATH 環境變數中。 右鍵點擊 此電腦 > 屬性 > 高級系統設置 > 環境變數。 在 系統變數 中找到Path
,選擇 編輯。 點擊 新建,添加C:\ffmpeg\bin
(根據實際解壓路徑調整)。 確認所有對話框以保存變更。 -
驗證安裝: 打開 命令提示字元,執行
ffmpeg -version
,應顯示 FFmpeg 的版本資訊。
-
-
**安裝PyTorch’s CUDA support
python Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr 5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> import torch >>> torch.cuda.is_available() True >>>
True表示你的CUDA已可使用
目錄與檔案初始化
為了確保所有必要的目錄和檔案存在,建議運行以下 Python 腳本來初始化目錄結構和檔案:
### **安裝必要的 Python 套件**
打開 **命令提示字元(Command Prompt)** 或 **PowerShell**,並執行以下命令來安裝所需的套件:
git clone https://github.com/fred-lede/chat-ollama-win.git
cd whisper-ollama
python -m venv venv
#Windows PowerShell
./venv/Scripts/activate
#Windows Command
venv\Scripts\activate
pip install -r requirements.txt
python initialize.py
whisper-ollama/
├── vocabularies/
│ └── professional_vocab.json
├── output/
│ ├── corrections.csv
│ └── transcript.txt
│── examoles/
├── models/
├── whisper-ollama-gui.py
├── initialize.py
│── config.ini
├── requirements.txt
└── README.md
目錄與檔案說明
-
vocabularies/professional_vocab.json
:專有名詞和習慣用語的詞庫,按照專業分類組織。(還沒用上) -
corrections.csv
:訂正數據文件,儲存用戶對轉寫結果的訂正,供持續訓練使用。(還沒用上) -
examples/
:儲存樣本的目錄。 -
models/
:儲存 Whispr 模型的目錄,下載後請放在這。 -
whisper-ollama-gui.py
:主 GUI 應用程式,允許用戶選擇音頻文件、設定輸出路徑、管理詞庫、查看和訂正轉寫結果。 -
initialize.py
:目錄初始化用,自動建目錄及config.ini。 -
config.ini
:參數設定用。 -
requirements.txt
:Python 套件依賴列表,藉由 pip install -r requirements.txt 來安裝此程式所需Python套件。 -
README.md
:說明文件(概覽、安裝指南)。
確保所有依賴已安裝並且詞庫和訂正數據文件已初始化後,運行 GUI 程式:
python whisper-ollama-gui.py
通過上述步驟和程式碼,您可以在 Windows 環境下建立一個完整的音頻轉文字系統,結合 Whisper 進行語音轉文字、Ollama 管理後處理模型。
- Whisper GitHub Repository:
- Ollama 官方文檔: