Style-Bert-VITS2音声学習の覚書

ubuntu コンピュータ
ubuntu

以前WSL2とUbuntu環境でStyle-Bert-VITS2音声学習を試しモデルが作成出来ることは確認しています。それで、面白くて色々試していたところうっかり学習用データとモデルデータで、Cドライブをパンクさせてしまいました。

今回は専用PCにUbuntuをインストールして、学習用の音声データや学習結果のモデルでストレージがパンクしないような構成にしてみました。ただ、メインPCのアップグレードで取り外したパーツで構成したPCですのスペック的には見劣りしていまい、学習時間も長時間になると思われます。

環境について

GPUがRTX3070(VRAM12GB)でOSがUbuntu22.04LTSServer版。メインPCからsshで接続し操作するつもりでしたが、AI関係のWebUIはコンソールにログが出力されるので、Webブラウザとコンソールが同時に表示できるデスクトップ環境が想定されている模様。

xfceとxrdpのパッケージをインストールし、xfceデスクトップ環境をリモートデスクトップ接続で操作する方法にしました。

また、Style-Bert-VITS2のリポジトリはWindows環境を想定しているらしく、学習用のスクリプトが.batになっていますが、中身はpythonスクリプトの起動ですので、直接実行しても良いですし、.shスクリプトを書き直しても良いと思います。

学習手順

学習用音声ファイル準備

学習用の音声ファイル(WAVど)を「Style-Bert-VITS2/inputs」/に保存しておく。

音声の分割と文字起こし

Dataset.bat => python -m gradio_tabs.dataset
簡易学習用データセット作成ツールが起動
任意のモデル名を入力
「スライスを実行」クリック
結果は「Style-Bert-VITS2/Data/モデル名/raw」
「音声の文字起こし」クリック
結果は「Style-Bert-VITS2/Data/モデル名/esd.list」

他の音声合成ソフトで、青空文庫の小説「坊ちゃん」を朗読させて音声データを作成

wav形式で1.6GBとかなりのサイズになりました。

学習

Train.bat => python -m gradio_tabs.train
学習用WebUIが起動
モデル名に先ほど文字起こしを行ったモデル名を入力
「自動前処理の実行」クリック
「学習を開始する」クリック

(RTX3060(VRAM12G)でデフォルトの設定で終了時間が14時間となっていた。)

スタイルベクトルの作成

StyleVectors.bat python -m gradio_tabs.style_vectors
スタイルベクトルの作成が起動
モデル名に先ほど学習したモデル名入力
「スタイルベクトルを読み込む」をクリック
スタイル数を設定
「スタイル分けを実行」をクリック
任意のスタイルの名前をスタイル数文半角カンマ区切りで入力
「スタイルベクトルを保存」をクリック

モデルの出力先Style-Bert-VITS2\model_assets

マージ

他の音声モデルと合成し新たなモデルを作る処理

Merge.bat => python -m gradio_tabs.merge
モデルマージツール起動
モデルA、Bにマージするモデル名をセット
新しいモデル名に任意のモデル名を入力
「モデルファイルのマージ」をクリック
「スタイルのマージ」をクリック

感想

この記事を書いている段階で、学習中で終了までの所要時間は14時間になるとのことです。冒頭でも述べましたが、WSL2+Ubuntuではうまく行ったので、今回も成功することを祈りたいと思います。

コメント