2025年12月13日土曜日

声が出せなくなったVTuberにAI合成音声を作った話

声が出せなくなったVTuberにAI合成音声を作った話
トップ画像はNano Banana Proにて作成

こちらはAI声づくり研究会 Advent Calendar 2025の13日目の記事です。


こんにちは、しちEです。

この記事では、怪我で発声が難しくなったVTuberさんのために、本人の許可を得たうえでAI合成音声(Text to Speech:TTS)を作り、配信で使ってもらった記録を書きます。


⚠️注意⚠️

  • AI合成音声を作成・使用するときはご本人に迷惑にならないように、本人の明示的な許可を取るようにしましょう。
  • この記事は「無断で声を真似する」手法を推奨するものではありません。  
  • AITuberの話ではありません。


作ることになった経緯

葛ノ葉 鈴撫(くずのは すずなで)さんというVTuberさんがいます。

YouTubeとXのアカウントはこちら↓



この方が4月に顎と歯を怪我してしまい、しばらく発声が難しい状況になりました。 

雑談をよくする方なので喋れなくなったのは辛そうでした……

復帰後の最初の配信では、既存の合成音声(TTS)を使って進行していましたが、明らかに普段の声と雰囲気が大きく違う合成音声で配信するのは違和感ありました。

そこで、本人の声を学習させた合成音声を作って渡して良いか?と連絡し、許可をいただいたうえで制作しました。(許可は大事)


使ったツール

本人の声を再現させるための合成音声は「Style-Bert-VITS2 JP-Extra」を採用しました。

採用理由は次の通りです。

  • 無料のOSSで個人のPCで学習ができる
  • 日本語の発声に特化しているTTS
  • 学習するための環境構築が簡単
  • 発声するための環境構築が簡単
  • CPUモードがあり、最低限の動作要件を満たしやすい
  • 文字入力から発声までがキーボードで完結する


試作モデルの作成

ツールの使い方は以下の動画を見るのが早いと思うので、ここでは手順の要点だけ書きます。  


今回は本人の過去配信から数時間程度の音声をキャプチャしました。

BGMがうっすらと流れていたので、「Ultimate Vocal Remover」で音声抽出を行い、音源を作りました。


前処理した音源をStyle-Bert-VITS2でスライスしたところ、458個合計1時間5分のwavファイルが出来上がりました。

その後、自動で文字起こしをしてesd.listを作成し、esd.listをそのまま音声と共に学習ターゲットに設定しました。

まずは様子見のため、パラメータはデフォルトで一晩PCをぶん回しました。


そして出来上がったモデルの音声がこちら。(1つ目のセリフはこのポストから拝借)

怪我する前の配信の音声と聴き比べてみましょう。


これでも本人っぽさは出ましたが、まだ改善余地がある品質でした。  

ここでいったん本人に渡し、改善方針を探りました。


改善

Discordサーバーの「AI声づくり研究会」の中で検索すると色々な知見がありました。

どうやら音声素材をを雑に大量投入するのは逆効果になり得るらしい。

そこで、素材の間引き書き起こしの校正パラメーターの調整を行いました。


①素材の間引き

458本をそのまま聴いて選別するのは現実的ではないため、条件を定義して自動で候補を落としました。

除外した主な条件は以下です。

  • 笑い声が大きい/長い
  • 「えーと」「あのー」などのフィラーが多い
  • ノイズが強い
  • 音量差が極端

この条件に合うような音声を選別するために、ChatGPTに聞いてスクリプトを組みました。

(ここにスクリプトを書くと非常に長くなってしまうので割愛します)

結果として、149個合計20分のwavファイルに絞りました。(試作モデルでは使っていない音声ファイルも一部含まれています)


②書き起こしの校正

選定した素材をすべて聴いて、esd.listで音声と合っていないところはすべて修正しました。

例えば、

  • 「漫画の画力がまじでレベずで高い」→「漫画の画力がまじでレベチで高い」
  • 咀嚼の方が主流だから」→「ソシャゲの方が主流だから

などです。


③パラメーターの調整

パラメーターの方はバッチとエポック数を変更しました。

  • batch: 1 → 2
  • epochs: 100 → 500

本当はパラメーターの比較したほうが良いのですが、そんな時間はなかった……


そして出来上がった改良版はこちら。

なかなか良いのでは!?


改良版を実際に配信で使ってもらった回はこちら。

いい線いってる気がします!

視聴者からは「本人の声の再現度高い!」「合成音声なんだ!?」「最初聞いた時もう治ったのかと思った」といった反応もあり好評でした。

本人にも喜んでもらえたので、作った甲斐がありました!


今回のように、配信者が自身の合成音声を一時的とはいえ普段使いする前例はあまりないのではないでしょうか?

昨今、AIボイスが問題視されがちですが、本人の同意があり、目的が明確で、困りごとを解決するなら、技術が役に立つ場面もあります。


技術で人助けができるのは良いですね!

今回は魔王助けでしたけど。