前置き
皆さんはボイスクローンAIというものをご存知だろうか?
ボイスクローンAIとは、声をクローンする、つまりいろんな人の声に似せた音声を生成が出来る技術だ。
様々なものが存在しており、英語でしか使えないがCPUのみで実行出来る軽量な「Pocket-TTS」などが存在する。
そんな中、アリババクラウドがオープンソースとして公開した「Qwen3-TTS」を実際に利用してみたところ、驚かされた!!
使い方
Hugging Faceというサイトでデモが試用出来るので、試してみて欲しい。
Qwen3-TTS Demo – a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3-TTS

左から2番目のVoice Clone(Base)タブを選ぶ。
Reference Audio…ボイスクローンしたい音声をアップロードする。
Reference Text…さきほどReference Audioにアップロードしたボイスで言っていた音声をテキストとして入力する。
Target Text…AIで言わせたい音声を文字として入力する。
Launguage…自分の使っている言語(日本語ならJapanese)と入力する。
Model Size…基本的には1.7Bで十分だが、ローカルで実行する場合は0.6Bにするなど状況によって選ぼう。
最後にClone & Generateボタンを押してしばらく待とう。
するとGenerated Audioというところに生成されているはずだ。
感想
皆さんは使ってみてどう感じただろうか?
実際に使ってみた僕としては、これほどまでに他人の音声に似させることが出来るのかと驚愕した。
そして同時に恐ろしくもなった。
詐欺師が無言電話で録音をし、それをAI学習させて詐欺に活用されたら…なんて考えてしまう。
それほどまでにクオリティが高かった。
皆さんも「Qwen3-TTS」を活用する際は、悪用しないように注意しよう。