数秒のデータから日本語の音声生成を実現
この度NABLASはGoogle社が開発した音声生成モデル「SoundStorm」の構造をベースとして、日本語に対応した超高速な音声生成モデルを開発しました。本モデルは、数秒のデータを用いて瞬時に日本語の音声生成が可能です。当社独自の日本語データセットを用いてモデルの学習を行い、自然な日本語での音声生成を実現しました。本技術により将来的には医療分野における発話困難者への支援や、カスタマーサポートにおける感情的な音声のリアルタイムな声色調整、エンターテインメント分野での音声生成活用など幅広い分野での応用が期待できます。
◾️「SoundStorm」について
Google社が開発した、最先端の音声生成モデルです。従来の音声生成モデルから飛躍的に性能が向上し、高速且つ高品質な音声生成が可能で、TPU-v4を使用した環境では3秒程度のオリジナル音声データから本物のような音声をわずか0.5秒の速さで生成します。リアルタイムでの音声生成も可能で、単純な音声生成だけでなく、テキストの読み上げ、対話システム等の応用が期待されている最先端の音声生成モデルです。モデルには以下の特徴があります。
・3秒程度の音声データからリアルな音声生成が可能
・わずか0.5秒で30秒程の音声生成が可能(TPU-v4を使用した環境下)
・数秒の対話音声データから、話者同士の声の抑揚や特徴を忠実に模した本物のような対話生成が可能
▼詳細
◾️日本語対応のモデルについて
SoundStormは現在、英語をベース言語として開発されており日本語での音声生成には未対応ですが、この度の当社の開発では、数秒のデータを用いた超高速での音声生成に対応した日本語モデルを開発しました。※対話生成には未対応。数秒の話者Aの音声データと、発話させたい内容を含む話者Bの音声データを基に、わずか数秒の処理で話者Aの音声で話者Bの発話内容を生成するSpeech to Speechの音声生成が可能です。本技術を活用することにより、将来的には医療、エンターテイメント、メディア、カスタマーサポートなど幅広い分野での活用が期待できます。
〈想定される日本語音声生成モデルの活用シーン〉
・発話困難者への支援
発話に支援を必要とされる方へ、自身または任意の音声データを用い、発言したい内容を発話が矯正された音声で出力することで発話における障壁の解消へと繋がります。
・カスタマーサポートにおける心的負担の軽減
感情的な音声に対して感情を抑えた音声で出力することにより、受電側の心的負担を軽減することに繋がります。
・エンターテインメント分野における活用
メディアやSNSなどの配信活動において、任意の音声でリアルタイムに出力できることにより、コンテンツ制作のコストダウンや創作活動の幅を広げることに繋がります。
〈音声生成の例〉
①SoundStormの性能を維持
SoundStorm内部に構築されているConformerモデル(Google社発のテキストの全体的な文脈と局所的な文脈を同時にとらえることができる技術を搭載したモデル)の構造をベースとして開発を行っています。これにより、音声生成のクオリティやスピードを維持した日本語対応のモデルを実現しています。
②SoundStormを上回る音声品質や生成音声の類似度
出力される音声の品質に関わるオーディオコーデックにおいて、当社では日本語での音声生成に適したオーディオコーデックを用いてモデル開発を行いました。その結果、SoundStormが出力する音声品質(不自然さ、ノイズなど)や生成音声の類似度スコアよりも、当社開発のモデルがわずかに上回る結果を得ています。
③日本語に特化した音声生成モデル
この度の開発モデルは、当社独自で処理を行った日本語音声データセットだけで学習した日本語特化の音声生成モデルです。データセットには、日本語音声コーパスから取得したデータに対し、人の声だけのデータとなるよう背景の騒音や音を除去する処理を行い、よりクオリティの高い日本語音声の生成を実現しました。
◾️今後の展望
音声生成技術は様々な分野での活用が期待される技術です。この度の日本語に対応した音声生成モデルの開発だけでなく、音声変換や、テキストの読み上げ、リアルタイムでの対話翻訳など、日本での音声生成技術の活用がより活発化するよう、引き続き技術開発を進めてまいります。また、それら生成技術の悪用防止や検出技術の開発にも引き続き取り組んで参ります。
■お問い合わせ
NABLASの音声生成に関するお問い合わせは以下フォームからお気軽にご相談ください。https://www.nablas.com/contact
Comments