スマートスピーカーより大切な音声技術の真の恩恵とは?

(画像:ArtemisDiana - stock.adobe.com)
音声合成技術の進歩によって、AmazonのAlexaやAppleのSiriなどに代表される音声アシスタントの普及がますます加速しています。音声機能が進化したことにより、さらに重要なサービスが提供される日もそう遠くはありません。人工知能 (AI) を活用した音声技術は、声を失った人、発声障害を持つ人など、何百万もの人々に自分の声を提供するという究極的な目標に向かって進化を続けています。
今日、最先端の音声技術は、競争が激化するスマート製品の巨大市場を支えています。米国の公共ラジオ局National Public Radio (NPR) と調査会社Edison Research社によるスマートスピーカー利用状況に関する調査「2022 Smart Audio Report 1」によると、米国の成人 (18歳以上) 62%が何らかのデバイスで音声アシスタントを使用していました。企業側も、高度音声技術によるこのトレンドに乗り遅れる手はありません。それは音声合成技術を使った自社製品を守るというだけの意味ではなく、AIエージェントがデバイスを通してユーザーに自然な話し方で応答することで、消費者と直接対話できるという、かつてない機会を逃すことになるからです。
複雑な音声合成パイプライン
音声技術は、電話回路の帯域幅を削減するために約1世紀前に開発されたボコーダ (音声エンコーダ) から劇的な進化を遂げています。今日のボコーダは、畳み込みニューラルネットワーク (CNN) のようなディープラーニングアルゴリズムに基づいた高度なサブシステムです。実際には、このニューラルボコーダは、複雑な音声合成パイプラインのバックエンドとして機能しているだけですが、人間の話し手の性別、年齢などの要素を識別する上で使われる、さまざまな音声特徴を生成できる音響モデルを組み込んでいます。このパイプラインでは、音響モデルが通常メルスペクトログラムによる音響特徴量を生成し、線形周波数領域を人間の知覚により近いと思われる領域にマッピングします。次に、Google DeepMind社のWaveNetのようなニューラルボコーダが、この音響特徴量を用いて、高品質な音声出力波形を生成します。
現在、業界にはテキスト読み上げ (TTS) 機能が豊富にあり、オープンソースでインターネットからダウンロードできるOpenTTSのようなモバイルアプリから、Amazon Polly、Google Text-to-Speech、Microsoft Azure テキスト読み上げなどのようなクラウドベースによる包括的な多言語対応サービスまで、幅広く提供されています。TTSソフトウェアやサービスの多くは業界標準の音声合成マークアップ言語 (SSML) に準拠しており、音声合成アプリケーションは、ポーズ、区切り、強弱、抑揚といった、よりリアルな音声パターンを一貫してサポートすることができます。
失った声を取り戻す
今日のテキスト読み上げ (TTS) ソフトウェアは、電気式人工咽頭のロボットのような話し方とは大いに異なり、故スティーブン・ホーキング博士が音声レンダリング技術の向上後も自身の声として採用していたように高い音声品質を実現しています2。それでもTTSソフトウェアやTTSサービスは、あくまでもアプリケーション、ウェブサイト、動画、自動音声応答システムなどにリアルな音声インターフェイスを提供することを目的としており、 ある個人の声を、独特な声色や話し方を含めて再現することを目的とはしていません。
Googleなどのサービスでは、特別なカスタマイズを行えば、ユーザーが自分の声を作成することもできますが、これは失った自分の声を再現するという要求に応えるものではありません。声はその人のアイデンティティと密接に結びついており、声の再現は、声を失った人にとって切実な願いであるはずです。声に出して簡単なあいさつをすることは、言葉よりもはるかに多くを伝えます。声を失った人たちは、発声機能を失った以上に世界からの断絶を感じています。ですから、新たな音声合成技術によって、自分の声で人と対話できるようになることに大きな期待が寄せられています。
音声クローンの登場
絶え間ない取り組みにより、その人の個性を映し出す合成音声の実現を妨げていた問題は解消されつつあります。昨年、米国俳優ヴァル・キルマーは、数年前に喉頭がん手術で声を失い、その後、英国企業Sonantic社から彼の声とそっくりな合成音声を提供されていたことを公表しました。もう1つの音声クローンの有名な事例として、シェフ、作家として有名な故アンソニー・ボーデインについてのドキュメンタリー映画が挙げられます。映画の中で、ボーデインはクローン作成された彼の声で、生前、著書に記しながらも、実際には声に出して語ることのなかった言葉を伝えています。
音声合成のパイオニア、VocalID社は、喋れなくなった時のために、自分の声を録音したデータベース (ボイスバンク) を元に合成音声を作って提供したり、声を失った人のために、ボランティアの声を録音したデータベースを使ってその人の声を作り出すなどのサービスを提供しています。IoS、Android、Windowsなどの携帯機器でこの合成音声を使えば、自分の声で会話することが可能になります。
声のクローン技術は急速に進歩しています。昨年夏、アマゾンは1分未満の録音音声から声が再現できる機能を発表しました。アマゾンが発表した動画デモは、亡くなった親族の声を蘇らせることが可能であることを伝えるものですが、親しい人の声で音声出力できるAIに大きな可能性があることが強調されていました。
ただし、声とアイデンティティの関係を考えると、高品質な音声生成は希望であると同時に、脅威でもあります。ディープフェイク動画と同様、ディープフェイクの音声クローンはセキュリティ上の大きな脅威になります。2020年初めに起きた3,500万ドルの不正送金の原因は、本人になりすました高精度な音声クローンによるものと言われています。この事件では、ある銀行の支店長が、電話から聞き覚えのある「顧客」の声で送金依頼を受け、それに応じて送金したところ、実はディープフェイク音声による詐欺であることが発覚しました。
まとめ
学術界、産業界の研究者たちは、音声合成技術が持つ市場潜在力に注目し、消費者をさらに惹きつけるために、人の話し方の微妙なニュアンスを反映させる音声出力の新たな生成方法を今も追究しています。しかし、このような素晴らしい市場機会にもまして、今後、音声合成技術は、生まれつき声が出せない人や事故・病気で声を失った人など、何百万もの人々にさらに大きな恩恵をもたらすことになるでしょう。
出典
https://www.nationalpublicmedia.com/insights/reports/smart-audio-report/.- “The Smart Audio Report.” national public media, June 2022.
Handley, Rachel. Stephen Hawking’s voice, made by a man who lost his own. BeyondWords, July 15, 2021. https://beyondwords.io/blog/stephen-hawkings-voice/.