Text - Speech
ElevenLabsは、音声合成(TTS)分野の市場リーダーとして、年初にユニコーン企業の地位を獲得し、評価額が11億ドルに達しました。大規模な研究機関がこの分野に慎重に参入する中、ElevenLabsは大部分の市場シェアを占めています。
同社の旗艦TTS製品に加え、ElevenLabsは外国語吹き替えや音声分離機能にも進出し、さらに初期のテキスト生成音楽モデルを公開しました。著作権保護の観点から、このモデルは正式にはリリースされていませんが、効果音生成用のAPIインターフェースは提供されています。
現在、フォーチュン500にランクインする企業の62%が少なくとも1人の従業員をElevenLabsの製品を使用しています。
一方で、最先端の研究所は、音声生成技術の悪用が負の反応を引き起こす可能性があることを懸念しているため、この分野に対して慎重な姿勢を取っています。例えば、GPT-4oの音声出力は事前に設定された音声に限定されており、OpenAIは自社の音声エンジン(15秒の録音に基づいて音声を再現できるとされる)を広範に展開するかどうかについてまだ決定していないと述べています。
他方、Cartesia社は状態空間モデルに賭け、より効率的な音声合成技術の実現を目指しています。
Speech - Text
音声合成による「驚きの効果」と異なり、音声認識はよりスケーラブルで自動化の可能性を持ち、大量の反復的なタスクを削減するのに役立ちます。投資家たちはその大規模な応用の可能性に徐々に気付き始めています。
音声認識技術に取り組む一連のスタートアップ企業が、過去1年間に複数の資金調達を成功させました。これらの企業は、顧客サポートやコールセンターなど様々な場面で音声認識技術を応用しています。例として、Assembly AI(5000万ドル)、Deepgram(7200万ドル)、PolyAI(5000万ドル)、Parloa(6600万ドル)があります。その中で、PolyAIの収益は今年中に3倍になる見込みです。
これらのスタートアップ企業は、コールセンターの人手不足を緩和することを目指し、顧客がインタラクションの中でより自然に表現できるように努めています。修正、一時停止、中断、話題の切り替えなどの状況に対応可能であり、これらは従来の自動化システムでは難しかった領域です。
AI駆動のトランスクリプションや音声分析技術が新しい概念ではないものの、より大規模なデータセットとTransformerモデルの活用により、その精度は着実に向上しています。
例えば、Assembly AIが公開したUniversal-1多言語モデルは、1250万時間の音声データに基づいて訓練されており、高速な処理速度、低い計算リソース要件、少ない誤り率、そしてOpenAIのWhisperよりも優れた環境騒音フィルタリング性能を備えています。
Speech - Speech
十数年来、AlexaやSiriが提供する消費者向け音声アシスタントの体験は一般的に満足のいくものではありませんでした。しかし、OpenAIのGPT-4oとパリを拠点とするKyutai社が開発したMochi音声アシスタントは「アンビリーバブル・バレー」を成功裏に超えました。これらのシステムは考えながら話すことができ、ユーザーと音声アシスタントの間でスムーズなインタラクションを実現します。OpenAIは、GPT-4oを搭載した2つの携帯電話が一貫性があり魅力的な対話をどのように行うかを示しました。一方、Mochiは驚くほど速い推論速度を持ち、ユーザーがわずかに沈黙すると会話を遮ることがあり、この過剰な応答速度が時折唐突さを感じさせます。
さらに、GoogleのNotebook LMは研究内容に基づいて対話型ポッドキャストを生成でき、多くのユーザーに支持されています。(ただし、これはspeech-to-speechとは関係がないように思われ、自動的にポッドキャスト内容を生成するだけで、現在のところユーザーとの音声インタラクションはできません)。以下は、State of AI Report - 2024というDeckから生成されたポッドキャストです:
今日、PaulaからNotebook Llamaに関するオープンソースプロジェクトのビデオを送ってもらいました。Notebook Llamaは、NotebookLMのオープンソース版と考えることができます。このツールはステップバイステップのガイドにより、大規模言語モデル(LLMs)とテキスト読み上げ(TTS)モデルを利用してPDF元ファイルからポッドキャストコンテンツを自動生成します。このプロジェクトは、ユーザーにとってテキストからオーディオコンテンツへの効率的な変換手段を提供し、知識の伝達をより便利で多様なものにしています。
最近の進展では、Hugging Faceが音声から音声への処理チェーンを導入しました。これは音声活動検出、音声認識(STT)、大規模言語モデル(LLM)、そしてテキスト読み上げ技術を統合しており、音声インタラクション分野にさらなる包括的な解決策をもたらしました。(私はこれが指しているのではないかと思っています:https://github.com/huggingface/speech-to-speech)