リアルタイムで自然な対話!次世代AI『Moshi』の驚異的な技術
近年、AI技術の進歩は目覚ましく、私たちの生活に様々な形で浸透しています。特に、自然言語処理技術の発展は、AIとのコミュニケーションをより人間らしいものへと変えつつあります。そんな中でも特に注目を集めている、リアルタイムで自然な対話が可能な次世代AI「Moshi」について今回は解説いたします。
Moshiとは
「Moshi」はフランスのAI研究機関Kyutaiが開発した音声AIです。従来の音声AIと大きく異なる点は、その自然な会話能力にあります。「Moshi」は、まるで人間と会話しているかのような、滑らかで流暢なやり取りを実現します。また、インターネット接続をせずローカル環境でも動作するので、プライバシーを重視したセキュアな環境での利用が可能となっています。
▼「Moshi」を使ったデモストレーションの様子が動画で公開されています。
この動画では「Moshi」についての説明と、実際に「Moshi」を使用したデモストレーションを行っています。「Moshi」は70以上の感情と話し方を持ち合わせており、様々な表現が可能になっています。動画を見ていると質問に対して人間が回答するかのようにナチュラルに話しているのが分かります。ささやき声でという要望に対しては声を小さくしささやくように話したり、ニーズに合わせてフランス語のアクセントで話したり、海賊のような荒々しい話し方も表現できています。
■デモストレーションの内容はこちらのサイトで体験できます。
https://moshi.chat/
Moshiの機能
リアルタイムで自然な対話を可能にする技術を持った「Moshi」は、次の3つの主要コンポーネントから成り立っています。
1.Helium
Heliumは、「Moshi」の言語モデルとして機能する7B(7億)パラメータを持つ大規模言語モデル(LLM)です。このモデルは、2.1T(2.1兆)のトークンでトレーニングされており、あらゆる言語の文脈を把握し、ユーザーの言葉を理解しやすくしています。
2.Mimi
Mimiは、「Moshi」の音声生成と音声認識を支えるニューラルオーディオコーデックであり、音響情報と意味情報を同時にモデル化します。これにより、従来の音声コーデックに比べて、音声の品質と応答速度が飛躍的に向上しました。
3.マルチストリームアーキテクチャ
「Moshi」は、ユーザーとAI自身の音声データを別々のチャネルで処理する新しいマルチストリームアーキテクチャを採用しています。このアーキテクチャにより、オーバーラップや中断を含むリアルな対話のダイナミクスをモデル化することができ、スムーズな双方向の会話を実現します。
Moshiの今後の展望
「Moshi」はユーザーの感情や過去の会話の文脈を理解し、適切なアドバイスや共感を示すことができるので、ただの会話相手ではなく、日常会話のパートナーとして活躍が期待できます。他にもカスタマーサポートや営業など、ビジネスシーンでも非常に有用です。また、外国語の練習など、学習を支援するツールとしての役割も担えるでしょう。「Moshi」は、次世代のAIコミュニケーション技術の先駆者として、今後多くの分野でその能力が発揮されることが期待されています。特にHeliumやMimiといった先端技術によるリアルタイム対話は、家庭内アシスタントや企業向けビジネスツール、教育の分野に限らず、医療分野など幅広い用途で活用されるでしょう。
最後に
今回、ご紹介した音声AI「Moshi」の名前は、日本で電話をとる際に使う「もしもし」が由来となっているそうです。ちなみに、「Moshi」を開発した団体は「Kyutai」ですが、こちらは日本の「球体」が由来らしく、日本への愛を感じます。さらに、「Moshi」を構成している要素の一つであるオーディオコーデックの名前は「Mimi」ですが、これはもしかすると「耳」からきているのかもしれませんね。(こちらは調べてみましたが確実な情報がなかったので予測でしかありません)今はまだ英語版のみですが、日本語やそのほかの国の言語でも使えるようになる日もそう遠くないのではないでしょうか。
筆者Y.S