Cartesia は、リアルタイム会話用の新しい主力テキスト読み上げモデルである Sonic-3 をリリースしました Sonic-3 は、笑いなどの韻律要素や、驚きや好奇心などの感情を組み込んだテキスト読み上げストリーミングを提供します。新しいモデルは、9 つのインド言語を含む 42 の言語をサポートしています。 Sonic-3 は、Cartesia の以前のリリースと同様に、状態空間モデル (SSM) アーキテクチャを活用しています。Cartesia は SSM の使用におけるリーダーであり、他のモデルは通常、トランスフォーマーベースのアーキテクチャを使用しています。一般に、SSM はコンピューティング効率とメモリ効率が高いため、Sonic-3 の比較的印象的な遅延に寄与している可能性があります。 Cartesia は、個人使用の場合は月額 0 ドルから、Scale パッケージの場合は月額 299 ドルまでのサブスクリプションとクレジットの価格モデルを提供しています。 Sonic-3 は、ブラインド好み投票用の人工分析テキスト読み上げアリーナに追加されました。 以下の🎧サンプルクリップを聞いてください