Fish Audioのボイスモデル「S1」「V1.6 Control Beta」「V1.5」の違いは何か?
こんにちは! 今日は、AI(人工知能)を使って声を生成したり、文章を読み上げたりできるツール「Fish Audio」のボイスモデルについて、やさしく解説します。Fish Audioは、まるで人間が話しているかのような自然な声を作り出せるすごい仕組みです。例えば、本の朗読を任せたり、自分の声をそっくりに真似させて使うこともできます。ここでは、2025年10月27日現在の最新情報に基づき、「S1」「V1.6 Control Beta」「V1.5」の3つのモデルをわかりやすく比較していきましょう。
これらのモデルは、Fish Audioにおける「テキスト・トゥ・スピーチ(TTS)」の中心的な存在です。TTSとは、文字を入力すると音声で読み上げてくれる機能のこと。しかも、ただ読むだけではなく、「うれしい」「かなしい」「息が上がっている」といった感情の表現まで加えられるのが特長です。まるでラジオドラマの俳優さんのようですね。各モデルはバージョンが進むごとに進化していますが、得意分野や性能には少しずつ違いがあります。まずは全体像をやさしく確認し、その後で詳しいポイントを見ていきましょう。
Fish Audioって何?
Fish Audioは、AIで声を生成するサービスを提供する企業で、2024年ごろから注目を集めてきました。無料で試せる入り口が用意されていて、有料プランも選べます。主な使い方は次のとおりです。
-
テキストを音声へ変換:本の朗読、動画のナレーション、ゲーム内キャラクターの声などに活用。
-
ボイスクローニング:自分や他人の声を約10秒の録音からコピーし、AIにそっくりの声をしゃべらせる。
-
感情のコントロール:声に「うれしい」「怒っている」「ささやき声」などのニュアンスを付けられる。
2025年10月27日現在、Fish Audioの公式サイト(fish.audio)ではS1が目玉モデルとして扱われ、Xでも「S1の自然さがすごい!」と話題になっています。声のクローニングは無料で試せますが、高品位な生成は有料(月額プランではS1が200分まで、v1.5やv1.6は400分まで)。他社サービス(例:ElevenLabs)と比べて6倍ほど安い点も魅力です。
また、X上の投稿を見ると、S1の公開は2025年10月20日ごろで、すでに2万人以上の開発者が利用中。会社の収益も500万ドル(約7.5億円)を超えているとのことで、「本物の声そのもの!」と驚く声が多く寄せられています。
各モデルの簡単な紹介
これらのモデルは、Fish Audioの「Fish Speech」シリーズから発展してきた系譜にあります。数字が大きいほど新しい傾向にありますが、S1は特別な名称を持つ最先端モデルです。ここでは初心者の方にもイメージしやすいよう、たとえ話を交えて説明します。
S1モデル
-
イメージ:最新のスーパースター俳優に相当。豊かな感情表現と自然な話し方で、どんな役柄にも対応できます。
-
発売時期:2025年10月20日ごろに公開された最新のフラッグシップ。
-
主な特徴:
-
訓練データ:200万時間以上の音声で学習。まるで長年にわたり鍛えられた声優のよう。
-
パラメータ数:40億(4B)。AIの“脳”の大きさを示し、数が多いほど表現力が高まります。
-
性能:TTS-Arena(音声品質の評価サイト)で1位。WER(単語誤り率)0.008、CER(文字誤り率)0.004と、読み上げの正確性が非常に高い水準。
-
声クローニング:10秒の録音で声のクセや抑揚、アクセントまで再現。
-
感情コントロール:50種類以上の感情をテキストで指定可能。「(angry) 怒ってるよ!」のように記すと、怒りのニュアンスで話します。笑い(laughing)や泣き(crying)も表現できます。
-
言語:英語・中国語・日本語・ドイツ語・フランス語・スペイン語・韓国語・アラビア語など14言語以上に対応。
-
速度:クラウドで約20秒で生成。GPUを使えばリアルタイム級(遅延100ms未満)。
-
用途:動画ナレーション、ポッドキャスト、ゲーム音声、仮想アシスタントなど。YouTuberが自分の声の誤りを補正する用途にも。
-
-
価格と制限:有料プランで月200分まで利用可能。無料体験は可能ですが、本格利用は課金が前提。
-
最新情報:Xでは「ElevenLabsより6倍安く、しかも自然」と高評価。開発者はAPIで利用可能で、遅延は500ms以下との声も。
V1.6 Control Betaモデル
-
イメージ:ベテラン俳優のベータ版(評価試験中)。S1より少し前の世代ながら、息遣い・ポーズ(間)などの制御が得意です。
-
発売時期:2025年5月ごろにベータ版として提供開始。V1.5のアップグレード位置づけ。
-
主な特徴:
-
訓練データ:約100万時間。S1より少なめですが、実用上は十分な規模。
-
パラメータ数:約5億(500M)。S1と比べ軽量。
-
性能:TTS-Arenaで上位(S1登場前は2位)。WERはS1よりやや高めでも、自然さは良好。
-
声クローニング:ゼロショットに対応(短い録音ですぐ模倣)。低遅延(150ms未満)。
-
感情コントロール:「Control Beta」の名のとおり、breaths(息)、pauses(間)、laughs(笑い)を細かく指示可能。「(pause) ここで止まり、(laugh) 笑って話す」のように精密な演出ができます。V1.5より表現が安定し用途も広い印象。
-
言語:13言語(英語・中国語・日本語など)。S1よりやや少なめ。
-
速度:リアルタイムに近い処理。RTX 4060級で実時間の約1/5速度(1:5)で生成可能。
-
用途:動画編集、ライブ配信、対話型ゲームなど、細かな感情制御を重視する場面に適合。
-
-
価格と制限:有料プランではv1.5またはv1.6を選んで月400分まで。ベータ版のため、随時アップデートがあります。
-
最新情報:Xのデモでは「機械的でない声」と好評。2025年10月時点ではS1の陰でやや旧世代感はあるものの、安定性の高さが評価されています。
V1.5モデル
-
イメージ:実力のある若手俳優という位置づけ。基礎力は高い一方、S1やV1.6ほど感情の幅は広くありません。
-
発売時期:2024年12月ごろ。V1.6の前世代。
-
主な特徴:
-
訓練データ:100万時間以上の多言語データで学習。
-
パラメータ数:5億(500M)。軽量で扱いやすい規模。
-
性能:S1登場前のTTS-Arenaで2位。多言語対応のゼロショット・ボイスクローニングに対応。
-
声クローニング:短時間録音から模倣可能。低遅延でスムーズ。
-
感情コントロール:angry・sad・excitedなど基本的な感情は指定可能。V1.6ほどの細やかさはありませんが、日常用途には十分です。
-
言語:13言語対応。
-
速度:遅延150ms未満。一般的な自宅PCでも動作可能。
-
用途:基本的な読み上げ、研究用途、教育現場など。無料で試せる敷居の低さも魅力。
-
-
価格と制限:v1.6と同様、月400分まで。
-
最新情報:Hugging Faceで公開。2025年10月現在、古めのモデルながら、オープンソースとして無償ダウンロードが可能です。
3つのモデルの違いを比べてみよう
これらのモデルはいずれもFish Audioの進化形であり、最新かつ最も高性能なのがS1です。以下に比較表を示し、初心者の方にも直感的に伝わるよう、星による評価(★5つ満点)を添えました。
| 項目 | S1 | V1.6 Control Beta | V1.5 |
|---|---|---|---|
| 自然さ | ★★★★★ (TTS-Arena1位、WER0.008) | ★★★★☆ (安定した表現力) | ★★★★ (基本的な自然さ) |
| 感情コントロール | ★★★★★ (50+種類、笑い/泣き/強調) | ★★★★★ (息/間/笑いの細かさ) | ★★★☆ (基本感情のみ) |
| 声クローニング | ★★★★★ (10秒で完璧、再現度最高) | ★★★★☆ (ゼロショット、低遅延) | ★★★★ (ゼロショット) |
| 言語数 | 14以上 | 13 | 13 |
| 訓練データ | 200万時間以上 | 100万時間 | 100万時間 |
| パラメータ | 40億 | 5億 | 5億 |
| 速度/遅延 | <100ms (GPU時) | <150ms | <150ms |
| 用途の例 | プロ動画/ゲーム/ポッドキャスト | ライブ/編集/対話 | 基本読み上げ/研究 |
| 価格目安 | 月200分 (プレミアム) | 月400分 (v1.5/v1.6共通) | 月400分 (v1.5/v1.6共通) |
| オープンソース | S1-mini版あり (0.5B param) | 一部あり | 完全オープン (Hugging Face) |
-
S1の強み:最も自然で感情表現が豊か。まさに人の声そのもの。Xでは「家族のパスワードが必要なくらいリアル!」との声も。
-
V1.6 Control Betaの強み:細やかな制御が可能。デモでは息遣いや笑いを加えて、生き生きした表現に。
-
V1.5の強み:軽量で試しやすく、無償利用もしやすい。初心者に向いています。
詳しい違いの説明(具体例付き)
ここからは、より踏み込んだ違いを、イメージしやすい例を交えながら説明します。
1. 自然さと品質の違い
-
S1:人間の話し方に非常に近く、豊富な学習量によりフレーズのつながりが滑らか。例:「今日はいい天気ですね。(happy)」と入力すると、明るい笑顔を感じるトーンで発話します。誤りはごくわずか(WER0.008=1000語中8語程度の誤り)。
-
V1.6 Control Beta:S1に迫る自然さながら、場面により機械的に聞こえることも。ただし総じて表現力は高水準。例:「(pause) ここで息を吸って、(laugh) 笑いながら話す」といった緻密な指示が得意。デモでは呼吸や間が入り、よりリアルに感じられます。
-
V1.5:基礎的な自然さは確保しつつ、長文読み上げでは不自然さが出る場面も。例:感情指定をしても、S1ほど細やかなニュアンスは出にくい印象。2024年モデルのため、最新のS1と比べると世代差を感じます。
Xの最新投稿(2025年10月27日)では、S1に対して「人間区別できない時代!」との評価が寄せられています。
2. 感情とコントロールの違い
-
S1:64種類以上の感情に対応。RLHF(人間のフィードバック学習)により、喜び・悲しみ・興奮・ささやき・共感などを高精度に表現。笑い・泣き・叫びといった特殊な表現も可能。例:物語で「(excited) わー、すごい!」と指示すると、弾むテンションで話します。
-
V1.6 Control Beta:評価中のベータ版ながら、呼吸・間・笑いの制御が強み。例:ポッドキャスト収録で「(breath) 深呼吸して、ゆっくり話す」といった自然さが再現できます。
-
V1.5:angry・sadなど基本的な感情指定に対応。細かなコントロールは限定的ですが、日常的な読み上げには十分です。
S1のデモについては、Xで「感情がプロ声優級!」といった反応も見られます。
3. 声クローニングの違い
-
S1:わずか10秒の音声から声質・アクセント・話癖まで再現。例:おじいちゃんの声を取り込み、昔話を読み上げさせるといった使い方も。
-
V1.6 Control Beta:ゼロショット対応で短い録音から即時模倣。低遅延で、リアルタイム用途にも向きます。
-
V1.5:同じくゼロショットに対応。ただし、S1ほどの細密な再現度は期待しにくい場面があります。
4. 言語と速度の違い
-
いずれのモデルも多言語対応ですが、対応言語の幅はS1が最多。速度は全モデル高速で、特にS1はGPU利用時に超低遅延を実現。
-
例:日本語で「(happy) おはよう!」と入力すれば、晴れやかな挨拶のトーンで出力されます。
5. 用途とおすすめ
-
S1:プロ志向の制作向け。動画制作・ビジネス利用・クリエイター用途に適合。Xでは「YouTubeの声修正に最高!」との声も。
-
V1.6 Control Beta:細部の調整を重視する方に。ライブ配信やゲーム内対話など、リアルタイム性と演出力が必要な場面で有効。
-
V1.5:入門や無料体験に好適。研究用途や基本的な読み上げに向いています。
有料プラン: 無料で基本試せますが、S1はプレミアム。詳細はfish.audio/plan。
6. 最新のアップデートと注意点(2025年10月27日現在)
-
Xでの検索結果によれば、S1はProduct Hunt(新製品紹介サイト)で5位、アップボートは482に到達。「AI音声の革命!」と評されています。
-
注意点:声があまりにリアルなため、偽装利用のリスクに留意が必要。家族向けの合言葉やパスワード管理の徹底を推奨。S1-miniのオープンソース版は無償でダウンロード可能です。
-
今後の展望:Fish AudioはAPIの提供を拡大中。X上の開発者コミュニティも活発に動いています。
まとめとアドバイス
Fish Audioの3モデルは、S1が最も自然で完成度が高く、V1.6 Control Betaは細やかな制御が得意、V1.5はベーシックで扱いやすい位置づけです。ご年配の方が使い始めるなら、まずは無料でS1を試し、本の読み上げからスタートしてみるのがおすすめ。まるでお孫さんが話してくれているように感じられるはずです。詳しくはfish.audioをご確認ください。


