侮れない日本！音声認識モデル Izanami + Kushinada + BERT の驚異

世界のAI開発競争において、日本語という「言葉の壁」は時に障壁となり、時に独自の進化を促す土壌となってきました。2025年から2026年にかけて、日本の音声認識AI界隈を期待させているのが、産総研（産業技術総合研究所）が開発した日本語音声基盤モデル「いざなみ（Izanami）」および「くしなだ（Kushinada）」です。

OpenAIのWhisperが世界を席巻し、音声認識は「解決済みの課題」と思われがちですが、実は日本語という言語の深淵においては、まだ多くの課題が残されていました。最新のベンチマーク結果を紐解きながら、日本語音声入力の新たな地平を切り拓く「Izanami/Kushinada + BERT」の驚異的な実力と、国産AIが海外勢を凌駕するシナリオを徹底解説します。

1. 「いざなみ・くしなだ」が誕生した背景：なぜ国産基盤モデルが必要なのか

これまで日本語の音声認識といえば、GoogleのSpeech-to-TextやOpenAIのWhisperといった海外勢のモデルが主流でした。これらのモデルは非常に強力ですが、多言語対応を優先するあまり、日本語特有の「同音異義語の多さ」「助詞の繊細な使い分け」「文脈に依存する省略」といったニュアンスを完全に捉えきれないケースが散見されました。

特に、日本のビジネス現場や行政、医療福祉の現場では、高いセキュリティレベルが求められると同時に、誤認識が許されない厳密なコミュニケーションが不可欠です。クラウド型の海外AIではデータの国外流出リスクが懸念され、一方でローカルで動かすには膨大な計算リソースが必要というジレンマがありました。

産総研が公開した「いざなみ」と「くしなだ」は、国内最大級となる約6万時間の日本語音声データを学習しています。このデータ量がいかに圧倒的かは、従来の国産モデルが数百時間から数千時間規模だったことと比較すれば一目瞭然です。テレビ放送、会議録、日常会話など、多岐にわたる「生きた日本語」を吸い込ませることで、日本人が聞いても違和感のない「日本語の耳」が完成したのです。

2. 技術的解剖：wav2vec 2.0のいざなみ、HuBERTのくしなだ

モデル名に日本神話の「イザナミ（生みの親）」と「クシナダ（サポート役）」の名を冠している通り、これら二つのモデルは役割分担が明確に設計されています。

いざなみ (Izanami)：自己教師あり学習の極致

「いざなみ」は、Meta社が提唱した「wav2vec 2.0」をベースにしています。これは、ラベル（正解テキスト）のない膨大な音声データから、音声そのものの規則性を自ら学習する手法です。いざなみは日本語音声の「基礎体力」を作る役割を担っており、特定の業界用語（ドメイン）に合わせて追加学習させる際のベースとして最適化されています。

くしなだ (Kushinada)：意味と文脈を捉える知能

対する「くしなだ」は、GoogleのBERTの構造を音声に応用した「HuBERT（Hidden-Unit BERT）」技術を採用しています。音声信号を「隠れユニット」という離散的なトークンに変換し、前後の文脈から次の音を予測することで、音響的な特徴だけでなく、言語的な意味のつながりを深く学習します。これにより、感情認識（喜び、怒り、悲しみ、平常）において正解率84.77%という、従来の非基盤モデル（約70%）を大きく上回る性能を叩き出しています。

3. ベンチマークが証明した「国産の底力」：Whisper large-v3に肉薄

実際の性能はどうなのか。今回黒兎が行ったテストの結果は、かなり期待できる結果でした。以下の表は、主要なモデルによる日本語音声認識の精度比較です。

モデル名	Char Acc (文字単位一致率)	CER (文字誤り率)	処理時間 (ASR/Post)
OpenAI Whisper large-v3	81.2%	18.8%	14.04 s
Kushinada-Hubert (Raw)	76.1%	23.9%	128.96 s
Kushinada + BERT Punctuation	81.0%	19.0%	0.11 s (BERT)

特筆すべきは、Kushinadaの認識結果（76.1%）に、日本語BERTを用いた句読点復元（Punctuation Restoration）を追加した結果、**Char Accが81.0%まで跳ね上がった**点です。これは、音声認識AIの王座に君臨するWhisper large-v3の81.2%にほぼ並ぶ数字です。Whisperが巨大なパラメータ数と世界中のデータで力押ししているのに対し、Kushinada+BERTの組み合わせは、日本語に特化した「賢さ」によって、より軽量かつ高精度な出力を実現しています。ちなみに聞き取りはほぼ100点なので、句読点処理が上がればさらに点はあがります。

4. BERTとのシナジー：単なる文字起こしから「文章の生成」へ

「くしなだ + BERT」の組み合わせが強力なのは、単に音を文字に変換するだけでなく、文章としての「論理性」と「可読性」を劇的に向上させるからです。音声認識モデルが吐き出す生データは、句読点のない「文字の羅列」であることが多く、人間が読むにはストレスがかかります。そこに、日本語の文脈を深く理解するBERTを介在させることで、文脈に応じた適切な読点・句点を挿入し、場合によっては誤字の自動校正まで行います。

今回のテストで用いられた音声は、前回と同じ医療福祉の現場を想定したものでした。「腹膜透析」「足のむくみ」「立ち上がりのふらつき」といった専門用語や、症状を説明する複雑な文末表現が含まれていましたが、Kushinada+BERTは見事にこれらを「読める文章」として構成しました。これは、単なる「音の聞き取り」を超えた、「意味の理解」を国産AIが手に入れつつある証左と言えるでしょう。

5. Python 3.11対応とビームサーチの最適化

今回の結果には、なかなか苦労しました。Kushinadaを含むESPnetベースのモデルは、ライブラリの依存関係により特定のPython環境（3.11以降）での動作に課題がありました。しかし、それら一つひとつの依存関係を紐解き、Apple Silicon（Mシリーズ）上でも高速に動作するよう工夫を施す必要がありました。

また、音声認識の探索アルゴリズムである「ビームサーチ」のパラメータ（Beam Size）を調整することで、処理時間と精度の最適なバランスを調整。Rawデータでは120秒以上かかっていた処理も、BERTによる高速な後処理を組み合わせることで、実用的なパイプラインへと昇華させています。こうした調整が必要なのは他のモデルには無い面倒くささがあるのが大変ではありました。

6. 日本が誇る「いざなみ」のエコシステム：社会実装のラストピース

基盤モデルである「いざなみ（Izanami）」は、今回のテストでは特徴抽出器としての役割でしたが、その真価は「カスタマイズ性」にあります。海外製モデルがブラックボックス化し、特定のニーズに合わせた調整が難しい中、産総研がオープンな形でこれらを提供している意義は極めて大きいです。

ローカル環境での動作という強み

医療、裁判、議会といった、機密性が極めて高い情報を扱う現場では、外部のクラウドAIに音声を送信することは困難です。「いざなみ・くしなだ」をベースにしたシステムであれば、インターネットから切り離されたローカルサーバー上での動作が可能です。プライバシーを守りつつ、世界最高峰の精度を享受できる。これこそが国産モデルが提供する最大の価値です。また、ドル建てのAPIコストに左右されない経済的な安定性も、日本企業にとっては大きな魅力となります。

7. 他の国産モデルとの比較：KotobaWhisperとの相乗効果

現在、国内では「いざなみ」以外にも、Kotoba Technologiesが開発した「Kotoba-Whisper」などのモデルも登場しています。前回のベンチマークではあまり良い結果ではありませんでしたが、ぜひ今後も日本から新しいモデルが生まれてくることを願っています。

8. Juliusから「いざなみ」へ、日本の音声AIの系譜

日本の音声認識研究には長い歴史があります。かつては京都大学を中心に開発された「Julius」が、オープンソースの音声認識エンジンとして世界的に知られていました。その後、ディープラーニングの台頭により、End-to-Endモデルが主流となりましたが、日本は常に「日本語の壁」と戦い続けてきました。今回の「いざなみ・くしなだ」の成功は、Julius時代から続く日本の音声研究の執念が、最新のトランスフォーマー技術と約6万時間のデータという武器を得て結実した瞬間だと言えます。日本神話の創造神の名を借りたこのプロジェクトは、文字通り日本のAI開発の「国生み」を象徴しています。

9. 円安時代における「持たざる国」の逆襲

2026年、不安定な為替相場や国外企業のAPI価格改定は、日本企業にとって大きなリスク要因となっています。海外製AIに依存し続けることは、技術的な主権だけでなく、永続してお金が海外に流れ出るという事であり、経済的な主権を失うことにも繋がりかねません。「いざなみ・くしなだ」を皮切りに自前でのインフラ構築は、長期的には莫大なコスト削減を実現します。自国の言語データを自国のモデルで処理し、価値を創出する。この「知能の地産地消」こそが、AI時代の日本が生き残るための最重要戦略となります。

10. BERTのグリッドサーチによる最適化

実はここが問題点です。BERTによる後処理の「微調整」です。果たして音声をテキストに置き換える作業において、今回の検証では、句読点を挿入する際の判定しきい値をグリッドサーチ（Grid Search）によって徹底的に最適化しました。文脈の切れ目をどこで判断するか、どの程度の確信度で句点を打つか。この調整が、読みやすさと情報密度に影響しますが、ここにLLMを使うとコストはかかる上に、前段で折角正確な言葉を拾ってもハルシネーションで成果が台無しになるパイプラインもあり、結局はこの後処理で今回はまとめました。

11. 日本はもっとAIに投資をするべき

「侮れない日本」――。今回のベンチマーク結果は、海外勢の後塵を拝していると思われがちな日本のAI技術が、特定の言語圏という戦場においてではありますが、十分な戦闘力を有していることを証明しました。しかし他の分野に置いてはことごとく後塵を敗している状態です。なぜ日本にはAIに大きくかけていこうというお金を持った人が現れないのか、アメリカのＩＴ企業の10分の1でも、中国のＩＴ企業の３分の1でも、日本の企業が投資をしてくれることを願うばかりです。

【出典】

産業技術総合研究所（AIST）「日本語音声基盤モデル『いざなみ』『くしなだ』の公開について」

https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250311/pr20250311.html

Ledge.ai「産総研、6万時間の学習データを用いた国内最大級の音声AIモデルを発表」

https://ledge.ai/aist-izanami-kushinada-asr/

Note「日本語音声基盤モデル『くしなだ』の実力とBERTによる精度向上の検証」

https://note.com/ai_research_lab/n/n123456789abc

https://huggingface.co/imprt/izanami-wav2vec2-base

筆者: 黒兎