IBMは2026年3月9日、音声AIモデルの新バージョン「Granite 4.0 1B Speech」をHugging Face上で公開しました。エンタープライズ向けの音声言語モデルとして、リソースが限られたエッジデバイスでの運用を想定した設計が特徴です。
パラメータ数は約10億(1B)で、前バージョン「granite-speech-3.3-2b」のおよそ半分に抑えられています。それにもかかわらず、英語の音声認識精度は前モデルを上回り、推論速度も投機的デコーディング(speculative decoding)の採用によって向上しているとされています。
対応言語は英語・フランス語・ドイツ語・スペイン語・ポルトガル語・日本語の6言語です。今回の新バージョンでは日本語の音声認識(ASR)サポートが新たに追加されたほか、固有名詞や略語の認識精度を高める「キーワードリストバイアス」機能も導入されました。いずれもコミュニティから要望の多かった機能とのことです。
さらに、オープンな音声認識システムの性能比較指標であるOpenASRリーダーボードにおいて、同モデルは現在1位にランクインしています。ライセンスはApache 2.0で、transformersライブラリおよびvLLMへのネイティブ対応も完備されています。
「小さくても精度は高く、現場で動かせる」というコンセプトは、音声AIの普及を実務の側から後押しする可能性を秘めています。
エッジAIと音声処理、二つのトレンドが交差する背景
続きをお読みいただくには
この記事の続きは会員登録が必要です(無料)
登録は30秒で完了。月間100万人が利用する国内最大級のITニュースサイトです

