クラウドサービス
2026年03月18日

IBMの音声AI新モデル「Granite 4.0 1B Speech」、パラメータ半減でOpenASR首位に

IBMの音声AI新モデル「Granite 4.0 1B Speech」、パラメータ半減でOpenASR首位に

IBMの音声AI新モデル「Granite 4.0 1B Speech」、パラメータ半減でOpenASR首位に(写真はイメージ)

IBMは2026年3月9日、音声AIモデルの新バージョン「Granite 4.0 1B Speech」をHugging Face上で公開しました。エンタープライズ向けの音声言語モデルとして、リソースが限られたエッジデバイスでの運用を想定した設計が特徴です。

パラメータ数は約10億(1B)で、前バージョン「granite-speech-3.3-2b」のおよそ半分に抑えられています。それにもかかわらず、英語の音声認識精度は前モデルを上回り、推論速度も投機的デコーディング(speculative decoding)の採用によって向上しているとされています。

対応言語は英語・フランス語・ドイツ語・スペイン語・ポルトガル語・日本語の6言語です。今回の新バージョンでは日本語の音声認識(ASR)サポートが新たに追加されたほか、固有名詞や略語の認識精度を高める「キーワードリストバイアス」機能も導入されました。いずれもコミュニティから要望の多かった機能とのことです。

さらに、オープンな音声認識システムの性能比較指標であるOpenASRリーダーボードにおいて、同モデルは現在1位にランクインしています。ライセンスはApache 2.0で、transformersライブラリおよびvLLMへのネイティブ対応も完備されています。

「小さくても精度は高く、現場で動かせる」というコンセプトは、音声AIの普及を実務の側から後押しする可能性を秘めています。

エッジAIと音声処理、二つのトレンドが交差する背景

続きをお読みいただくには

この記事の続きは会員登録が必要です(無料)

登録は30秒で完了。月間100万人が利用する国内最大級のITニュースサイトです

top遷移画像

Copyright (C) 2026 IT Trend All Rights Reserved.