クラウドサービス
2026年04月02日

IBMが3Bパラメータの軽量マルチモーダルモデル「Granite 4.0 3B Vision」を公開——企業文書の視覚的理解に特化

IBMが3Bパラメータの軽量マルチモーダルモデル「Granite 4.0 3B Vision」を公開——企業文書の視覚的理解に特化

IBMが3Bパラメータの軽量マルチモーダルモデル「Granite 4.0 3B Vision」を公開——企業文書の視覚的理解に特化(写真はイメージ)

IBMは2026年3月31日、企業文書の視覚的理解に特化した軽量ビジョン言語モデル(VLM)「Granite 4.0 3B Vision」をHugging Face上で公開しました。同モデルは30億パラメータ規模ながら、表の解析・チャートの構造化・帳票フィールドの抽出という3つの領域で高い精度を発揮する点が注目を集めています。

モデルはGranite 4.0 Microというテキスト専用の密なLLM上に、LoRAアダプターとして実装されています。テキスト処理と視覚処理をモジュールとして分離したこの設計により、画像を必要としないワークロードでは自動的にベースモデルへフォールバックできます。マルチモーダルAIの実装において、推論コストと運用柔軟性の両立が課題になりがちな中、こうした軽量・モジュラー構成のアプローチは、エンタープライズ現場での採用を意識した実用的な判断と受け取れます。

Apache 2.0ライセンスで公開されており、商用利用を含む幅広い活用が可能です。チャート理解・帳票処理・財務レポート分析といった具体的なユースケースを想定した設計になっており、既存のドキュメント処理パイプラインへの組み込みも視野に入れた作りになっています。

企業文書AIの実需に向き合った開発背景

企業の日常業務には、膨大な非構造化ドキュメントが存在します。請求書・申請書・財務報告書・研究論文——これらはいずれも、機械が直接読み込めるテキストデータではなく、表・図表・レイアウトを含む「視覚的な情報」として存在しています。こうした文書をAIが正確に理解できるようにすること、すなわちドキュメントインテリジェンスの高度化は、企業DXの重要な課題のひとつとして認識されてきました。

これまでLLMの活用はテキスト処理が中心でしたが、近年はビジョン言語モデル(VLM)の登場によってPDFや画像スキャンの内容を直接解析する動きが加速しています。OpenAIのGPT-4oやGoogleのGemini、MetaのLlama系モデルなど、大手が大規模VLMをリリースする一方で、エンタープライズ用途においては「精度が高ければ大きいほどよい」とは必ずしも言えない側面もあります。推論コスト・レイテンシ・オンプレミス展開の可否・データプライバシー——こうした実務的な制約が、軽量モデルへの需要を生み出しています。

IBMはこれまでGraniteシリーズを通じて、エンタープライズ向けの実用的なAIモデルを継続的に提供してきました。Granite 4.0 3B Visionはその流れを汲みつつ、文書理解という特定ドメインに焦点を絞った設計になっています。汎用性を追求するのではなく、表・チャート・帳票という業務頻出のユースケースに絞り込んだことで、3Bという小規模なパラメータ数でも実用水準の精度を実現しようとしている点に、IBMの開発方針が反映されていると言えるでしょう。

また、オープンソース文書処理ライブラリ「Docling」との統合を公式にサポートしている点も見逃せません。Doclingは多ページPDFの処理や視覚要素の自動セグメンテーションに対応しており、Granite 4.0 3B Visionと組み合わせることでエンドツーエンドのドキュメントパイプラインを構築できます。

既存ツール・競合との比較ポイント

Granite 4.0 3B Visionの立ち位置を理解するうえで、既存のVLMや文書処理ツールとの比較は欠かせません。公開ベンチマーク結果をもとに、以下の観点から整理します。

チャート理解の精度
- Chart2Summary(チャートの要約精度):86.4%で評価モデル中最高スコア
- Chart2CSV(チャートのCSV変換精度):62.1%でQwen2.5-9Bに次ぐ2位

9Bクラスのモデルに近い精度を3Bで実現している点は注目に値します。パラメータ数が約3分の1でありながらチャート理解においてこの水準を出せる背景には、ChartNetと呼ばれる独自データセットの存在があります。ChartNetは170万件の多様なチャートサンプルを含む大規模マルチモーダルデータセットで、24種類のチャートタイプ・6種類のプロットライブラリをカバーし、コード・画像・データテーブル・自然言語サマリー・QAペアをセットで保有しています。単に視覚的な描写を学習するのではなく、チャートの構造的な意味を理解させることを目指した設計と言えます。

表抽出の精度
- PubTablesV2(クロップ画像):92.1 TEDS
- PubTablesV2(全ページ):79.3 TEDS
- OmniDocBench:64.0
- TableVQA:88.1

TEDSはTable Edit-Distance Scoreの略で、100に近いほど正確な表構造を再現できていることを意味します。全ページ画像からの表抽出という難易度の高いタスクでも79.3という水準を維持しており、複雑な文書レイアウトへの対応力を示しています。

帳票フィールド抽出(KVP抽出)
- VaREX benchmark(米国政府フォーム1,777件・ゼロショット):85.5% exact match

この精度は、モデルが事前に帳票フォーマットを学習していない状態でも高精度を発揮できることを示しています。帳票のレイアウトが多様であっても対応できる汎化性能として評価できます。

既存ツールとの差別化軸

比較軸

Granite 4.0 3B Vision

大規模汎用VLM(GPT-4o等)

専用OCRツール

パラメータ規模

3B(軽量)

数十〜数百B

非該当

ライセンス

Apache 2.0(商用可)

API従量課金

ベンダー依存

文書特化精度

汎用

高(テキストのみ)

視覚的構造理解

対応

対応

限定的

Docling統合

公式サポート

非対応

非対応

テキスト専用フォールバック

可(LoRA設計)

不可

非該当

汎用VLMとの最大の違いは、APIに依存せずオンプレミスやセルフホスト環境で動かせること、そして文書特化の精度チューニングが施されていることです。OCR専用ツールと比べると、単なる文字認識を超えた「意味的な構造理解」が可能な点が強みになります。

導入・検討時に見るべきポイント

Granite 4.0 3B Visionの導入を検討する際、IT担当者・システム担当者が確認しておくべき実務的な観点を以下に整理します。

動作環境とリソース要件
3Bパラメータ規模のモデルとしては比較的小型ですが、画像処理を伴うVLMであるため、推論にはGPUが必要になるケースがほとんどです。LoRAアダプター方式のため、Granite 4.0 Microのベースモデルと合わせてロードする必要があり、実際の必要メモリはベースモデルの仕様も含めて確認が必要です。Hugging FaceのモデルカードにVRAM要件が記載されていることが多いため、事前に確認することが推奨されます。

Doclingとの統合
公式にDoclingとの統合がサポートされているため、多ページPDFの自動処理パイプラインを構築する場合はDoclingとの組み合わせが現実的です。ただし、Doclingの導入・設定コストも考慮したうえで、自社の文書処理フローに合っているか確認することが重要です。既存のPDFパーサーや帳票処理システムとの置き換え・併用の検討も必要になるでしょう。

ユースケースの適合性
このモデルが強みを発揮するのは、表・チャート・帳票フィールドの抽出という特定の領域です。自由文書の読解や複雑な推論タスクには汎用LLMの方が適している場合があり、用途を整理したうえで選定することが求められます。請求書処理・財務レポート解析・申請書フィールド抽出など、繰り返し処理が発生する定型的なドキュメントワークフローとの親和性が高いと考えられます。

ライセンスと商用利用
Apache 2.0ライセンスは商用利用・改変・再配布をすべて許可しており、法務面でのリスクが低いライセンスのひとつです。ただし、利用する組織のコンプライアンスポリシーに照らして問題がないかを確認することは、いかなるOSSモデル導入においても必要なステップです。

サポートとコミュニティ
IBMが継続的に開発・メンテナンスしているGraniteシリーズのモデルであることから、モデルの更新・脆弱性対応といった継続的なサポートが期待できます。ただし、エンタープライズ向けの有償サポートを必要とする場合はIBM watsonxとの関係性や、IBM側のサポート契約の有無について確認することが望ましいでしょう。

まとめ

Granite 4.0 3B Visionは、大規模モデル全盛の時代においてあえて「軽量・特化型」を選んだ点に特徴があります。チャート理解・表抽出・帳票フィールド抽出という業務頻出の文書処理タスクに的を絞り、9Bクラスに迫る精度を3Bパラメータで実現しようとするアプローチは、コストと性能のトレードオフを現場視点で解いた一例と受け取れます。

エンタープライズAIの文脈では、「何でもできる大きなモデル」よりも「特定業務に使いやすい小さなモデル」への需要が一定程度存在します。オープンソースでの提供・LoRAによるモジュラー設計・Doclingとの統合——これらは導入ハードルを下げる要素として機能しうるでしょう。

一方で、文書AIの競争は急速に進んでいます。QwenやMistralといったオープンソース系モデルも精力的に視覚理解機能を強化しており、同等規模のモデルとの差別化がどこまで維持されるかは継続的に注目すべき点です。

IBMがGraniteシリーズをどのようなロードマップで進化させていくのか、また文書処理という特化領域でどのような競争優位を築くのかは、エンタープライズAI市場の動向を読む上でひとつの指標になりそうです。

top遷移画像

Copyright (C) 2026 IT Trend All Rights Reserved.