NABLAS株式会社、日本語・英語を高精度に理解するバイリンガルな大規模視覚言語モデル「NABLA-VL」を一般公開
- NABLAS
- 3 日前
- 読了時間: 3分
複数ベンチマークで国内トップクラスの性能を達成。H200 GPU 24台 × トークン削減手法により学習・推論時間も短縮。

この度、当社は自社で開発した150億パラメーター規模の大規模視覚言語モデル(Vision-Language Model, VLM)「NABLA-VL」を公開したことをお知らせします。
本モデルは、経済産業省とNEDOが実施する、国内の生成AI開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」で開発されたものです。「NABLA-VL」は、テキスト・画像・動画を理解する能力を備え、日本語、英語においてバランスの取れたバイリンガル対応且つ高性能マルチモーダルAIとして研究・産業の双方での利活用を目指しています。
■ モデルの特徴
トークン削減による学習・推論の高速化
トークン圧縮手法(画像から必要な情報だけを抽出し、処理すべきデータ量を削減する方法)を適用し、視覚トークンを総数の87.5%分を除去することで、学習時間を約50%短縮(約2倍高速化)、推論時間も23%短縮(約1.3倍高速化)しました。これにより、モデル運用にかかるコストと開発時間の大幅な削減を実現しています。
国内トップクラスの性能
マルチモーダルAIを評価するための複数の日英ベンチマークにおいて、他の国産モデルを上回る性能を達成しました(2025年5月現在)。
これは、精度と汎用性の両方において信頼性が高い基盤モデルであることを示しています。
オープンソースとして公開し再現や応用が容易
モデル本体と学習/推論コードを Apache 2.0 ライセンスで公開しており、研究者・開発者が容易に利用できるよう設計されています。
■モデル・コード公開先
本モデルのソースコードは Hugging Faceで公開しており、技術的な内容の詳細については当社の技術ブログにて解説・公開しています。
企業Webサイト:https://www.nablas.com/
■主なベンチマーク結果(2025年5月測定)
特に英語領域においては、MMMU、LLaVA-Bench (In-the-Wild)といった主要ベンチマークで国内モデル中トップのスコアを達成。さらにJDocQAやMulIm-VQAなどでも国内トップレベルの性能を示しています。また、OpenAIのgpt-4o-2024-11-20と比較しても、いくつかのベンチマークで上回るスコアを記録しています。
参照したリーダーボードはこちら(2025年5月22日時点)
ベンチマーク | スコア | 備考 |
---|---|---|
JMMMU※1 | 45.68 | MMMU の日本版 |
JDocQA | 29.16 | 図表を含む文書QA |
MECHA | 59.63 | 日本の土地やもの、行事などに関するベンチマーク |
MMMU | 51.11 | 多分野にわたる、学部生レベルの知識が求められる選択式QA |
JVB-ItW(LLM) | 4.06 | LLaVA-Bench-In-the-Wild の日本版 |
JVB-ItW(ROUGE-L) | 46.52 | - |
VG-VQA(LLM) | 3.97 | Visual Genome データセットの画像を使って作成されたベンチマーク |
VG-VQA(ROUGE-L) | 15.74 | - |
LLAVA(LLM) | 3.93 | 多様な画像を含むベンチマーク |
LLAVA(ROUGE-L) | 27.19 | - |
MulIm-VQA(LLM) | 4.27 | 複数画像 のベンチマーク |
MulIm-VQA(ROUGE-L) | 55.75 | - |
Heron(LLM) | 67.52 | 「日本っぽい」アニメや観光地の画像に関するQA |
JIC | 63.16 | 施設や食べ物などの分野に関する分類タスク |
※スコアはllm-jp-eval-mmを用いて評価
※1:日本語における大規模マルチモーダルモデルを評価するための先駆的なベンチマーク。
■お問い合わせ
大規模視覚言語モデル「NABLA-VL」に関するお問い合わせは以下フォームからお気軽にご相談ください。