日本文化に特化した動画質問応答ベンチマーク「Japanese Video-QA」

May 18
5 min read

こんにちは。NABLAS R&D事業部です。

JSAI 2026（2026年度人工知能学会全国大会）にて、NABLASでは3つの論文・研究結果を発表予定です。

「SNSの分析による食品名のマーケティング支援用推薦システム」
「Japanese Video-QA: 日本文化に特化した動画質問応答ベンチマークの構築と評価」
「Video Forgery Detection with Optical Flow Residuals and Spatial-Temporal Consistency」

今回のTECH BLOGでは「Japanese Video-QA: 日本文化に特化した動画質問応答ベンチマークの構築と評価」について紹介、解説してまいります。

本論文では、日本文化に特化した動画質問応答ベンチマーク「Japanese Video-QA」を提案しています。近年、MLLM（Multimodal Large Language Model）は画像・音声・動画をまたぐ処理能力を急速に高めていますが、日本語かつ日本の文化に強く依存する動画理解の能力を定量的に評価できるベンチマークはほとんど存在しません。Japanese Video-QA は、このギャップを埋めることを目的に構築されたベンチマークであり、日本の文化という特定ドメインにおける動画理解の難しさを可視化する初期的な試みです。

発表概要はこちらからご確認いただけます。

http://pub.confit.atlas.jp/ja/event/jsai2026/presentation/1Yin-B-43

データセット

YouTube上の日本に関連する動画428本から構築した800件の質問応答ペアで構成されており、動画長はshort（4分未満）219本、medium（4〜20分）209本の2種類です。質問はGemini 2.5 Flashで生成した下書きを人手で検証・修正して作成しており、最終的なデータセットは四季・行事、観光名所、伝統文化、食文化、自然・風景、ポップカルチャーの6ドメイン、100サブドメインをカバーしています。公開データにはvideo_id、domain、subdomain、duration、question、answer、type、category、choices、start_time、end_timeなどの列が含まれており、フル動画を入力として評価する前提で設計されています。

質問方法

空間理解：位置や方向、配置を問う質問

計数：回数や個数を問う質問

行動認識：人物や物体の動作を問う質問

時間推論：出来事の前後関係や順序を問う質問

因果推論：原因や理由、目的を問う質問

質問設計は5カテゴリで整理されており、category列にはspatial（空間理解）、count（計数）、action（行動認識）、temporal（時間推論）、causal（因果推論）が付与されています。あわせて回答形式はopen（自由記述）、multi_choice（選択式）、yes_no（Yes / No）の3種類が用意されており、単なる物体認識だけでなく、順序理解や理由推定など多様な質問パターンを含むように設計されています。こうした構成により、日本の文化に関する動画に対する多面的な理解能力を切り分けて評価できる点がこのベンチマークの特徴です。

評価方法

大規模言語モデルを評価者として用いるLLM-as-a-Judge方式を採用し、GPT-4oをjudgeモデルとして各回答を1〜3点で採点しています。公開されているサンプルコードでは、1点＝誤り・無関係、2点＝あいまいまたは不十分、3点＝正確、という3段階評価を出力させる設計になっています。採点基準と実装例が公開されているため、再現性を確認しやすい構成になっています。

7種のMLLMを評価

商用モデル：Gemini 3 Pro、Gemini 2.5 Flash オープンソースモデル：Qwen3-VL-8B-Instruct、Qwen3-VL-8B-Thinking、Qwen3-VL-4B-Instruct、Qwen3-VL-4B-Thinking、Phi-4-multimodal-instruct

上記7つのMLLMを評価した結果、Gemini 3 Proが平均2.61点で最高性能を示し、Gemini 2.5 Flashも2.57点とこれに続きました。スコアの分布を見ると、Gemini 3 Proは800問中610問で3点評価を獲得しており、日本文化動画に対する理解の高さがうかがえます。一方で、オープンソース系ではQwen3-VL-8B-Instructが平均2.24点、Phi-4-multimodal-instructが1.74点にとどまっており、最良モデルとの差は依然として大きいことが分かります。本ベンチマークは単なる総合順位だけでなく、どの条件で性能差が広がるかを今後精査しやすい形で公開されています。

詳細な結果（カテゴリ別性能、質問タイプ別性能、動画長別性能、ドメイン別性能）と、データセットおよびベンチマークはHugging Face、Githubにて公開しています。

今後の課題

本研究では、日本文化に特化した動画質問応答ベンチマーク「Japanese Video-QA」を提案しました。今後は、カテゴリ別・動画長別・ドメイン別の結果を踏まえて、どの条件でモデル性能が大きく低下するのかをより詳細に分析していく余地があります。また、現在の公開データはshortとmediumを中心に構成されているため、より長尺な動画への拡張や、文化的背景の知識をより強く必要とする事例の拡充も重要な課題です。日本の文化という高文脈な題材に対して、MLLMがどこまで視覚から得られる情報と文化的な背景知識を統合できるかを継続的に測る評価基盤として、今後の発展が期待されます。

おわりに

今回紹介した論文はJSAI 2026（2026年度人工知能学会全国大会）にてポスター発表を行う予定です。興味のある方はぜひ現地で黒いNABLAS Tシャツを着ている開発チームにお声がけください。短い時間ですが、JSAI 2026に参加されるみなさまと議論できれば幸いです！

また、本技術に関連してAIエージェントの開発に挑戦しています。この難易度が高い課題に一緒に取り組む機械学習エンジニア・データサイエンティストを積極募集中です！開発メンバーとも直接話せる機会もありますので、興味のある方はぜひお気軽にお声がけください。

セッション番号：1Yin-B

セッション会場：Y会場（展示ホールAB-1）

セッション名：ポスター

セッション日時：2026年6月8日(月) 16:10 ~ 17:40

NABLASのR&D事業部では、今回の研究開発で課題として残った点を中心に引き続き基盤モデルの開発や関連技術サービスの開発に取り組むと共に、ディープフェイク検知、音声合成技術、生成AIなどの研究開発に日々取り組んで参ります。興味のある方はコーポレートサイトもご覧ください。

また、インターンをはじめ、リサーチャー、エンジニア、ビジネス職など、幅広く募集もしております。オンラインでカジュアルに私たちとお話ししてみませんか？ぜひ、上記コーポレートサイトやWantedly、Linkedinからご連絡くださいませ。