SNSの分析による食品名のマーケティング支援用推薦システム

5 days ago
5 min read

こんにちは。NABLAS R&D事業部です。

NABLASでは経済産業省とＮＥＤＯが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）」の支援を受け、2024年の10月から2025年の4月末までの約6ヶ月間、視覚言語モデルとそれを活用したサービス開発に取り組みました。本記事では、その研究開発成果を基に、SNSデータからのトレンド予測に関して、実用化に向けた更なる研究開発を進めてまいりました。

なお、該当の論文はJSAI2026（2026年度人工知能学会全国大会（第40回））にて口頭発表を行う予定です。

論文URL

始めに：なぜこれをやるのか

食品のトレンドは、企業の商品開発や在庫管理、物流計画などに直結する非常に重要な要素です。英語圏では既にSNSのコメントを分析した食品トレンド予測が始まっていますが、日本語のSNSコミュニティにおいて「次に流行しうる食品名の候補」を自動で選び出すための指針や先行研究はこれまで存在していませんでした。

先行研究では、「自分の好みに適合」しつつも「目新しい予想外の情報の組み合わせ（＝セレンディピティ）」がある時に、人は新しいものに興味を持つ傾向があるとしています。

そこからヒントを得て、本研究では、これから流行り得る食品の条件を、以下の2つを満たすものだと定義し、システム化に取り組みました。

提案手法

本システムでは、入力された食品名について「レア度」と「予想外さ」を別々に推定し、最終的に統合スコアを算出します。

1. レア度の推定（出現頻度の低さ）

日本語の食品名分布は、修飾詞の有無や表記ゆれにより出現頻度が広く分散する傾向があります。そこで、1つ1つの食品名をそのままカウントするのではなく、言語モデルの埋め込み表現を用いてあらかじめ定義した「カテゴリタグ」に食品名を分類し、そのタグの出現確率（コーパス全体でのタグ分布）をベースにレア度を計算する手法をとりました。

2. 予想外さの推定（万人から面白く感じられるか）

「予想外である」ことを自然言語の独創性と捉え、食品名を構成する単語間の埋め込み表現の距離から計算しました。先行研究により、短編小説において「各文の言語モデルによる埋め込み表現の距離が遠い（コサイン類似度が低い）ほど、人間が独創的と感じる」ことが示されています。これを食品名に応用し、食品名を形態素解析（GiNZAを使用）で分解し、単語間の距離が遠ければ予想外な組み合わせであると仮定しました。なお、助詞や助動詞などは意味への寄与が少なくノイズになるため、名詞・動詞・形容詞などに限定して距離を計算しています。

3. 使用したモデル

ランニングコストを考慮し、埋め込み表現の計算にはフリーモデルである ruri-v3-310m を使用し自社サーバ上で推論を行っています。

実験

提案手法を検証するため、2024年10月から2025年9月にかけてXおよびBlueskyから収集した約35,449件の日本語の食品名データセットを使用し評価を行いました。また、レア度と予想外さの統合スコアを算出し、評価用データセットの中から相対的なランキングを作成しました。

結果

システムの出力結果を、「提案システム（統合スコア）」「レア度のみの上位」「予想外さのみの上位」「乱択（ランダム）」で比較した表が以下です。

考察

本システムを開発・評価する中では予想外の問題もありました。それは、埋め込み表現ベースでのタグ割り当てを行っているため、「小籠包」という単語に対し、「中華料理」よりも「菓子」などのタグが言語モデル上で先に来てしまうという問題です。これは現在の埋め込み表現モデルが根本的に抱えている意味的な偏りであり、タグ分類精度の低下を招く要因の一つとなっています。

今後の課題と展望

今後の課題としては以下の点が挙げられます。

タグ割り当て精度の改善
現在、システムの出力するタグと正解タグが合致する確率はtop-1で52.91%にとどまっています。これは前述の「小籠包」が「菓子」に割り当てられる問題のように、現在の言語モデルが根本的に抱えている意味的偏りによる影響が大きいです。今後は、単純な埋め込み表現の類似度だけに依存しない、よりロバストなタグ割り当てアルゴリズムの構築が必要です。
新たな「意外さ」の尺度の導入
本システムでは「単語間の距離」を独創性の指標としましたが、今後はより多角的な視点から精緻な「目新しい予想外の情報の組み合わせ」を評価できる新たな尺度の組み込みを検討しています。
基盤モデルのアップデート
今回はランニングコストの観点から公開モデルの ruri-v3-310m をそのまま活用しましたが、今後は今回独自に収集したデータセットを用いてfine-tuningを行うことで、分類精度の向上が見込まれます。

おわりに

今回紹介した論文はJSAI 2026（2026年度人工知能学会全国大会）にて口頭発表を行う予定です。興味のある方はぜひ現地で黒いNABLAS Tシャツを着ている開発チームにお声がけください！短い時間ですが、JSAI 2026に参加されるみなさまと議論できれば幸いです！

また、本技術に関連するデータ分析エージェントの開発チームでは、AIエージェントによるデータ分析の自動化、相関分析にとどまらず、DAGの自動構築を含む因果推論の自動化にも挑戦しています。これらの難易度が高い課題に一緒に取り組む、機械学習エンジニア・データサイエンティストも積極募集中です！開発メンバーとも直接話せる機会もありますので、興味のある方はぜひお気軽にお声がけください！

セッション番号：1J3-GS-10d

セッション会場：J会場（中会議室201B）

セッション名：AI応用

発表形式：口頭発表（現地）

分野：GS-10 AI応用

セッション日時：2026年6月8日(月) 13:40 ~ 14:55

本チームの取り組みは以下をご覧ください。

https://huggingface.co/nablasinc/NABLA-VL

https://www.nablas.com/post/nabla-vl-202602

NABLASのR&D事業部では、今回の研究開発で課題として残った点を中心に引き続き基盤モデルの開発や関連技術サービスの開発に取り組むと共に、ディープフェイク検知、音声合成技術、生成AIなどの研究開発に日々取り組んで参ります。興味のある方はコーポレートサイトもご覧ください。

また、インターンをはじめ、リサーチャー、エンジニア、ビジネス職など、幅広く募集もしております。オンラインでカジュアルに私たちとお話ししてみませんか？

ぜひ、上記コーポレートサイトやWantedly、Linkedinからご連絡くださいませ。