AI生成文章の検出モデルを開発　GPTシリーズで生成された日本語の文章を高精度に検出

Kotaro Nakayama
Jul 2, 2024
3 min read

Updated: Feb 10

AI生成文章と人間が作成した文章が混在するテキストデータにも対応

この度当社では、ChatGPT, GPT-4, GPT-4oなどのGPTシリーズの生成AIによって生成された文章を検出するAI生成文章検出モデルを開発しました（以下、「当検出モデル」）。当検出モデルは日本語文章において、AIで生成された文章を高精度に検出可能で、AIによって作成された虚偽のニュース、フィッシングメール等の検出や、学術機関における論文等の学術基準維持、教育機関における提出課題の生成判定など、様々な分野での文章の信頼性に関わる問題解決に貢献します。

■開発の背景

近年、ChatGPTをはじめ文章を自動で生成するAIが数多く登場し、様々な文章コンテンツをAIを用いて作成することが可能となりました。一方で、教育現場や学術分野においては、AIが生成した文章と人間が書いた文章の判別が困難であるという課題が生まれています。また、専門知識を持たずとも、AIを利用することでそれらしい文章を作成できる手軽さから、ネガティブキャンペーンや虚偽のニュースを作成する事例も出てきています。

このような社会的状況を受け、当社では、これまでのフェイク検出技術開発で得た知見を基に、AIによって生成された文章を検出する技術を開発しました。

■AI生成文章検出モデルについて

当検出モデルは、OpenAIが提供するGPTシリーズ（ChatGPT、GPT-4、 GPT-4oなど）によって生成された日本語の文章を検出するモデルです。350文字以上の文章であれば、AIによって生成された文章中に、人間が書いた文章が混ざっている場合でも生成された箇所を検出可能です。また、AI生成の文章を検出する機能を持つツール「GPTZero」との検出精度比較でも、GPTZeroの検出精度71%に対し当検出モデルでは88％の検出精度を記録し、GPTZeroを上回る結果となっています。

〈検証条件〉

●検出に使用したテキストは、以下の方法で生成されたデータで検証

・GPT-3.5：CausalLM/GPT-4-Self-Instruct-Japaneseのインストラクションを活用して生成

・GPT-4：CausalLM/GPT-4-Self-Instruct-Japaneseから出力

・GPT-4o：CausalLM/GPT-4-Self-Instruct-Japaneseのインストラクションを活用して生成

●20個の文章に対してそれぞれの検出器で判定を行った結果をまとめた数値

▼検出条件は以下の通り

・テキストの長さ：300文字以上

・検出に使用したオープンソースのデータセット：

https://huggingface.co/datasets/CausalLM/GPT-4-Self-Instruct-Japanese