多値分類で必要な教師データの件数

AI分類予測多値分類は、事前に設定した教師データに基づいて、検索結果のすべての公報について、複数のラベルの中から「最適なラベル」をAIが自動で付与してくれる機能です。
多値分類を利用することで、分類付与作業の効率化やAI予測ラベルを利用したマップ分析ができます。

多値分類では、どれくらいの教師データ数が必要か?というお問合せをたくさんいただきます。
1ラベルあたり15件以上の教師データを登録することで、精度のバラつきを抑えることができた検証例があります。
検証の詳細は、「AI分類予測「多値分類」の運用ノウハウ」のウェビナー動画および資料をご参照ください。

今回は、ラベルごとの教師データの件数に連動して、どれくらい精度がでるかを検証しました。
検証データは以下のとおりです。
・分類種別:多値分類
・作成したラベル数:10ラベル
・教師データ数:各ラベルごとに5件/10件/15件/20件/25件
・教師データの抽出法:ランダムサンプリング
・検証方法:Patentfieldの交差検証機能を使用
・学習パラメータチューニングは実施せず、対象特徴量や学習パラメータは各教師データ数すべて共通の設定とした。

検証結果

 
・教師データ数の増加に比例した精度向上が確認できた。例えば、教師データ25件の平均精度は81%となった。
・教師データ10件以上における精度向上は緩やかであった。
・教師データ15件以上では、精度のバラつきが約8%以内に抑まった。20件以上では、バラつきが約6%以内となった。

まとめ

・各ラベルの教師データ数を15件とすることで、精度約80%・バラつき8%以内に収まっていることから、各ラベルの教師データ数15件はひとつ指標になるのではないでしょうか。
・教師データ数が20件以上では、精度向上は緩やかとなっていますが、精度のバラつきは約6%以下となり、バラつきを抑えるという観点では教師データを増やす一定の価値があります。
・検証では対象特徴量等はデフォルト設定としたため、学習パラメータチューニングを実施することで、さらなる精度向上が期待できます。

なお、本ページに掲載された内容については、精度等を保証するものではありませんのでご了承ください。

参考(交差検証結果データ)