AI分類予測


AIラベル設定に 探したい技術の自然文書または特定の文献の特許出願番号に紐付けて2値(ポジティブ/ネガティブ)または任意の名前を示す教師ラベルを設定し、1万件の教師データを約数秒~10秒以内に高速に教師あり機械学習させることができます。 機械学習させたユーザー様独自のモデルにより、任意の検索結果を最大で10万件までを数秒以内で予測しスコアに加算することができます。

教師あり学習により技術的には近い内容であるが構成要素が一部違うノイズとなりうる文献群の順位を下げるなど、より効率的に調査を行うことができます。 また、任意の検索結果に対して予測させることができるため、自身の興味のある/ない文献または文書を学習させ、新規に公開/登録された文献のうち興味のある文献を効率的に発見することもできます。

AIラベルの設定は、上部ヘッダーのAIアイコンまたは、トップページのAIラベル設定リンク、詳細検索画面のAIラベル設定ボタンまたは検索結果画面のAIラベルONのボタンより開くことができます。

例えば、AIラベルは、セマンティック検索やセマンティックスコアで類似度順に並べたときに、ノイズ、調査対象でないものを追加的に教師データとして与えることにより、より効率的に調査を行うために用いることができます。

AI教師ラベルの一括読み込み手順についてはこちらをご参照ください。














AIラベル設定画面

1. 対象特徴量選択ボックス
AIによる分類対象となる特徴量を選択します。特に請求の範囲(クレーム)を分類したい場合は、明細書が含まれていない特徴量を選択します。複数組み合わせることもできます。

- タイトル/要約/請求の範囲/明細書/審査官キーワード(セマンティック)
- タイトル/要約/請求の範囲(セマンティック)
単語、文書を機械学習させた概念をもとにした文書特徴量です。概で分類するため、分類がややあいまいになります。クレームなどを厳密に分類したいときはセマンティックがついていない方を利用してください。セマンティックの方を分類に使う場合は、ある程度の量の教師データが必要になることがあります。

- 引用関係
引用ネットワークを元とした特徴量です。引用関係のない文献、テキストデータでは分類することができません。

- タイトル/要約/請求の範囲/明細書/審査官キーワード
- タイトル/要約/請求の範囲
実際のキーワードをベースとした文書特徴量です。セマンティックのものと比べ、厳密に分類されます。例えば、太陽電池とソーラーパネルのキーワードはそれぞれ別物として分類されます。ただし、ソーラーパネルが含まれる文書と太陽電池が含まれる文書は、それぞれの文書内に共通して太陽光など太陽に関連するキーワードが出現していることにより、文書全体としては同じように分類されることはあります。

2. 分類種別選択ボタン
2値分類か多値分類かを選択します。2値分類の場合、ポジティブ:1かネガティブ:-1を、多値分類の場合は任意のラベル名を教師データとして与えます。

3. AI予測スコア調整チェックボックス
教師データによるAI予測スコアを使って、セマンティック検索やキーワード検索によるスコアを調整します。教師データによるAI予測スコアと教師データのないセマンティック検索による類似度スコアを調整して総合的なスコアでソートすることができます。

4. 予測ラベルフィルター
AIによる予測結果で絞り込みを行いたい場合、予測結果のラベルを選択します。

5. ラベル作成
多値分類の新規ラベルを作成します。一括読み込みを行う際は、ラベルは自動的に追加されるため、こちらで設定する必要はありません。

6. ラベル一覧
教師ラベルの一覧です。2値分類の場合、-1か1、多値分類の場合、複数設定することができます。多値分類の場合、おおよそ100個程度までは設定可能です。
6a. ラベル名
ラベル名をクリックするとラベル名を変更することができます。
6b. 教師ラベル数
ラベル名の右横数値は教師ラベル数です。
6c.ラベルの重み
ラベルごとの重み数値です。この値は一括編集すると自動で調整されます。ノイズデータのみ数が多いなど教師ラベルの数が不均衡な場合に調整することができます。
6d. ラベル名削除ボタン
ラベル名を削除します。
6e. ラベル名一括削除ボタン
全てのラベル名を削除します。

7. 教師データのクエリ種別選択ボックス
教師データのクエリ種別を選択します。「出願番号」か「公開番号」か「登録番号」か「テキスト」かを選択します。出願番号等であっても、入力クエリが"特開2004-123456"や"特許6123456"など明確に判断可能な番号形式の場合、こちらのクエリ種別によらず自動的に適切な番号種別で設定されます。"2004-123456"などそれ単体では特願か特開か判断がつかない場合、クエリ種別の選択中の種別が優先されます。

クエリ種別が「テキスト」の場合、特開2004-123456など番号のフォーマットであってもテキストとして他使われるため、注意してください。
8. 教師データのクエリ入力フォーム

教師データのクエリを入力します。番号かテキストを入力します。出願番号はJP20010123456の形式か、特願2001-123456、特開2001-123456などの形式で入力できます。未対応のフォーマットがあればお問い合わせ下さい。教師データのクエリ種別が「出願番号」であっても特開2001-123456や特許6123456など番号フォーマットが特定可能な番号体系であれば、自動的に適切な種別に変換して追加されます。教師データのクエリ種別が「出願番号」のときに出願番号のフォーマットではないテキストを入力すると、自動的にクエリ種別は「テキスト」に切り替わります。#から後は無視されます。コメントに利用できます。

9. 教師データのラベル設定フォーム
教師データのラベルを設定します。2値分類の場合は、1または-1、多値分類の場合は、ラベル名を設定します。

10. 教師データ追加ボタン
設定した7~9の教師データを追加します。

11. 教師データ設定欄
設定した教師データの一覧です。教師データは、Freeアカウントで10個、有料アカウントで10000個まで設定することができます。
11a. 教師データ通し番号
11b. 教師データクエリ種別アイコン
出願番号の場合:出願 公開番号の場合:公開、登録番号の場合:登録  テキストの場合:

11c. 教師データクエリ編集ボタン
11d. 教師データクエリ
11e. 教師データ出願番号
番号で入力する場合、こちらに出願番号が表示されていない場合、適切に読み込めていません。ご注意ください。データベースに存在しない番号の場合、!マークが表示されます。(図中8行目参照)
11f. 教師データラベル
クリックによりラベルを切り替えることができます。多値分類の場合、1-5のうち抜けがないようにラベル付けをしてください。たとえば、1-3、1-5など。1,3,5など教師データのラベルにするとうまく分類できないことがあります。

11g. 教師データ削除ボタン
11h. 教師データ一括編集切り替えボタン
一括編集モードに切り替えることができます。一括編集モードでは、テキストエディタやエクセルなどで用意した教師データをコピーペーストで貼り付けることができます。1列目に番号またはテキスト、2列目にラベル(1or-1)、3列目にクエリ種別(省略可、テキストの場合t、出願番号の場合a、公開番号の場合p、登録番号e)を行ごとにタブまたはカンマ(,)で区切って入力します。
例:
JP20060290111 # EPODOC形式出願番号(JPYYYYNNNNNNN),1
特願2010-122389 # 特願形式(特願YYYY-N),1
WO2013176233 # WO形式,1,p
特許5544573 #特許番号形式(特許NNNNNN),-1,e
特開2016-144034 #特開形式(特開YYYY-N) ,-1,p

11i. ファイルから読み込みボタン
1列目に番号またはテキスト、2列目にラベルが記載されたCSVファイルなどのテキストファイルから教師データを読み込ませることができます。

11j. 教師データ一括削除ボタン
11k. 学習パラメータ設定ボタン (原則、変更する必要はありません。)
11l. 予測データ設定切り替えボタン
 検索結果ではなくユーザーが用意したデータで予測を行いたい場合は、こちらから予測データ画面に切り替えます。検索結果のデータで予測する場合は、14.の予測ボタンを使います。
11m. マニュアル
このページへのリンクです。
11n. 精度
教師データの予測精度です。教師データの1/4を検証データにしたときの正解率です。この精度はパラメータチューニングの際に算出された精度であり、実際の学習は、全ての教師データが用いられています。

12. 検索結果でのAI予測有効設定チェックボックス
 この画面で設定された教師データは全ての検索時に共有され、毎回予測に使われます。検索時に教師データを使って予測させたくない場合は、チェックを外して下さい。

13. セマンティックスコア併用設定チェックボックス
 より教師データに近い文献を上位表示させるため、教師データのポジティブラベル(1)上位5個をセマンティックスコア条件に反映させて検索します。すでに詳細画面でセマンティックスコアが設定されている場合は反映されません。

14. 検索結果で予測ボタン
設定した教師データを使って機械学習させ、任意の検索結果のうち最大10万件を予測します。AIラベル以外の検索設定が何もされていない場合、セマンティック検索の条件に教師データのポジティブラベル(1)上位5個が自動的に設定されます。この場合、上位5個の教師データに類似する文献を絞り込んだ上で、教師データを使って分類予測処理が行われます。日付や特許分類など、他の検索条件が設定されている場合は、その検索結果の母集団で分類予測処理が行われます。

15. 予測モデル選択メニュー
作業グループごとに教師データセットを保存することができます。作業グループを追加を選択すると、新しい作業グループが作成され、ペンシルアイコンを選択すると、作業グループの名前を変更することができます。

16. プレ予測モデル選択メニュー
2種類の教師データセットで予測することができます。2値分類でノイズを除去した予測結果でフィルターし、その母集団でさらに多値分類などを組み合わせることができます。


予測データ設定画面

1. 予測データのクエリ種別選択ボックス
予測データのクエリ種別を選択します。「出願番号」か「テキスト」かを選択します。

2. 予測データのクエリ入力フォーム
予測データのクエリを入力します。出願番号かテキストを入力します。出願番号はJP20010123456の形式か、2001-123456などの形式で入力できます。現在、出願番号以外での入力は未対応です。

3. 予測データの正解ラベル設定フォーム
予測データの正解ラベルを設定します。原則0のままで構いません。すでに分類結果がわかっている場合に、正解ラベル(2値分類の場合は、1または-1、多値分類の場合は、1~5)を設定すると、設定した教師データの分類精度の検証を行うことができます。(本当は-1として分類してほしかったのに誤って1として分類されてしまった確率など)

4. 予測データ追加ボタン
設定した1~4の予測データを追加します。

5. 予測データ設定欄
5a. 予測データ通し番号
5b. 予測データクエリ種別アイコン
出願番号の場合:  テキストの場合: 
5c. 予測データクエリ
5d. 予測データクエリ編集ボタン
5e. 予測確率
予測したデータの確率を-1~1の数値で示します。-1に近いほど、-1のラベルである確度が高く、1に近いほど、1のラベルである確度が高いことを示します。これは相対的な値で予測対象の数、種類が変わると数値も変わります。
5f. 予測ラベル
AIが予測したラベルを表示します。スクリーンショットの例では、教師データに仮想通貨の効果に関する文書のラベルを1、クレジット決済に関する文献番号のラベルを-1などの教師データで学習されており、予測データでは、クレジット決済は-1、仮想通貨決済は1に分類されています。
5g. 正解ラベル
クリックによりラベルを切り替えることができます。
5h. 予測データ削除ボタン
5i. 予測データ一括編集切り替えボタン
一括編集モードに切り替えることができます。一括編集モードでは、テキストエディタやエクセルなどで用意したものをコピーペーストで貼り付けることができます。1列目に出願番号またはテキスト、2列目に正解ラベル(省略可)、3列目にクエリ種別(省略可、テキストの場合t)を行ごとにタブまたはカンマ(,)で区切って入力します。
5j. 予測データ一括削除ボタン
5k. 学習パラメータ設定ボタン (原則、変更する必要はありません。)
5l. 教師データ設定切り替えボタン
検索結果ではなくユーザーが用意したデータで予測を行いたい場合は、こちらから予測データ画面に切り替えます。検索結果のデータで予測する場合は、11.の予測ボタンを使います。

6. 予測データで検索ボタン
予測データに入力した番号で検索します。予測結果を予測スコア順に並び替えてエクスポートしたい場合などは、こちらで検索して検索結果画面でエクセルエクスポートして下さい。


検索結果画面


1. AI予測スコア
予測したデータの確率を-1~1の数値で示します。-1に近いほど、-1のラベルである確度が高く、1に近いほど、1のラベルである確度が高いことを示します。

2. 教師データポジティブラベル(1)設定
クリックすると、この文献がポジティブラベル(1)として教師データに追加されます。

3. 教師データネガティブラベル(-1)設定
クリックすると、この文献がネガティブラベル(-1)として教師データに追加されます。

4. AIラベルON OFF設定
検索結果での予測を常に有効のチェックボックスにチェックされている場合はONと表示されます。クリックするとAIラベル設定の画面が開きます。

5. 教師データポジティブラベル(1)総数

6. 教師データネガティブラベル(-1)総数