ハイパーパラメータチューニング

機械学習では、ハイパーパラメータと呼ばれるチューニングしなければいけないパラメータがいくつか存在します。教師データが少ないうちは自動的にパラメータ調整を行いますが、教師データが1000件を超えると自動でパラメータ調整は行われません。

正解ラベルがわかっている教師データの一部を教師データに追加せずに予測データに追加することにより、未知データ(教師データとして与えていないデータ)に対する精度(正解率)を検証しながらパラメータを調整することができます。

1. C コスト(誤分類許容度)
この値が小さいほど教師データに対しては正解率が高くなりますが、未知データに対しては精度が出にくくなる傾向があります。

2. Sigma カーネルパラメータ
この値が小さいほど教師データに対しては正解率が高くなりますが、未知データに対しては精度が出にくくなる傾向があります。なお、Sigmaは(セマンティック)がつく特徴量しか設定できません。

3. パラメータ自動調整チェックボックス
チェックすると、教師データが1000件以下の場合、Cのパラメータのみ自動でパラメータが調整されます。教師データが1000件を超えると自動的にオフになります。

4. 精度
予測データとして与えたラベルとAIが予測したラベルの正解率を示します。正解ラベル数/全体ラベル数

5. 対象特徴量
分類の対象とする特徴量です。(セマンティック)とつかない方の特徴量の方は表記揺れ等を考慮しないため、より厳密に分類しやすくなる傾向がありますが、教師データが少ないと未知データに対する性能がでにくい傾向があります。(セマンティック)とついている方が表記ゆれ等を吸収して分類するため、精度が高くなる傾向があります。ただし、細かい部分での分類性能がやや落ちる可能性があります。

6. 教師ラベルの数
教師タブで設定した教師データのラベル毎の数です。

7. 教師ラベルの重み
ファイル読み込み、一括編集保存時には、教師ラベルの数に応じて自動的に重みが調整されます。ラベル毎の数の不均衡をできるだけ調整します。自動調整した値であっても、ラベルに偏りがありすぎると感じる場合は、重みを変更することによってラベルの偏りを調整できることがあります。

パラメータ調整手順

1. 正解ラベルがわかっていて教師データにいれていない予測データを用意します。

2. 予測データタブを開きます。

3. 用意したデータを予測データとして入力します。精度が表示されます。

4. パラメータ設定をクリックし、パラメータ設定フォームを表示させます。

5. Cを0.01, 0.1, 0.5, 1,10,100、Sigmaを0.1,0.5,1,10,50,100,など数を調整し、予測データを保存(都度更新しないチェック時)をクリックして精度が良くなるパラメータの組み合わせを探します。

6. 精度が良くならない場合、対象特徴量の変更を試してください。

ラベルの種類数が多数の場合、正解率をあげるのが困難な場合があります。

検索結果のエクセルエクスポートでは、予測結果の第1位だけでなく、トップ5まで候補ラベルとスコアを出力することができますので、トップ5の候補ラベルでの評価もご検討ください。