AI実装で重要なデータ前処理とは

新型コロナウイルスの影響下の中、業務効率化・売上拡大の観点からAI(人工知能)の活用を検討されている企業様も多いかと思います。ではいざAIを活用する際、実装において「データの前処理」が重要だと言われているのをご存知でしょうか?

データの前処理とは

データの前処理とは「データを利用できる形に整形すること」です。前処理の内容を詳しくご説明する前に、一般的なAI実装までの流れをご紹介いたします。以下の図をご覧ください。

AIの実装には、大きく「要件定義」「データ前処理」「学習モデルの作成・評価」「実装」の4つのステップがあります。最初の要件定義では、主に自社のビジネス課題の把握からAIで実装する内容を決定し、AIプロジェクトのKPIを設定します。次にデータの前処理です。データの前処理では、AIで利用するデータを準備し、データの品質を高めるためにクレンジングを行います。このようにデータの品質を高めた上で、そのデータを基に分析設計を行い、学習モデルの作成・評価に入ります。学習モデルの作成・評価では、予測の精度が低い場合、何度も何度も学習を重ねて精度を高める必要があります。そうして何度も学習した精度の高いモデルを実装します。実装段階では、構築したモデルの品質を保つ為に、再学習を行う必要があります。

この流れの中で一見シンプルに見えるデータの前処理ですが、実は実装までの時間のうち、7~8割がデータの前処理に割かれると言われています。

前処理の代表的な手法

AIで利用するデータは、テキスト、音声、画像、IoTといった様々なデータがあります。IoTでは主にセンサーデータ等が扱われます。※IoT(Internet of Thingsの略):モノのインターネットと呼ばれ、インターネット経由で取得できる情報を指します。

実はこれらのデータですが、利用するにあたり課題があります。例えばセンサーデータの場合、異常値や欠損値、不要なデータが含まれることが多くあります。テキストの場合も同様です。そして音声や画像の場合、データをそのまま利用することができないため、AIが認識できる形に変換する必要があります。

上記のようなデータを前処理段階ですべて綺麗にクリーニングし加工(データ変換、正規化)します。更に実際に利用するにあたり、ばらばらになっているデータを統合して、一貫性のあるデータにしていきます。

前処理のイメージ

簡単なデータを使って前処理のイメージをご覧いただきたいと思います。以下の図は、前処理前のデータです。

このデータをご覧いただくと「性別」「購買商品」に日本語名が入っています。このままではAIがデータを認識できないため、データを数値化する必要があります。また、このデータには欠損があります。AIで利用するアルゴリズムによっては、データに欠損がある場合データが省かれてしまいますので、欠損値を削除又は補完する必要があります。

以下の図が、前処理後のデータです。

前処理を行った後のデータは、全てデータが数値化され、欠損値は他の項目から推定し、その他の「2」として補完処理を実施しました。

今回は簡単なデータを例にご紹介しましたが、このようなデータが何万件、何十万件とあった場合、知見のないご担当者様が前処理を行うことは難しくなるため、ツールを利用したりAIに詳しい専任の担当者が行うといった対応が必要となります。

前処理の重要性

前処理はAI実装において、非常に重要だと言われています。その理由は「前処理の品質がモデルの精度に関わる」ためです。 前処理前のデータは、今回ご紹介差し上げたようにデータに欠損があったり、重複があったりといったように、品質が悪いものとなります。このデータを使いモデルを作成してしまうと、非常に精度の低いモデルとなります。精度の低いモデルは、当然そのまま利用することができません。再度チューニングを行う必要があります。そのため、可能な限り前処理の段階でデータの品質を上げておくことで、その後のモデル作成の精度も高めることができます。


アクティブコアでは、モデルの構築から運用までを自動化するAIプラットフォーム「ピタゴラスAI」を提供しています。
今回ご紹介差し上げたデータ前処理も実施可能です。AI活用をお考えの方は、お気軽にご相談くださいませ。

>ピタゴラスAI製品紹介はこちら

ピタゴラスが企業ビジネスを成功へ導きます。