日本データマネージメント・コンソーシアム

会員コラム

【Vol.104】マクニカ 内田 真勝さん、AIをスムーズに導入するためのデータマネジメント、4つのポイントとは

JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、株式会社マクニカ 内田 真勝さんです。


皆さまはじめまして。株式会社マクニカの内田です。

私は2020年度から「エンジニアの会」に参加しています。昨年からサブリーダーとして微力ながら運営のお手伝いをさせていただきつつ、いちエンジニアとしても刺激を受けながら活動しております。

最初に弊社について、簡単にご紹介させてください。マクニカは半導体、IT製品・サービスを中心とした商社で、世界最先端の商材を発掘し、技術的付加価値を加えて提供する「Value Added Distributor」を主力事業としています。

私は主にデータブリックスやH2O.ai社のAutoMLツールを使った、AI案件の推進を担当しています。

今世界中を賑わせている「ChatGPT」に代表されるように、AI界隈は技術革新が非常に速いです。一方でAIが人間の代わりに何でも肩代わりしてくれる時代は、まだまだ先だと感じており、AIを「魔法のツール」だと考えてしまうと導入はなかなかうまくいきません。

今回は、私が携わった社内DX案件やAI導入案件を通して得られた経験をベースに、AI導入のポイントをご紹介します。

AIの特性を理解し、適用する範囲と効果を意識する

AIを導入する際は「何を、どう改善したいか」をしっかり見据えた上で、ビジネスのゴールに向けてどこにAIを適用するか、業務へのインパクトがどの程度であれば成功と言えるか、といった事前の定義が重要です。

私が携わった製造業のお客様の需要予測案件では、従来の人の勘と経験を基にした需要予測をAIによる予測に置き換えることで、生産計画作成の工数削減や属人化の排除を目的としていました。

当初私は、全製品で予測ができるシステムを目指しましたが、そのデータセットではイレギュラーなパターンが多く、過去のトレンドを基にした需要予測が困難な製品が多数あり、お客様が求める予測精度に達しないという事象に直面しました。

そこで、ビジネスへの影響範囲を考慮し、効果の大きい売れ筋の製品など、注視したい製品に限定したモデル開発へ方針を転換しました。さらに、予測の当たっているところと外れているところの傾向分析を行い、精度改善が見込める部分と難しい部分を分解し、予測対象の絞り込みを進めた結果、無事目標の精度を達成することができました。

AIをスムーズに導入するためのデータマネジメント

次に当社の社内DX事例として、AIによる4カ月後の売上予測の取り組みをご紹介します。

この社内プロジェクトでも、人からAIへの移行による予測精度の改善や工数削減を実現することがゴールイメージでした。データソースは基本的にExcelで、製品担当の営業がシステムに登録した情報をベースに集計したものとなります。

予測モデルを作るにも、まずは過去5年分のExcelデータの取り込みやデータ整形から始めるわけですが、これが大変かつ非常に時間がかかる作業で(ご経験のある方は共感していただけると思います!)、AIの前にデータマネジメントの大切さを痛感することに。そこで、当社が最近取り扱いを開始したデータブリックスを活用しています。

今回の経験から、データマネジメントを効果的に実施するには、以下の観点を意識して進めることが重要だと感じました。

①予測に利用可能なデータ量≠予測に必要なデータ量
②データ品質
③データリネージ
④個人情報を含む場合のデータの取扱い

・・・

①予測に利用可能なデータ量≠予測に必要なデータ量

今回は過去5年分のデータが利用でき、一見データ量としては十分だと思いがちですが、足りない場合もあります。

それはいわゆる「不均衡データ」となるケースで、予測したいパターンのうち特定のものについてデータが不足していると、予測が期待とズレてしまう場合があるので注意が必要です。幸い、今回予測に用いたデータセットは特に問題ないことを確認し進めました。

②データ品質

これはかなり苦戦しました。データソースとなるExcelデータは人手で入力しているため、データに誤脱字や欠損が含まれますし、ある年からカラム名の変更・削除が発生しており、データの整形にとても苦労しました。データの利用用途によりますが、分析に利用する可能性がある場合は、データソースの品質を向上しておくことも重要です。

③データリネージ

データはどこから来て、どのように変換されて、提供先は誰か、といういわゆる「データリネージ」はコンプライアンスの観点、データガバナンスの観点で考慮が必要な問題です。

通常、社内プロジェクトではデータの公開範囲が設定されている場合も多いと思います。利用するデータが多岐にわたる場合や複数部署と協力してデータを扱う場合、データリネージを意識すべきでしょう。ただ、データリネージを人力で運用するのは大変なため、可能であれば、今回利用したデータブリックスのように機能が実装されている製品を使うというのも一つの手です。

④個人情報を含む場合のデータの取り扱い

データソースに個人情報を含む場合、データのセキュリティ管理も重要な要素の一つとなります。単純にレコードを削除するだけで良いか、あるいは、データの関係性を残すために暗号化するかなど、検討して進める必要があります。

今回は売上のデータだったため、基本的に個人情報は含まれていませんでしたが、イレギュラーケースとして任意で記入できるカラムがあり、個人情報を含む可能性があることに事前の調査で気付きました。結果、含まれていないことが確認できたため、今回は特別な対処は必要ありませんでした(事前に気づけて良かった。。。)。

いかがでしたでしょうか。

本コラムではAI導入のポイントを2つご紹介しました。少しでも導入のヒントになれば幸いです。他にもいろいろと注意すべき点はございますので、気になる点などございましたら、気軽に情報交換ができればと思います。

実は、データブリックスを初めて知ったのはJDMCで、その後弊社にて取り扱うことになったのでご縁が深いと感じています。  引き続きJDMCでの活動を通して、スキルを磨くだけでなく人脈の輪も広げていきたいと思っています。今後ともよろしくお願いします。


内田 真勝(うちだ まさかつ)

株式会社マクニカ
マクニカネットワークスカンパニー データ&アプリケーション事業部
第1技術部第3課

2017年に株式会社マクニカに入社。統合ログ管理プラットフォーム「Splunk」をはじめ、機械学習プラットフォーム「H2O Driverless AI」といった、データ分析やAI系のソフトウェアのプリセールス/ポストエンジニアを経験。現在は「H2O Driverless AI」のポストエンジニアや「データブリックス」のプリセールスエンジニアとして、AI案件の推進に従事。2022年より「JDMCエンジニアの会」のサブリーダーとしても活動している。

RELATED

PAGE TOP