JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、株式会社マクロセンド・石原 千明さんです。
皆さま、JDMCではお世話になっております。株式会社マクロセンドの石原と申します。2023年に入会したばかりの若輩者で、日々勉強させていただいております。
弊社は2012年に設立したシステム会社で、7〜8年ほど前からデータ分析や機械学習(AI)関連の事業を行っております。ただ、データ分析や機械学習だけでなく、その周囲のデータ分析基盤やアプリケーション開発も行っている少し「オタク気質」なところがあるのが、弊社の特徴だと個人的に思っております。
今回はデータ分析や機械学習の導入・構築・運用から見たデータの問題について、お話しさせていただければと思います。
データがない・データの項目がばらついている
弊社のお客様は化学メーカーの方が多く、材料開発で機械学習を利用しようとするマテリアルズインフォマティクス(MI)への関心が高まっていますが、そこで大きな障壁として上がるのが「データがない(足りない)」問題です。
これは材料開発だけの問題ではないですが、特に材料開発では「材料の合成方法を検討して、実際に合成して、できた材料の物性を見る」という一連の工程にかかる時間が長いため、データを集めるだけでも一苦労です。失敗したとき(望む物性ではなかったとき)のデータが残っていない、というケースもしばしば。
併せて、材料によって確認する物性の項目が違う、単位が違う、薬品の表記が違うといった「データの項目がばらついている」という状況もよく目にします。まさに「データマネジメントの体制がなっておらず、分析できる環境にない」という問題なのです。
こうしたことが起こるのは、現場を無視したシステムの導入・仕組みづくりに原因があるのではないかと考えています。
まずは、実際の業務内容から、データの種類、データの取得タイミング、データを出力するシステム、利用する現場の方といった「要件」をきっちり把握する必要があるでしょう。そして、現場の方には、データの収集がどんなメリットをもたらすのかを説明し、協力してもらうことが大切だと思います。
データは変化するもの
機械学習の導入で一番残念なのは、作った予測モデルの精度が下がり、使い物にならなくなってしまうことでしょう。にもかかわらず、いたるところでこの「悲劇」は起こっています。
なぜこんなことになってしまうのか。それは、機械学習のモデルが変化に対応しないからです。ビジネスが変化すれば、必要なデータも変化していきます。データが変化すれば、過去のデータから作られたモデルや機械学習のアプローチにも変化が必要です。
弊社では、データの変化に機械学習も対応していけるような仕組みとして、「MLOps(Machine Learning Operations)」に取り組んでいます。
MLOpsはDevOpsの考えを機械学習に適応させたもので、ビジネスの変化で生じたデータの変化が、構築した予測モデルに影響があるかをモニタリングし、ユーザーの満足度を満たさなければ、再学習を検討していきます。
ここで大切なのがデータの取得です。そのため、予測モデルにインプットするデータはもちろん、学習した結果の精度などのデータを取得し、活用へとつなげられるよう、システムの構築や仕組みづくりのご提案をしています。
昨今、さまざまな企業で機械学習の導入が盛んですが、機械学習はデータの質によって決まり、データは人間が活動することで生まれ、変化していきます。データマネジメントを円滑に行うことが、データ分析や機械学習の導入・構築・運用にとって非常に重要になると考えています。
石原 千明(いしはら ちあき)
株式会社マクロセンド
分析機器を使った受託分析サービス会社でエンジニアを約8年経験し、その会社で機械学習(AI)の導入を行うとこになり、機械学習に興味を持ち始め、2020年に株式会社マクロセンドに入社。Webアプリケーションおよびデータ分析・機械学習の導入支援やお客様のヒアリングや提案等を行っています。