(報告)MDMとデータガバナンス研究会レポート(2021/8/27実施)

(MDMとデータガバナンス研究会リーダー・水谷  哲)

東京オリンピック、パラリンピックがつつがなく終了した。無観客であっても世界最高の技術は世界中を魅了した。ITの世界でいえばビッグデータ、データサイエンス、データレイク、機械学習、そしてデータドリブン経営など、最先端のデータ活用はその時々の華々しい話題である。

華々しいデータ活用を大会の決勝戦とするなら、マスタデータの整備やデータガバナンスの推進は筋トレに当たる。最高の技を支える筋肉は必須である。複雑で日々増大するデータを迅速に把握し縦横に駆使するには、よく整備され充実したマスタデータとデータガバナンスが必要である。

・・・と考える同志たちが、毎月の最終金曜日にオンラインで結集する場が「MDMとデータガバナンス研究会」である。初心者には役立つ知識と知的好奇心を満たすトピックを、熟練者には情報交換と専門領域外との交流の場となっている。メンバーの苦労話や自慢話、素朴な疑問やベンダーの宣伝からネットで今日見かけた話題まで、ジャンルや形式を限定せずディスカッションできる。今はやりのダイバーシティである。

今回は、AIを使ってマスタデータを整備するという興味深い事例を紹介する。一見、逆の順序でアクロバティックに見えながら、実はきわめて論理的かつ実用的である。

 

マクニカのAI活用支援への取り組み~商品データ資産構築AIとは

多くの企業が推進しているデジタルトランスフォーメーション(DX)。それを実現する手段の一つとして、注目を集めているのがAIである。半導体商社として国内最大手のマクニカは、半導体事業、ネットワーク・セキュリティ事業をコアに、スマートファクトリー、自動運転、AI、サービスロボットという新事業領域にも力を入れている。8月27日に開催された研究会では、マクニカのAIへの取り組み、及びAIを活用したソリューション「商品データ資産構築AI」について、マクニカの阪田陽樹氏と山本聡氏が講演を行った。その概要を紹介する。

 

■サイバーフィジカルシステムなど新領域にも積極的に事業展開するマクニカ

最初に登壇したのは、阪田氏。マクニカの紹介から始まった。マクニカはマクニカ富士エレホールディングスの100%出資子会社で、日本最大手の半導体商社。コア事業は半導体事業とネットワーク・セキュリティ事業。また、スマートファクトリー、自動運転、AI、サービスロボットという新事業領域も立ち上がっている。「当社は商社といっても全従業員の3人に一人は技術者。技術や製品を単に横流しするわけではなく、技術的な付加価値を付けてお客さまにとって最適なソリューションとして提供している」(阪田氏)

マクニカのコア事業の一つ、ネットワーク事業の2020年度の売り上げは729億円。ネットワーク事業では最先端なサイバーセキュリティやネットワークインフラのソリューションや製品をチェックし、海外から仕入れて提供しているという。昨今、話題となったエンドポイントセキュリティ「CrowdStrike」、マシンデータ分析プラットフォーム「Splunk」などはその一例だ。

また半導体やネットワークにセンシング技術や画像認識技術など、技術的な付加価値、を付けたさまざまなソリューションも提供している。

このような事業展開からもわかるように、「マクニカは非常に新しい物好きの会社。何か新しいモノ、面白そうなものが海外にあれば、いち早く持ち込むだけではなく、お客さまのビジネスとして一緒に伴走型で取り組むことを提案することもしています」と阪田氏は話す。またマクニカはそういったことを机上論で語るだけではなく、現場に実装し、技術的に実現する実行力にもこだわりを持つ。そしてさらなる特徴は「サイバー&フィジカル」という言葉で表されるように、デジタル空間と物理空間双方をメインとした提案ができること。Society5.0を実現する基礎技術を持っている。茨城県境町で運行されている自動運転バスや、成田・羽田・関西国際空港で利用されている自動清掃ロボットなどの取り組みはその代表例だ。

「サイバーフィジカルシステムというホットワードも出てきているが、例えばセンシング技術でデータを取得し、サイバーで分析してそれをまたフィジカルな世界にフィードバックするようなソリューションの提案ができます」(阪田氏)

例えば、スーパーの陳列棚をカメラでモニタリングし、物体認識技術を用いて、商品が少なくなると店員にアラートを投げて補充を促すのは、サイバーフィジカルシステムの分かりやすい一例である。センサー技術とAIの組み合わせ例としては、人物検知や画像解析とミリ波のセンサーを使って、リテールにおける入店者数や店前通行量カウント、人流分析をするというような事例がすでに登場しているという。

■マクニカが展開するAI事業の概要

現在、マクニカはmacnica.aiというブランド名でAI事業を展開している。「macnica.aiのコンセプトは国内外の人、技術、経験をつなぎ、伴走型のパートナーとしてデジタル変革をお客さまとともに実現することです」(阪田氏)そしてこの事業の核となる技術を有しているのが、2019年に関係会社化したCrowdANALYTIX(クラウドアナリティクス)である。

クラウドアナリティクスは、海外先進企業でのAI実装経験、世界2万5千人のデータサイエンティストリソース、ビジネス課題特化したフルカスタマイズAIを持つ、ワールドクラスのAI as a Serviceを提供するAIサービス専業企業。「彼ら自身はデータサイエンティスト集団。50人の社員がいます。特徴的なのは、約2万5千人以上のデータサイエンティストが参加しているコミュニティを運営していること。そのコミュニティを生かすことで、多様な専門性を持つチームによるR&Dを実現しているのです」(阪田氏)

AI事業というとモデルの候補を提供してあとは顧客任せというようなケースもある。だが、AIは精度の維持・向上が肝となる。「我々は、調査、仮説検証(PoC)、実装、運用に至るまで一気通貫で支援いたします」(阪田氏)

macnica.aiでは①AI活用企画サービス(ビジネス課題のコンサルティング)と②提供AIサービスを展開。後者の提供AIサービスでは、フルカスタムAI as a Service、ユースケースサービス、データサイエンティストサービス(DSaaS)を提供する。

サービスを導入する場合は、まずはマクニカの担当者がお客さまから事業課題や経営課題を引き出し、それをAIで解決できるレベルまでブレイクダウンする。次にそれらの課題の中で最もAIの活用効果が高いところをお客さまとディスカッションしてミニマルなPoCを立ち上げる。PoCを通じてAIの効果を予測し、最後にクラウドアナリティクスによって、これまでの知見を基に完成形のAIを作成し、運用していく。

AIユースケース事例も「小売のお客さまが多いが、ヘルスケアやライフサイエンス、ファイナンシャルサービス、テレコム、IoTなど、多種多様な業種のお客さまに活用されています」(阪田氏)

 

■アスクルが活用する商品データ資産構築AI「CAX PMD」とは

アスクルが活用している商品データ資産構築AI「CAX PMD (CrowdANALYTIX for Product Master Database)」もその一つ。ECなどでは新商品を追加する場合、仕入れ先からデータを送ってもらい、商品マスターに人手で登録しているという。「人手による商品登録作業を実施されているお客様からは次のような課題をよくお聞きします。「商品登録までのリードタイムが長くなり、購買機会をロスしている」、「商品点数や商品情報量の拡大に限界がある」、「商品登録の作業が属人化している」等です。顧客データと同じく多くのお客様のDXを支えるコアデータの一つである商品データの整備を支援するAIがCAX PMDです。」(阪田氏)

CAX PMDはECやリテール、卸のお客さまを中心に利用されているという。

 

ここからは山本氏にバトンタッチし、CAX PMDの技術的な内容について紹介した。

アスクルがCAX PMDを導入したのは、商品カテゴリーの自動判定によって、商品のカタログ掲載のスピードアップを図るためである。

CAX PMDでは、メーカーから来る商品データをAIによって自動で読み取り、各属性情報に分解した上で、それらのデータをとりまとめてカテゴリー判定し、データを成形して構造化データとして出力するという仕組みを構築している。取り入れられるデータのフォーマットはさまざま。PDFやテキスト、エクセル、画像データなどに対応する。例えばメーカーからカタログがPDFで届いたとする。まずページに何が書かれているかを領域検出モデルで検出する。「領域抽出モデルとあるが、これは物体検出をしています。」と山本氏。つまり画像なのか、テキストなのか、表形式なのかを判定するのである。次に属性分類モデルで情報が何の属性情報を表しているか分類することによって、商品属性情報を抽出する。複数のAIモデル処理により、画像とテキストからそれぞれの属性情報を抽出する。例えばテキストであればブランド名や商品名など、記載されている内容から何の属性情報なのかを判断し抽出していくのである。

「例えば壁紙のカタログ画像を担当したことがありますが、そのケースでは壁紙の写真や施工例、壁紙の拡大画像など、一つの商品に対して複数の画像イメージがありました。ですが、どの画像がどういう種類の画像なのかという分類もAIで判定することができました。」(山本氏)

さらにページレイアウト解析モデルで領域間距離を算出し、各属性値の紐付けを行い、商品ごとに商品属性情報をグルーピングしていく。「例えば色違いで品番が異なる商品が並んでいる場合も、領域間距離を算出することで、同じ商品属性情報を使うように紐付けられるようになっています」(山本氏)

最後にカテゴリー分類モデルで商品カテゴリーを推定していくのである。

「あるお客様の例として、物体検出モデルはRetinaNetやFaster R-CNN、YOLOなどをベースに開発。属性分類のうち画像の属性分類は、EfficientNetとResNetの組み合わせ、テキストの属性分類はBERTとLSTMと正規表現を組み合わせて処理を行いました。」(山本氏)。

カテゴリー分類のAIモデルはLSTMやGRU、FastTextなどを組み合わせて実現しているという。

抽出の精度などについては、実際のデモ画面で解説。ファッション、食品、電化商品、家具などさまざまな商材を扱う小売業者をイメージしたモデルで、商品の画像やテキストを入れると、高いレベルで属性情報が抽出される。デモではブルーのトップス(ファッション)の画像を入力。すると色も細かく判定され、ブルーの中のミントというように、高い精度で属性情報が抽出された。

食品の場合は、パッケージ画像などから属性情報を抽出する。ブランド名や成分表、オーガニックの認証マークなどを正しく認識できる。「お客さまの要望に合わせてモデルを個別に作成して提供することで、高い認識精度を実現しています」(山本氏)

アスクル事例 詳しくはこちら:https://www.macnica.net/crowdanalytix/case_01.html/

 

■研究会後半は活発な質疑応答タイム

ここからは質疑応答に入った。

Q(伊阪) 相当昔にNTTのイエローページの仕事で、職業別というカテゴリーを定義するのに難儀をしたことを思い出しました。それをインターネット化するときに、喧々諤々議論をしました。例えばマヨネーズが欲しいといったときに検索すると、コンビニエンスストアもデパートもスーパーも一杯、出てきます。そのときAIはありませんでしたが、先ほどみたいに、検索する方からすると、単純にはいかないような気がします。その辺のカテゴライズの難しさがあるのではないでしょうか。

山本 そもそもAIなので、学習データとしてカテゴリー分けされたデータをお客さまに用意していただくことが前提となります。それを元にAIが学習していく。事例で紹介されていたお客さまはカテゴリーが5000以上あります。確かにそのカテゴリー分けは大変だったようです。1カテゴリーに対して、AIに学習させるデータ数として300程度必要だと言っています。

 

Q(司会)PoCがあってプロジェクトが始まります。どうやって見積もるのでしょうか。

阪田 先ほどのプロセスで説明したとおり、パッケージサービスのように価格が決まっているわけではありません。お客さまの業務プロセスの課題が商品登録をAI化したいというのであれば、まず、月にどのくらいの商品登録をしているのかなどを伺います。そしてクラウドアナリティクス側で使うリソースなどを鑑み、見積もります。

 

Q(司会)クラウドアナリティクス側ではどのくらいの工数(人員)をかけるのでしょうか。

山本 メインで動く人は基本一人(PM)ですが、その裏で関わっている人が何人もいます。具体的に何人関わっているのかは、その時々によって変わります。お客さまの要件も異なります。例えば運用は24時間365日なのか、9時から17時なのか、リアルタイム処理なのかバッチ処理なのかによってもクラウドのリソースは異なります。実際にモデルを作る人だけではなく、クラウドのリソースも計算して見積を出しています。

 

Q(司会) 見積もりする際には、実際にデータを使うのでしょうか。その辺の見積はいかがするのでしょう。

山本 見積もるために、1年分ぐらいのデータを提供して頂いてざっくり精度を出し、できそうかどうかを判断しています。

 

Q カタログから画像やテキストなどから読み取る以外に、どういったものを読み取ることがあるのでしょうか。例を教えてください。

山本 商品情報を抽出する際に、エクセルのように成形されたファイルやメールデータなどから抽出することもあります。精度は落ちがちですが、紙をスキャンしたものから読み取ることもあります。例えば建築図面から情報を抽出したこともあります。建て売りの建築図面からLDK、トイレ、開口部などの部屋情報を抽出し、それぞれの寸法情報を紐付けたりすることもできます。また紙をスキャンしたデータの中には、滲んで人間の目では読み取りにくいものもありますが、私たちは超解像度技術を活用して、読み取り精度を向上することもしています。

CAX PMDの特徴は、小さなAIをたくさん作って運用していくこと。1つ1つのAIが小さいので、AI作成のためのデータ量も少なくできます。精度が高いAIを作るための工夫をしています。

 

Q(神田) このサービスを導入して、費用対効果、定性的な効果はどのくらい得られるのでしょうか。

山本 CAX PMDの最終的な効果としては、10倍ぐらい欲しいと考えています。米国の事例だと100倍の効果が得られたものもあります。

阪田 一気に商品点数を拡大したいと思っても、人手でやるのは無理です。例えばBPOで1億点になると数千人の規模になります。それをAIに置き換えることで、徐々に効果が出てくる。米国大手小売業では結果の出しやすいカテゴリーからAIに置き換えていくという方法で、効果を出しています。またもう一つの効果は、属人化されていた知識をAI化することで、業務の標準化が実現すること。例えばアスクルではDIYや工具などを扱カテゴリーのですが、新しく追加する商品がどのカテゴリーだろうということがわからず、人に頼っていました。そういったその人がカテゴライズしていた知識をAI化することで、自動的にカテゴライズできるようになりました。そういう効果も得られると思います。

 

Q(伊阪) 最近、あるものをAmazonで購入したのですが、検索してもなかなかひっかからなかった。キーワードが適正ではなかったことが理由ですが、そういうことをなくすのは難しいと思いました。

山本 CAX PMDではないですがあるお客様の例では、サイトで検索されているキーワードのログ、一般的に検索されるキーワードを分析して最適なキーワードを導き出すこともしています。確かにイレギュラーなキーワードの入力などを検索できるようにするのは難しいですが、それなりの精度は実現できています。

 

Q あまりうまくいかなかった話を伺いたい。例えば「DXをやりたいのでAIを作って欲しい」というようなオーダーのお客さまもいたのではないでしょうか。

阪田 商品登録の自動化AIは、お客さまの方でカテゴリー分類がされており、データがあって初めて導入できる仕組みです。確かに「これから商品マスターを作る、カラムもこれからだけど、AIどうにか使えないか」と言われた経験はあります。その場合は、商品マスターでカラム設計をしてから、商品登録ができるかどうか見させていただきました。

 

Q 効果はどのくらいあるのか、算出して提案してください、と言われることもあるのではないでしょうか。

山本 そういうことも結構あります。

阪田 先ほど、ECの検索性に関する話があったが、商品名、属性情報をより商品ページに追加していくことで、検索結果が上がると提案していますが、その効果は消費者がどう考えるかに依存します。このようにAIはやってみないとわからないというプロジェクトが多いので、小さく始めてフィールドテストをして、効果を見ていく。その小さな効果を積み上げていくしかないと考えています。

山本 そうですね。ビッグプロジェクトを3つに分けて、第一段階でどの業務が回るかをみて、次の段階に進んでいく。初期投資を小さくして、費用対効果を気にしなくていいようにしてプロジェクトを開始するのが得策だと思います。