【Vol.75】メタデータ 野村さん、「フルスペックのDX」の実現を目指して、最新のAI技術によるデータ活用の可能性を追求

JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。今回、バトンを受け取ったのは、メタデータ株式会社の野村直之さんです。


データマネジメントにおけるメタデータの重要性に着目して会社を設立

日本データマネジメントコンソーシアムの皆さま、こんにちは。メタデータ株式会社の創業経営者の野村直之と申します。自然言語処理AIの研究開発を手がけて37年になります。創業当時、こんなことを考えました。

「インターネットの帯域幅はCPU、GPUの性能向上ほど急速には拡大せず、両者のポテンシャルの差は開く一方だ。それだけに、ネット上に分散する情報源を1つにまとめて見せる仮想DBによるサービスを構築するには、メタデータの整備が重要になる。しかし、メタデータを手作りするには莫大なコストがかかり、品質管理も大変だ。これからは、自然言語処理や画像認識によるメタデータ自動生成技術が不可欠となるだろう」

そう考えて、メタデータ社を、AI冬の時代の2005年12月に創立したのです。データ管理の基本となる「データについてのデータ」、すなわち「メタデータ」という社名を名乗っている会社が、なぜ今までJDMCの門戸を叩いていなかったのかと、入会を決めた数週間前になって地団駄踏んだような次第です(笑)。2022年3月10日の「データマネジメント2022」では複数セッションを同時視聴し、皆さまの精力的なご活動・ご活躍に大いに感動しました。

JDMCには、「DXもAIも、データマネジメントが鍵となる」という問題意識を共有する方が大勢おられると思います。DXや、AI導入のためには、現場のデータの入出力、情報加工の流れをモデル化し、構造を定義する必要がありますが、これがなかなか大変ですね。

特に、AIの正解データ作りをする際など、例えば「なぜこの写真は柿で、こちらはミカンなのか?」などと問うても返答不能な、「暗黙知」を駆使しなければならないことがあります。言い換えれば、正解データ作りの「仕様書」(誰が正しく作業しても同じ結果となるマニュアル=形式知の塊)が書けないタイプの知識を使う必要があるため、作業者を信頼するしかありません。このケースでは、ともすれば監視が行き届かず、モラルハザード問題が発生する可能性を考慮する必要もあります。

このように、作業者の直観や暗黙知を信頼して対象データにラベル(属性、メタデータ)を付与しなければならない場合は、品質管理がとても難しくなります。そのデータでAIに学習させてみて、結果をさまざまに比較しては頭をひねる繰り返しです。このようなAI向けのデータ管理の難しさについて、メタデータではクライアントの株式会社電通を始め5社の実践者に参集いただいたパネル討論*で司会を務めるとともに、皆さまと議論を交わしました。ぜひ、下の資料をご一読いただきたく思います。

*参考資料
「AI学習データ作りはつらいよ」:(日経XTECH 2017.12.18)
https://xtech.nikkei.com/it/atcl/news/17/121802880/
「実践フェーズに突入 最強のAI活用術」:(野村直之 著/日経BP)
https://goo.gl/11vNoJ

 

激増するデータを活用するための最先端AI技術と今後の課題とは?

コロナ禍で待ったなしになったDXと働き方改革、そしてテレワークにより、映像データや音声データ、音声認識結果のテキストデータは激増しました。もちろんこれらは、そのままの形では活用が困難です。さまざまな用途に利用できるようにするためには、メタデータ自動生成技術( https://metadata.co.jp/apis/5w1h.html )や、適量のテキストデータに深層学習AIと同様のベクトル化を施して、ビジュアルに類似度・関連性の順にランキング(https://metadata.co.jp/blog/2018/04/03/901)するなどの要素技術を組み合わせて、データ活用の流れに組み込む必要が出てきます。

たしかに深層学習は、前章でもふれた「暗黙知」をそのままキャプチャできるツールとして、すばらしいものです。しかし、もちろん万能ではありません。いまAI研究の最先端で進化しているのは、アノテーション不要、もしくは強化学習、GAN(敵対的生成ネットワーク)のように、正解データを巧みに自動生成するタイプのAIです。これを使ってGAFAMやBATが集めたビッグデータで学習させた超巨大モデル(中には、学習にかかった電気代が5億円というのもあります)に、微量の専門データで追加学習やファイン・チューニングを施すことで、自然言語処理の多彩な課題が解決できるレベルに達しつつあります。

とはいえ、ハイブリッドな複数の種類のデータに基づく予測や、レコメンド、マッチング( https://metadata.co.jp/services/xtech.html )などのタスクの実現には、まだ多くの課題が残っています。オープンな実世界の環境で人間のように「理解」したり「思考」したりするAGI(汎用AI)が誕生していない現時点では、さまざまな手法、アルゴリズムを適材適所で使い分ける必要があります。

例えばメタデータ社( https://metadata.co.jp/ )の掲げる「AI for AI」というコンセプトは、機械学習用とは異なる種類のAIで正解データを半自動生成したり、異種のAIを同時に稼働させて、その「合意」した部分のみ出力させたりして高精度な結果を得るような工夫を生んでいます。機械学習だけではなく、計算効率の高いルールベースのAIや数理的手法を組み合わせることで、初めて実用的に解決できる現場の問題は非常に多いといえるでしょう。


真の「フルスペックのDX」を目指して積極的なJDMC活動への参加を

いまのAIは、いうなれば何らかの専門能力を備えた「道具」です。道具は、その専門能力において人間の能力を超えていなければ、存在意義はゼロです。言い換えれば、その専門能力で、最初から人間の能力を超えていて当たり前なのです。そう考えると、「人工知能は人間を超えるか」という問いは無意味だというのがお解りいただけるでしょう。

AI時代にあって、具体的に人間がどう学び、AIにできない働き方をしていくかについて、一連の書籍(特に「AIに勝つ!」 )や、育英会、小中学生向けの講演や記事で発信し続けてきました。ここでは、その秘訣を「創造性」の一言で片づけず、従来型の「知識労働」と、新たなアイディアや知識を生み出しながら働く「知能労働」の違いについて、発想や連想のステップを具体的に例示しながら説明しています。

近い将来、知識に近いものをAIが駆使するようになり、過去のベストプラクティスを検索、組み合わせ活用して、思考力をシミュレートするようにもなるでしょう。そうなれば、近年の知識の陳腐化、変貌のスピードはさらに加速し、知識の価値がどんどん下がっていきます。そうなれば、これまでのようにいちど得た知識を後生大事にかかえて十年一日の如く使っているのは無意味であり、時には害にすらなりかねません。

つい最近も新型コロナの発生当初は、従来の感染症の知識をそのまま当てはめて「発症前には他人に感染させないから、無症状者には検査不要」と言っていましたが、結果的にこれは極めて有害でした。新しい課題に過去の知識を使い回して、大きな失敗に陥った典型的な例だといえます。

膨大なデータを手にして、それらをAIを含む様々なアルゴリズムの力で分析し活用できる時代に私たちは生きています。ぜひ最新の技術を手にして存分に知能を発揮し、AIをフル活用できるようにしたいではありませんか。そのためのフルスペックのDXを私たちの手で実現しなくてはなりません。

例えば市場ではAIによる文字認識がもてはやされていますが、そもそも紙に手書きや印刷をしないフル・デジタル化をゴールとすれば、「文字認識が必要」なのはまだ過渡期のDXです。真の「フルスペックのDX」を実現するためにも、これからはJDMCの皆さまと手を携えて、データマネジメントの普及・啓蒙や、ベストプラクティスの確立と事例紹介などに邁進していきたいと願っています。

いま大急ぎで、JDMC編著の書籍を読み進めています。ここからJDMC活動との、さまざまな接点やアプローチを見つけることができそうです。今後とも、どうぞよろしくお願いいたします。

 

野村 直之(のむら なおゆき)
メタデータ株式会社
代表取締役社長

1984年、東京大学工学部卒業、2002年、理学博士号取得(九州大学)。 NEC C&C研究所、ジャストシステム、法政大学、リコー勤務をへて、法政大学大学院客員教授。 2005年、メタデータ(株)を創業。 ビッグデータ分析、ソーシャル活用、各種人工知能応用ソリューションを提供。さまざまなソフトウェア開発に従事するとともに、産業、生活、行政、教育など、幅広く社会にAIを活用する問題に深い関心を持つ。著書、受賞歴も多数。

 

記事を共有する :