JDMC会員による「リレーコラム」。
メンバーの皆さんそれぞれの経験・知見・想いをリレー形式でつなげていきます。
今回、バトンを受け取ったのは、日鉄ソリューションズ株式会社 光野 泰弘さん です。
はじめまして!日鉄ソリューションズのシステム研究開発センターにて、「生成AI・自然言語処理技術×データマネジメント」に取り組んでいる光野と申します。
データマネジメントを進めるにあたっては、ドキュメントの中に散在しているデータの意味やコンテキストの理解、属人的な知見などが必要となり、それが取り組みの障害となるケースは少なくありません。
そうした中、ChatGPTをはじめとする生成AIの進歩により、処理が難しかったドキュメント内のデータの意味やコンテキストなどを扱えるようになってきています。
本ブログでは、私たちの取り組みをいくつかご紹介します。生成AI・自然言語処理とデータマネジメントの可能性を感じていただければ幸いです。
●サイロ化したデータの名寄せ(自然言語処理技術を活用したデータ処理)
自然言語処理技術を使ってデータマネジメントの課題を解決した例として、まずはサイロ化したデータの名寄せ・関連付けについてご紹介します。
企業向けに製品販売を行うある企業の事例です。その企業では、営業部門が持つWebからの問い合わせデータと、販売部門が持つ販売実績データを紐づけて分析したいと考えていたものの、問い合わせデータは自由記述の項目が多く、そのままでは紐づけることができませんでした。
そこで、自然言語処理技術の1つである「固有表現抽出」を用いて、自由記述項目を活用できるようにすることに加え、機械学習モデルでレコードの関連度を判定するモデルの構築を行いました。このモデルを問い合わせデータと販売実績データのレコードの組み合わせに対して適用することで、明確な基準のもと、名寄せや関連付けができるようになりました。
このように、自然言語処理技術や機械学習技術を活用することで、自由記述を含むデータを一定の品質で名寄せ・関連付けし、利用可能な状態にすることができます。
●マスタのクレンジングと名寄せ(生成AIの活用によるデータ処理の進化)
続いて、マスタデータとして登録する名称の整備や名寄せに生成AIを活用した取り組みをご紹介します。
弊社ではタレントマネジメントシステムを導入し、社員の能力に合った案件のアサインや育成に活用しています。しかし、社員の保有資格や得意領域などは自由記述であるため、表記ゆれが起き、これらの情報を活かしきれないという課題がありました。
資格の正式名称や略称、別名などを調べて整理・名寄せするのは、人力では負荷が高い作業です。そこで、資格名について、生成AIを用いて「前提知識が必要となる名寄せ」や「RAG(Retrieval Augmented Generation、検索拡張生成)による正式名称の整備」に取り組んでいます。
生成AIは膨大なデータを基に学習が行われているため、あらかじめ資格情報を用意しなくとも、資格の日本語名称と英語名称との名寄せや、正式名称と略称や別称との名寄せなどについて、一定の精度で処理できます。
ただし、すべてをカバーできるわけではないため、RAGにより外部情報の検索を行うことで、学習データに含まれていない最新の資格などについては、正式名称や略称を取得して整備しました。こうして整備した内容に基づいて、従来の自然言語処理では難しかった高度な名寄せを実現できています。
●メタデータの整備(RAG、ハルシネーション低減の工夫)
前の事例では、資格名という一般に公開されている情報であるため、RAGの検索先はWeb検索としていましたが、社内DBや社内ドキュメントを対象とすることで自社内のデータの検索を行うこともできます。ここでは、自社のドキュメント・テキストデータを利用したメタデータ整備の取り組みをご紹介します。
昨今はデータ活用に「データカタログ」の導入が進んできています。しかし、データの意味の登録や更新、用語集の整備など、メタデータ整備の煩雑さに二の足を踏んでいる方も多いのではないでしょうか。
そこで弊社では、生成AIを使い、用語の意味をRAGにより社内文書に基づいて自動生成することに取り組んでいます。ある用語の意味が記載されたドキュメントを社内文書から検索する作業や、検索結果に基づいてメタデータとして分かりやすく整備する作業を生成AIに支援・代替させることで、人の作業負荷を大幅に軽減できています。現在は、ハルシネーション(生成AIが不正確または誤った情報を生成する現象)の低減や精度向上のために、さまざまな手法の検討・検証を進めています。
●強みと限界を理解し、従来の技術と生成AIを使い分ける
ここまで紹介してきたように、生成AIの導入により、データ処理の多くを効率化できる可能性があります。
生成AIを活用するメリットには、事前学習された広範な知識に基づいて処理が行われること、そしてZero-Shot LearningやFew-Shot Learningが可能であるため、学習用データを大量に用意する必要がないことが挙げられます。
一方で、生成AIの活用にはいくつかの課題も存在します。出力が安定しないことや、ハルシネーション(不正確または誤った情報を生成する現象)が生じ得ることが代表的なところです。
また、ドメイン特化の知識が必要な場合では、生成AIよりも専用の深層学習モデルの方が高い精度を発揮するケースが多くあります。大量のデータに対する処理では、コストや処理時間が問題となることもあるでしょう。
これらの課題に対処するためには、生成AIと従来の自然言語処理技術や深層学習モデルを適切に使い分けることが求められます。例えば、名寄せタスクでは、表記の揺れやイニシャルの一致など、文字列の類似性を扱う場合には、従来の深層学習モデルが高い精度を発揮することが多いです。一方で、日英翻訳や別名の識別といった広範な知識を必要とするタスクには、生成AIが有効です。
生成AIの登場により、データ処理を少量の学習用データと指示だけで実行できるようになりましたが、各技術の強みと限界を理解し、タスクの特性に応じて最適な方法を選択し使い分けることが成功の鍵となります。
本ブログでご紹介したように、日鉄ソリューションズでは生成AI・自然言語処理とデータマネジメントを掛け合わせ、これまで扱えなかったデータを扱えるデータに変えていく取り組みを行っています。生成AI・自然言語処理技術は技術進歩が速く、また、アイデア次第でさまざまなことが実現可能となる可能性を秘めています。皆さんも、生成AI・自然言語処理技術を活用して、Let’s データマネジメント!
光野 泰弘 (みつの やすひろ)
日鉄ソリューションズ株式会社
技術本部 システム研究開発センター
2016年に入社以来、自然言語処理や機械学習、深層学習を活用した
データマネジメントの効率化に向けた研究開発や顧客への適用に従事。
近年では、生成AIをデータマネジメントに活用する方法の検討や検証に注力。