ビジネスエンジニアリング株式会社 金石 和英
2021年10月6日、JDMCエンジニアの会「データ準備」編が開催された。Talend株式会社にご協力いただき、データプレパレーションに関する講義を受け、ハンズオンにてTalend Data Preparationを体験した。
データプレパレーションとは、データ分析やBIレポートで使用するデータを必要な時に、セルフサービスで取得し加工するためのアプリケーションのことで、「データ分析に必要なデータを取得するには他部署に依頼する必要があり時間がかかる」「データ加工処理が属人化されていて業務効率がよくない」といった課題を解決してくれる、との説明を受けた。データ利活用のニーズが高まっている昨今において、エンジニアによるETLプロセスの作成だけでは需要に供給が追い付かない。そこで、データプレパレーションツールを使って、ビジネス部門のユーザー自らが欲しい形にデータ加工をすることで、データを素早くビジネスに反映することができるようになるのではないか。
Talend Data Preparationのハンズオンは、次の4つの流れで行われた。
①接続の作成
②データセットの作成
③データセットの確認
④プレパレーション
まず、接続の作成からデータセットの作成はWebブラウザから数クリックで完了することができた。専用ツールのインストールやセットアップが不要ですぐに始められ、敷居が低いツールに感じた。続いて、データセットの確認をしたが、スコアリング機能やデータクオリティ機能からデータセットの状態が一目で分かるようになっていた。また、データの説明やタグ付けをすることも可能で、簡単なデータカタログとしての機能も持っていることが分かった。この機能を用いることで、他のユーザーとのデータ共有がスムーズにできるようになると感じた。最後にメインとなるデータプレパレーションを体験したが、Excelライクな画面から実際のデータを見ながら簡単に加工ロジックの開発をすることができた。直感的にデータセットの加工ができるため、ビジネスユーザーが使用するのも簡単だと感じた。
これまでデータ加工といえばETLというイメージだったが、データプレパレーションという手段を知ることができて非常に勉強になった。今後、データを加工する際にはより最適な手段を選択していきたい。
(参加者アンケート一部)
- Talend Data Stewardshipに興味を持ちました。
- データガバナンスとの違いについて理解を深める機会が欲しい。
- プレパレーションの機能はほとんど触りの部分しか体験できなかったので、ほかにどんな機能があるかわからない。 ただ、冒頭の座学の最後の方でDataStudioの話が出てきたが、今回DataCloudで実施したことと同じようなことがDataStudioでもできるのか、またDataCloudにて今回の作業をバッチ処理として自動化みたいなこともできるのか気になった。
- Talendでのデータプレパレーションの方法が学べてよかった。エクセルライクなUIが非常に見やすく、操作が簡単そうな印象を受けました。
- こういった無料セミナーはありがたい。
- Talend Open Studio for Data Integrationで操作するのが、より実践的かと思いました。
- データ分析にあたり時間と労力を効率よく使うためにも今回のようなツールは必須だと感じました。扱うデータの量が大きくなればなるほどその有用性は高くなりますし、こういったツールでどのようなことができるのか手を動かしながら具体的に学べたことは非常に有意義でした。
- お客様の口からも良く聞く & MDMで調べると良くレポートが出るTalendを実際に触れて、使い易さを体験できたのは良かったです。
- データの状態を把握しやすいことは重要だと感じました。また、その状態をどう修正すると全体の中で良くなるかも分かりやすく、効率の良さを感じました。 当方の理解が足らなかったのですが、作業の手順を手軽に入れ替え可能とされている目的をご教授願えますか。
- 以前のバージョンと比較して、わかりやすくなっていると感じました。
- 全容を伺っていないのでこのほかにどんな機能があるのかきになりました。 例えば、 EXCELの関数はほぼ使えるか 、ワイド型からロング型への変換は可能か、 データタイプの変換 などなど。 DataPreparation部分をビジネスサイドに作ってもらうというアイデアというか運用は目から鱗でした。大変参考になりました。ありがとうございました。
- データプレパレーションでは異常データの一括修正や欠損データの補完、 フィルタリングで不要データの削除などが画面上で簡単に修正できていた ので、データ整備(準備)にかかる時間が節約できそうだった。 画面操作も凄くシンプルでETLツール初心者でも使いやすそうだった。
- データセット後、データのトラストスコア(信頼度スコア)を表すレーダーチャートが表示されてデータの精度がひと目で分かるので、どのデータを修正したら良いかもすぐ分かるのでいいと思った。