(エンジニアの会リーダー・寺内潤)
第一回の入門編に続くデータ分析基礎編として、JDMC研究員で東京理科大学研究推進機構客員研究員の植松幸生氏をお迎えし、データサイエンスとそれに携わるデータサイエンティストの定義についての座学と、データ分析を業務として行うための指標となるデータ分析プロジェクトのプロセスモデル、CRISP-DM(CRoss-Industry Standard Process for Data Mining)に沿った、データ分析を実務で行う歳の注意点(データに潜む罠と表現された)を体験するハンズオンという豪華な2部構成で講義が行われました。
まず、座学の部では、データを様々な目的に利用するために加工・分析する技術がデータサイエンスであり、それに携わる人材をデータサイエンティストであるとし、データサイエンティストに必要な3つのスキル(ビジネス力・エンジニア力・統計力)についてご自身の経験からの考えを述べられました。
ともすれば統計とエンジニアリングといった技術よりの知識、経験を重視してしまいがちなデータ分析の分野にあって、実際に分析を必要とするビジネス上の課題と、課題に対する打ち手を明確に意識する「ビジネス力」こそがデータサイエンティストに大きく求められる要素であるとする植松氏の言葉は、参加者としても大いに感じるものがあったと思います。続いて行われたハンズオンでは、オープンデータとして公開されている携帯電話の基地局に関するデータを題材とて用い、基地局の重要な役割である様々な接続デバイス(携帯電話や自動車、新幹線など)毎の最適な制御を、データからどのように導き出せるのかを体験するものとなりました。
このハンズオンでは、先に紹介されたCRISP-DMのプロセスモデルと必要な3つのスキルを当てはめて、参加者の理解を深めていきながら進行していきました。Business Understandingの部分では、ビジネスを理解して、解決すべき問題とそれに対する打ち手を確認することが重要ということであり、今回のハンズオンでは「基地局にぶら下がっているUE(接続してくるデバイス)のコンテキストを推測し、基地局の制御に活かすこと」をビジネス上の目的として定義されました。
基地局毎に接続してくるUEに対して、どのデバイスに対する制御が必要な基地局なのかは重要なビジネス課題となります。そこをしっかりと目的として捉えた上で、データを準備するプロセスへ入っていくことが重要であり、まさにビジネス力が求められる部分となっていました。そして次にData Understandingの部分では、ビジネス上の課題を解決するにふさわしいデータを準備し、その特徴を把握していくプロセスになります。
実際にオープンデータを読み込んで、可視化しながらデータの特徴を把握していくという形で参加者が手を動かしながら体験することとなりましたが、あえてデータに不備がある状態(データに罠が潜んでいる状態)で提供されているなど、データを整形しながら簡単な統計を見るまでではありましたが、エンジニア力が求められることを実感できる構成となる工夫がされていました。今回は、2時間の枠組みで実施頂いたこともり、講義の中ではデータを確認するところまでの内容となりました。
しかしながら、参加者からは満足度の高い、有意義な講義であったとの感想が寄せられ、本講義に収まらなかった以降のプロセス(統計力を必要とするデータの特徴抽出と機械学習への適用など)を続編として期待する声が大きかったのも今回の講義の特徴であったと思います。実際にデータサイエンティストとして業務に従事する植松氏ならではの、経験を元にしたお話を伺いながらのハンズオンを含めた講義という形式は、JDMCとエンジニアの会ならではの企画として参加者のも持ち帰ってもらえるものがあったのではないでしょうか。
講義頂いた植松様、ご参加頂いた皆様に感謝しつつ、要望の大きかった「統計編」を実現するために再度お力添えを頂けたらと思います。
<主なアンケート>
- ・泥臭いお仕事。Pythonを使ったデータクレンジング、地図上へのデータ可視化について楽しく学ばせていただきました。ハンズオンは初体験ですが、いいですね。
- 改めてデータサイエンスは目的重視。そしてビジネス力が必要だということを理解しました。
- セルフサービスBI的な分析案件への関与が多く、データサイエンスに業務として携わってきたことがありませんが、その相違点などにも焦点を当て、学んでみたいと感じました。
- 最初のデータをクライアントから頂くところから実際の分析までのやり取りなど非常にためになりました。
- データ分析に必要な3つの能力についてビジネス力・エンジニア力・統計力の3つが必要だというのは前から感じていたことだったので、とても納得がいきました。
- データサイエンティストに求められる3つの能力に関して、不足のある力についてはその分野のエキスパートの助けを借りてプロジェクトを進めた方が良いという点を今後意識して、積極的に実践していきたいと思いました。
- エンジニア力、統計力、ビジネス力の3つが必要というお話でしたが、弊社はエンジニア力、統計力を持つ人が圧倒的に不足していると思いました。外から支援を受けるのが一番早いのですが、できれば社内にそのようなスキルを持つ人を増やしたいと考えています。
- 本講義で扱っていた基地局のデータは初めて扱うデータでしたが、初めて扱うからこそ、今回のテーマでもあった、ビジネスドメインの理解の重要さがわかりました。
- ビジネス理解とデータの理解は行き来しながら課題を明確にしていくというやり方を実施していますが、間違っていなかったことが確認できてよかったです。
- 一番大事なのは、ビジネス理解であること。ビジネス目的を達成するための手段としてデータ分析が存在すること。そのデータ分析も、最終的には何かしらのアクションに繋げるものでないと意味がないということ。
- 昨今便利なツールがある中で、コーディングも必要な理由を知れたのがよかったです。個人的になんとなく重要だとは思っていたのですが、今回の説明を受けて納得できました。
- データ分析でもビジネス力が求められることを改めて実感しました。
- データサイエンティストの仕事の大部分がデータ前準備というのは、何度も書籍や研修を通じて見聞きしていたが、ハンズオンを通じて実感を持つことができました。またデータサイエンティストにはエンジニア力が必須であることも再確認できたので、引き続き学習を進めるモチベーションを高める研修を受けられたと思います。
- ・実際のオープンデータでかつ、またそのサンプルに選ばれた携帯電話のデータというのが、講師の植松さんのバックボーンとも一致しており、題材が良かった様に感じました。
- データの取り扱い方に参考になりました
- データ分析をするにあたってドメイン知識がある程度ないとしんどいと感じることができました。専門家と協働するにせよ、きちんと話をするために言葉の意味や基本概念は押さえておかないとと思いました。
- 前回の講義とも関連して、データを扱う上でのドメイン知識の重要性を再認識しました。データのクレンジングで具体的にどんなことをしているのか、また、どんなコマンドを使っているのか、体感することができました。
- いただいたソースを応用して社内のデータで試してみたいと思います。iPhoneでの利用基地局の確認やOpenCelliDのサイト等、適宜活用していきたいと思います。
- 初めて扱うデータでしたが、そもそもの基地局の役割など知らなかったので、どういった使い方のできるデータなのか少し理解が深まりました。馴染みのないデータでしたのでバイアスがかからず、かといって全く理解できないデータでもなかったので課題を見つけやすいサンプルでした。
- pythonでのデータ可視化処理の流れ、データクレンジングの流れが実践できそうだと思いました。ここで詳しく説明いただいたので、実践編の流れが分かりやすかったです。データ分析の際にはビジネス理解が重要だということを実感しました。
- 簡単なライブラリを使用することでマッピング表示が可能になるのだと、python・Googleコラボの可能性の大きさを感じました。コロナ禍でもそうですが地図情報は今後も活用できそうなので、今回いただいたソースを再確認したいと思いました。普段使用している携帯通信網の裏側を知れて、単純に面白かったです。
- リアルタイム性が担保できればビジネスに活用できるかもしれない。
- 「folium」のインストールができておらずハンズオンに参加できなかったのですが、画面を見ながら説明を聞くことで理解をすることができました。今回のお話を噛みしめたうえで、今回お話を聞けなかった分析・評価という部分の話も聞きたいなと思いました。
- データが示す事実に対して、どの様に理解するかという点で、統計力やエンジニアの視点だけでなく、ビジネスの視点など異なる視点や専門性を持った他者を巻き込み、検証していくことが重要なんだと感じました。
- ハンズオンでのデータ分析は初めてだったので、基本的なデータの読み込みから分析までの流れを学習できた。
- Jupyterは前から触ってみたいと思っていながら、今までなかなか機会を作れなかったのですが、今回触ることができ良かったです。データ分析の実務でも積極的に使えていけたらと思います。
- 分析プロジェクトをどう進めるかのイメージがつきました。今日みたいな分析プロジェクトを進める上では、何度も専門家の方とラリーしながら進めるということを想像できました。
- 分析対象がビックデータとなるとつい高度な予測課題に目が行きがちですが、まずはミクロな視点で丁寧にデータ解釈を進める必要があることがよく分かりました。たとえAutoMLを使って何かしらの結果が出たとしてもこのEDAをすっ飛ばすと結果の正しい評価もできないので、データの可視化をしながらデータの持つ意味を咀嚼するフェーズが大事だと思いました。
- 手戻りを発生させないために data understanding をどのような観点から行ったらよいのか、実際にデータを扱いながら体感できたことで理解が深まりました。今後データを扱う際により一層気をつけていきたいです。
- 疑問点があれば可視化してぶつけるというのは大事だなと思いました。
- 弊社も月次で様々な数字が経営企画部に集まってくるのですが、数字だけみても直感的に分からない・伝わりにくいと常々思っていたので。
- 携帯のアクセスポイントの位置と実際に電波を拾う位置が入り乱れていたけど正しそうというのがおもしろかったです。
- 実務に近い形で分析フローを体験できたと感じ、大変勉強になりました。ありがとうございました。改めて、専門家と密にコミュニケーションを取りドメイン知識を深めていくことの重要性を感じました。
- また、異常値を異常値として検知するためにまずは数値の正確性を疑って掛かることを実践していきたいと思います。
- 現状Data understandingの為の時間が全く足りていないと感じたので見直していきたい。データの前処理等、実際にありそうなエラーのリカバリーをテーマにされていて大変参考になりました。普段はSQLでdata preparationをおこなっているので、pythonはあまり使わないのですがビジネス理解とデータの理解のあたりでは活用できそうだと思いました。
- 地図上にplotしての可視化が分かりやすかったです。緯度経度が含まれるデータを扱う際にはfoliumを活用してみようと思います。ただデータを信じるのではなく、データが持つ意味を考える必要があることを学びました。
- pythonでデータ分析をした事がなかったのですが、覚えてしまえばSQLやBIツール上で実施するよりも簡単な印象を受けました。
- 分析の前段階で必要となるプロセスについて、とても参考になりました。
- 全体を通じて楽しかったです。例題、ハンズオンともに良かったです。
- 続編として、エンジニアリング部分だけでなく、最初(目的の明確化)から最後(ビジネスへのフィードバック)まで数回に分けて実施頂けると。。。
- 最後にお話を伺って、やはりデータの前処理に時間がかかっているんだなと思いつつも、正確には「時間を【かけている】」と受け止める方が正しいのだなと思いました。
- 適切な目的設定がある前提で、その分析のキーとなるデータ項目は「誤っている前提」でチェックする、それがデータサイエンティストの「責任」だと考えている、といったお言葉はズシリと重みがありました。データサイエンスとデータマネジメントが最も効果的に重なる部分はどこにあるのか・・・というテーマをいただいたように思いました。
- 目的を持ってデータを収集したり、プレパレーションしたりするということが欠かせないというのはよく理解できたが、一方で、前月の講義でもあった様に不揃いや不確かであっても、データを集め、見せていくことも必要で、そのバランス取りが難しいとも感じました。
- 実際の分析に入る前、分析を始めて提出するまでにただデータを見るだけではなく、クライアントとの対話が必要なんだと気付きました。
- 非常に多くを学ばせていただき、とてもよかったです。
- 今回の講義で付録となっていたモデリング、評価、デプロイメントの部分の講義もぜひ受けたいです。
- 丁寧にハンズオンいただきありがとうございました。実際にデータを触れたことで具体的な作業イメージが付きました。foliumも初めて知りましたが便利だと思いました。講義内容についても内容に納得感があり、大変参考になりました。 蛇足ですが、私はGoogle Colabでハンズオンをやるときは、セッションストレージに直接アップロード(Google Driveのマウントはせず)してもらってます。フォルダはアップできないのでzipでアップロードしてからunzipする必要はありますが、マウントするより参加者の操作を統一しやすく若干トラブル少ない気もします。
- 別の用事で呼び出されてしまったため、本当の最初で退席となり残念でした・・・
- とても楽しみにしていたので、資料配布いただいたのでできるかわかりませんが、がんばってみます!
- 非常におもしろい講義で、あっという間に時間が過ぎていきました。data preparation や modeling、evaluation に関しても、今回のように実際にデータを触りながらお話を聞く機会があればと強く思いました。
- 「データは疑ってからでないと信用できない」という言葉が刺さりました。ハンズオンを通じて思う以上に泥臭いことをしているな、こんな事世のエンジニアはみんなしてるのかな?(もっとサラッとできちゃうようなツールとか使ってるんじゃないの?)と思ったのですが、きっとされてるんでしょうね。
- また、オンラインのハンズオンは人それぞれ環境が違うので予想以上にコントロールが大変だなと感じました。植松さん、ありがとうございました。
- 大変勉強になりました、ありがとうございました。CRISP-DMの流れの前半部分の確認になりました。出口設計などの部分もあると良かったかもしれませんが、短時間で内容の濃いハンズオンでした。本当にありがとうございました。今回は実業務に活かせる内容でとても得たものが大きかったです!誠にありがとうございます。
- 1つ改善点として思ったのは、pythonの実行環境を講演者と同じColaboratoryに統一すれば受講者のデバック時間も最小限になり、良いと思いました。(でもそれでも早くて尊敬します。)予めメールでは『python+Jupyter環境で』と言われていたので。ただGoogleアカウントを持っていない人もいると思うので、Jupyter Notebookは推奨にするとよいなと思いました。
- 今回、数値に文字列が紛れ込んでいることや、IDが当てにならない例をご紹介いただきましたが、他にも代表的な「罠」があれば知りたいと思いました。
- 少し実習の難易度が高かったです。初心なのため内容についていけない部分がありましたが、一般的なセミナにない実践的内容で時間の経過を忘れました。今後はモデル化の方もお願いできればと思います。たのしすぎた研修ですが、大人数のハンズオンだったのでなかなか進みがよくない部分もあったと思います。なので、また次回開催いただける機会があればぜひ参加いたいです。
- 受講していて非常に面白いハンズオンでした。ありがとうございます。是非、分析編の開催をいただけると嬉しいです。
次回のエンジニアの会は、
7月度;統合プラットフォームを体験するハンズオン
2021年7月21日(水)16:00-18:00枠、18:00-20:00枠
https://japan-dmc.org/?p=14346
7月度;統合プラットフォームを体験するハンズオン
2021年7月21日(水)16:00-18:00枠、18:00-20:00枠
https://japan-dmc.org/?p=14346