データサイエンティストを目指すためのロードマップ
データサイエンティストになりたい人は増えてきていると思いますが、なかなかどう勉強していけば良いのかまとまった情報は無いように思います。
また、データサイエンティスト協会が示すスキルチェックリストは膨大すぎているだけで途方に暮れてしまいます。
そこで、この投稿では、データサイエンティストになるためにはどう勉強していけばよいか?
どのようにすれば挫折せずデータサイエンティストになる足がかりを掴めるか?
を入門者向けに簡単にお伝えしていきたいと思います。
まずはデータサイエンティストがどういう職業なのか簡単にご説明しましょう。
データサイエンティストは何かしらのデータを原料に、自分の知識とスキルと経験を総動員して新たな知見を導き出すプロフェッショナルです。
意外と業務範囲は広く、分析設計やデータの収集・加工・アウトプットの解釈から事業戦略に落とし込むところまでやるのがデータサイエンティストのお仕事なんです。
データサイエンティストと言うと「 Python を書いたり機械学習モデル構築したりすることだけが仕事」というイメージを持たれることもありますが、そんなことはないのです。
データサイエンティストはビジネス、エンジニアリング、データサイエンスの三つのスキルが備わっている人材と言われています。
これら三つのスキルが備わってこそ分析から価値をビジネスに貢献することができるのです。
さて、データサイエンティストに求められるスキルが簡単にどんなものなのか分かったところで、実際にどのように勉強していけば良いのかご説明しましょう。
人それぞれいろんな勉強の方法がありますが、おすすめのロードマップは以下です。
1.まずは統計の基礎について学びましょう
統計の基礎はデータサイエンティストにとって必ず押さえておかなくてはいけない部分です。
まずは平均分散など統計の基本的な部分を学び、母集団や標本の考え方について学び、統計的検定を理解できるレベルまで行きましょう。
統計の理論は退屈で勉強していてつまらないと感じるかもしれません。
そのため、なるべく早い段階から Python での実装をしてみましょう。
もちろん R でも良いですが個人的には汎用性の高い体操に慣れておく事をお勧めします。
理論と実装を並行して行うことで理解も深まりますし、飽きずに挫折せずに学習を進めることができます。
2.機械学習手法を学んで Python で実装
一旦統計学で土台を固めたら、その後は機械学習手法の各論について学んでいきましょう。
最初から機械学習領域の理論を根っこから理解しようとすると挫折しか出ないので、まずは大枠を理解して、その上で手を動かして Python で実装してみましょう。
そして、その中で興味の出てきた手法に関しては、論文や書籍などでちょっと深掘りして眺めてみるくらいのスタンスがお勧めです。
3.ビジネス観点で機械学習を導入していくかについて学ぶ
統計学と機械学習の土台が出来上がった後は、実際にどのように機械学習をビジネス導入していくか学ぶのがお勧めです。
いくら理論がわかっていても、機械学習を使ってビジネスに貢献できるかどうかはまた別問題です。
是非、ビジネス観点でどのように機械学習を導入していけば良いのか、どのような点に注意しておかなくてはいけないのか理解しておきましょう。
4. SQL を学ぶ
このフェーズは正直最後のステップに来る必要はないのですが、一旦最終ステップとしておいています。
データ分析の現場では、データの前処理加工に SQL を非常によく使います 。
Python や R といったデータ分析言語だけでなく 、SQL をしっかりかけるようにしておくことが大事なんです。
ここまではベーシックなスキルとして全員が持っておいた方がよく、さらにここからはエンジニア特化型に進むorビジネス特化型にする選択肢があると考えています。
エンジニア特化型では、開発系の知識がより強いエンジニアリング、データを蓄積しパイプラインを構築するスキル、ディープラーニング周りの最先端処方の知識が欲しいです。
ビジネス型では 、PM 的なスキル、イシューを特定するコンサル的なビジネススキルが欲しいです。
向かう方向性に合わせて、 Python や SQL 以外の言語やツールの使い方や、インフラ周りの知識を付けていきましょう。
ここで取り上げたスキルはなかなか網羅的に勉強しつつ挫折せずに独学で勉強するのは難しいと思います。
そこで、おすすめするのがプログラミングスクールです。
プログラミングスクールは、いろいろあり、ここでは書ききれないので、別途記載します。