
AI、人工知能、機械学習…なにから勉強を始めたらいいの?
データサイエンスのスキルを学びたいけど、どこから手を付けたらいいのかわからない方へ
今後いっそう社会から求められる、データサイエンスや人工知能のスキル。自分の市場価値を高めたいと思っている方や、今後安定した収入を得るためにスキルを身に着けて安心したいと思っている方の中には、このスキル習得を目指している方も多いでしょう。
しかしそうした意欲の高い方の中においても、「何から勉強を始めたらいいのかわからない」という方が多くいらっしゃいます。「入門書」と言われる書籍を手に取ったけれども、内容が頭に入ってこなくて挫折したという方からの相談も多いです。
せっかく意欲が高く、人工知能分野に興味を持っている方がいるにも関わらず、粗悪な学習コンテンツのせいで意欲がそがれるのは悲しいことです。
ここでは、データサイエンスを学習するときなぜひっかかるか解説し、なにを入門書とすべきかを示そうと思います。
なぜ機械学習初学者はつまずくのか?
- 「次の社会で主役になるために機械学習のスキルを身につけたい」
- 「ついにうちの会社でも、上からAIを活用してなんかできないの?って指示が来た」
- 「需要の大きい新しいスキルを身につけて転職バリューを高めたい」
データサイエンスに関する知見を求める動機は様々ですが、近年、この分野のスキル獲得や人材育成のニーズが個人・企業・社会全体どの次元においても重要視されているのは実感するところだと思います。
筆者のところにも、実務家を中心に、勉強を始めたいがまず何から始めたらいいだろうかと相談に来てくれる方は少なくありません。
そして相談を受ける中で気づくのは、データサイエンスの学習に「挫折」したことのある方の多さです。ビジネスの実務家でデータサイエンスの学習方法を相談しにくる方はみな一度「挫折」を経験されて、それでもなお学びたいという意欲を持って、藁にもすがる気分で相談にいらっしゃっていることがわかり始めました。
- 「大学時代の研究者の友人に聞いたら、500ページ以上あるオライリーの技術書を薦められたが、2ページ目には既にチンプンカンプンになっていた」
- 「ネットで”入門書”と書いてある本を手に取ったものの、全然用語がわからない。”ライブラリで簡単にできるよ”っていっても、そもそもライブラリってなによ」
冗談を抜きにして、これがリアルな学習者の声だと思います。特にアカデミア系の友人に相談してしまうと、ビジネス系の人間は挫折をしてしまう確率が高くなるように思います。
なぜこうなってしまうのでしょうか?
相談者様をみて、私なりに考えついた結論はこうです。
挫折してしまう方の多くが、データサイエンティストの常識、機械学習実施者にとっての共通認識≒コモンセンスを知らないで学習を始めています。
この「常識」をなんとなくでも知っているか否かで、学習を始めた後の各説明の腹落ち感がまったく異なるのです。
どういうことか、説明していきましょう。
学習の前にコモンセンスを身につけておこう
常識やコモンセンスを知っておくことが学習にとっていかに重要か、例を挙げて説明しましょう。
筆者は世代的に、据え置き型ゲーム全盛期の時代に育ちました。スーパーファミコンからゲームをはじめ、セガサターン、プレイステーション、プレイステーション2と数年毎に進化を競い合った時代です。
この時代、上記の通り数年毎に新しい機体が登場するわけですが、その都度、ゲームの操作方法は変わったのでしょうか?
いいえ、この時代には多くのゲームハード機がありましたが、そのコントローラーの形状はほとんど変わりませんでした。左側に十字キー、右側に4つの丸ボタン、外縁の左右に細長いボタンという基本的なスタイルはかなりの部分で共通だったのです。
そしてゲームソフトにおいても、どのメーカーでもどんなジャンルでも、このコントローラーの使い方にはある種の「約束事」がありました。
十字キーでゲーム内の主人公シンブルを操作し、Aボタンは決定、Bボタンはキャンセル、Xボタンがコンフィグで、Yボタンがゲームの特殊キー、といった具合です。(ボタン名はスーファミを例にしてます)
この「約束事」を経験から理解していた少年時代の私は、どんな新しいゲームを買っても、特に説明書を読まずに問題なくプレイできました。とりあえずゲームをはじめさえすれば、なんとなく雰囲気で遊び方がわかったのです。
一方、新しいゲームを買ってもらったばかりの時など、父親が気まぐれでゲームに参加したりするのですが、彼はどんなゲームでも説明書をじっくり読んでいたのを覚えています。子供からすると、はやくゲームを始めたいのにじれったいたらなく、何度も「やればなんとなくわかるよ!」と急かしたものです。
しかし今から考えると、彼はなんとなくゲームを初めても本当に操作がわからなかったのだと思います。シューティングゲームをしているとき、スタートから1歩も動かずに撃墜されていました。
この「業界の”約束事”を知っているから、新しいsomethingがきても何となく理解できる」という現象は、ゲーム以外のあらゆる業界で、重要なことから些細なことまで存在しているように思います。
機械学習の分野もこれは例外ではありません。
多くの”入門書”を標榜する本が、その道の専門家によって書かれています。そして専門家であればあるほど、無意識にこの”常識”があることを前提とした説明をしてしまっています。そのため、そもそも”常識”が異なる人にとっては、「何を言っているのかわからない」となっているように感じています。
そう、Bボタンがキャンセルボタンであることを知らない人間は、十字キーで必死に画面の項目を探し、あげく「どうやら一度決定ボタンを押すとキャンセルできないらしい。リセットしてやり直そう」となってしまうのでしょう。
専門家がよくしがちな、「まあとりあえず適当に良さげにしてくれるライブラリを探せして、いじって遊んでみるといいよ。なんとなくわかるから」というアドバイスは初学者にとって無価値です。
「世の中にはライブラリというプログラムの欠片があって、それは各コミュニティで研鑽されフリーで利用でき、Pythonから簡単に呼び出せて、scikit-learnをはじめ機械学習分野ではこれをベースとすることがデファクトで、日々様々に進化を続けている」という「常識」の共有がなければこのアドバイスは役に立ちません。
ここまで、データサイエンス分野の学習においても、専門家の間ではなんとなく共有されている「常識」をある程度知っていないと、そもそも説明を理解しにくいということを説明してきました。
では、この常識をどんな学習で身につけるべきでしょうか?
本来、初学者が読むべき入門書
AI、人工知能、機械学習、データサイエンス…こう呼ばれている技術体系には、主として2つのルーツがあります。IT系の技術と、統計的・数学的な技術です。業界のコモンセンスもまた、この2つのルーツから多くの部分を引き継いでいます。
実装系の常識はIT系から、理論系の常識は統計学系からきているイメージがありますね。ここでは統計学系の「常識」を効率よく学び、ビジネスに統計を用いるイメージを掴める本を2冊紹介しましょう。
※理系エンジニアであればIT系の常識はなんとなく備えている方が多いですし、文系ビジネスマンにとっては実装から入るのはハードルが高すぎるため、統計学系の常識を鍛えることがどちらにとってもより有用と思います。
統計学が最強の学問である
著者の西内氏は東京大学大学院医学系研究科にて医療系の研究者としてキャリアをはじめ、本書の大ヒットを一つの契機としてデータ分析サービスの会社を立ち上げています。
なぜ医療からデータ分析?と思うかもしれませんが、もともと医療分野はデータ分析を正しく・適切に活用していた産業です。
ある薬が「統計的に有意に」効果があったといえるのか、前提条件は正しく整理されたうえでこの治療法は効果があると言えるのか、厳密な議論が求められます。ビジネスでは時に大まかな方向性が正しければいいですが、患者の人生に関わる医療ではもっと厳密なデータの扱いが求められます。
西内氏が本書を上市したとき、まだ若手の研究者でしたが、こうした医療業界で培われてきたデータ分析の技術をつかって、社会制度やビジネス施策の在り方をきる視点は大変画期的かつ、文章としても非常にわかりやすくまとまっています。
入門書として、いまでも推薦できる内容です。
「原因と結果」の経済学-データから真実を見抜く思考法
『「学力」の経済学』という著書で有名になった、中室氏の著作です。イメージだけで「なんとなく効果がありそう」と語られる社会政策が、いかに統計的に矛盾だらけなのかわかりやすく解説しています。
特に因果推論の解説、すなわち因果関係と相関関係がどのように異なり、事実とは異なる誤った理解をしてしまうのかについては多く紙面が割かれています。
本書を読むと、データサイエンティストがなぜ因果関係と相関関係の違いにここまでこだわるのか理解できると思います。
因果推論はMITのチームが2019年にノーベル経済学賞を受賞したキモでもありました。データから真実を理解し、施策化していく流れを理解する良書と言えると思います。
中室氏とは、彼女が世界銀行の仕事から帰国して日本の大学で教鞭をとっているときに挨拶をしたこともありますが、現実を明朗に理解する実務家タイプの研究者です。今はアカデミアに身を置く方の著書ですが、ビジネスマンにとっても理解しやすい一冊と思います。
私たち新技術応用推進基盤では、「人工知能プロジェクトマネージャー」試験合格の為の参考書も公開しています。
本試験は、「人工知能をキャリアに組み込みたい」というすべてのビジネスマンに学習のゴールとして頂くにふさわしい試験であるようにとの想いで設計しておりますが、その入り口である参考書籍の内容に難しさを感じたら、まずは上記の2冊を手に取ってみてはいかがでしょうか。
特に分野C、分野Dでハードルを感じたときには、上記の2冊は理解を助けてくれると思います。
ぜひ参考としてください。
それでは、また。