こんにちは、イッセイです。
データサイエンスに触れてみる。
タイトルの通りだが、少し説明しておく。
データ分析の学習をするにあたり、私は「Python統計分析&機械学習 マスタリングハンドブック」という書籍を使用している。
理由は「なんか目に入ったから」である。
アイデミーの「データ分析講座」を受講したが、いまいちパッとしない内容「勉強のために作られた教材」であったため、物足りなさと謎が残る。
たとえば、Numpyを扱うときに2次元や3次元のデータでしか説明されず「一般的な次元」の話はされなかった。
データ分析で4以上の次元が必要になるかは不明だが、「一般的な場合はどうなのだろうか」を説明されないのは、理系の私としては非常に困る。
※理解しないと使うのが難しいタイプ。
ゆえに書籍を購入し、時間がかかってもいいので、自分の興味のある「お金」というテーマと一緒に勉強してしまおうという魂胆である。
さてさて、そんな中始まる第1回だが、データサイエンスに触れていく。
データサイエンスとは「データを扱う科学」である。データを扱うというふうにかなり抽象的な表現となっているが、データを扱えばそれはデータサイエンスということになる。難しく考える必要はなく「データ扱ってるわ~」と思えば、それはデータサイエンスである。
データサイエンスでは以下のようなことをする
・統計学
・データ分析/データ解析
・データマイニング
・機械学習
・ディープラーニング
軽く説明しよう。
統計学とは、統計に関する研究を行う学問である。
現実世界のさまざまな事象から得られたデータから、数学的な手法を用いて「データの性質」や「規則性」を見出すことを主な目的とする。
データ分析/データ解析とは、統計でえられた結果に対して、有益な情報を取得したり、何かしらの決定をするために行う。
例えば夏にビールがよく売れるのであれば、夏前にはビールを多めに仕入れておく。といったことができる。
データマイニングとは、大量のデータに対して「データ分析/データ解析」を行うことである。
数学的にも「量」というのは重要で、人間的に無限に等しいデータなどもある。有限/無限によって使用する手法が異なることもある。
近年では「ビッグデータ」という言葉も出てきたため、ある分野においてはデータマイニングとデータ分析/データ解析の使い分けが必要となる。
機械学習とは、コンピュータが「学習」という処理をすることにより、数値予測や画像などの分類・検出などを行うことができるようにしたもの。
データマイニングと同様で大量のデータが必要となる。
例えば、ネジについて考えると、人間は一目見ただけで「ネジはこんな感じの物体か」というのがわかる。それは、いままでの経験において、ものには「色」「形」「質感」「光沢」「重さ」など様々なものが備わっており、それを五感で感じとることができる。
しかしながら、AIは「画像」としてそれらを処理することになる。もっと言えば「色」の配列であり、更に言えば「RGB」の羅列である。コンピュータは「0と1の世界」なので、それらから「色」や「形」などを判断する必要がある。
※おそらく、画像を0と1だけで表現されると、人間は何も理解できなくなるだろう。
AIには「色」や「形」といった概念はなく「0と1」で処理される。
しかしながら、「色が出てくるパターン」により形をとらえることができたりする。
そうして、大量のデータからネジというものを学習することができる。
ディーブラーニングとは、機械学習の1種であり「ニューラルネットワーク」という人間の脳細胞を参考に考えられた機械学習の手法である。
現在、機械学習といえばこれが主流となっている。
とりあえず今日はここまで、また明日。