データサイエンスの入門動画・講座がいろいろな企業や教育機関から公開されているが、はじめの一歩はこれで決まりなのでは?
株式会社Rejouiが制作した補助教材『高等学校の「情報Ⅱ」のためのデータサイエンス・データ解析入門』が、総務省統計局サイト上で公開された。総務省統計研究研究所が監修を務める。
>>総合学習のための補助教材 「高等学校における「情報II」のためのデータサイエンス・データ解析入門」(総務省統計局)
「情報Ⅱ」とは、共通必修科目「情報Ⅰ」の内容を発展させた、プログラミングを含む選択科目だ。2022年(令和4年)度から全面実施される。
今回の補助教材は「情報Ⅱ」の副読本として制作されたもの。「統計・機械学習について、新しい学習指導要領に基づき指導を行う高校の先生方へ向けたもので、指導を行う際、その導入あるいは発展をサポートするための活用素材として作成」されたとのことだが、非データサイエンティストのビジネスマンでも読みやすい。正直、入門書も顔負けのわかりやすさだと感じた。
本の構成は次のとおり。
- 第1章 データサイエンス(機械学習のアルゴリズム)によるデータ解析が社会にもたらす変化
- 第2章 機械学習を用いたデータサイエンスのプロセス
- 第3章 機械学習(教師あり学習)
- 線形回帰
- サポートベクターマシン
- 決定木・ランダムフォレスト
- ニューラルネットワーク
- ナイーブベイズ法
- K近傍法
- 第4章 機械学習(教師なし学習)
- クラスター分析
- 主成分分析
- 因子分析
- アソシエーション分析
- 第5章 構造化データ処理の基本
- 第6章 非構造化データ処理の基本
- 第7章 プログラミングの基本
第3、4章では、機械学習のそれぞれの手法を「スマートフォンの故障は予測できる?(サポートベクターマシン)」「一緒に買われるケーキはどれ?(アソシエーション分析)」といったテーマを使い機械学習の実行・結界の解釈まで体験できる。データセットやサンプルコードも準備されている。
第4章「因子分析」(p.105)より。"よくある"統計データありきのケーススタディではなく、興味深いテーマ選定が多いのも面白いところ
第7章はRとPythonの基本構文を学ぶ。四則演算から始まり、条件を指定したデータの抽出、代数値の算出、集計とデータ分析に役立つ関数を紹介していて実践的だ。
また「参考」として、以下のコンテンツも準備されている。
- 環境構築方法(R、Python)
- ライブラリの紹介
- 参考文献・推薦図書・データセット
なにより驚くべきは、この内容が全文無料公開されているということ。高校生向けだから……とあなどらずに、ぜひ目を通してみてほしい。
>>プレスリリース