「 難しすぎる数学」が、日本のデータサイエンティスト育成が遅れた一因――実践を強く意識する横浜市大データサイエンス学部

「データサイエンス力の高い人材が不足している」。

DX推進で企業のデータ活用への関心が一気に高まり、「AI戦略2019」をはじめとする国家戦略でもデータ人材の必要性が叫ばれている今、データサイエンスを学ぶ手段も増えている。
企業が提供する講座、行政による無料のオンデマンド講座、MOOCs……と多くの選択肢がある中で、あえて「高等教育機関でデータサイエンスを学ぶ」意義はどこにあるのだろうか。

2017年の滋賀大学を皮切りに、データサイエンスが学べる大学も年々増えている。データサイエンス、と学部や科目名にはあるけれど、他の大学とどう違うのか?この大学で身につくものは何か?

データサイエンスを学べる大学・学部を詳しく知る本企画、第5回は横浜市立大学 データサイエンス学部を紹介する。
国公立大学としては滋賀大学に続き2番目に開設され、多くの人が注目している本学部。同大データサイエンス学部、汪 金芳学部長に話を聞いた。

横浜市立大学 データサイエンス学部長 汪 金芳教授
1994年千葉大学大学院自然科学研究科博士課程単位取得退学。千葉大学大学院理学研究科教授を経て、2018年より横浜市立大学データサイエンス学部教授。
ビッグデータから事前情報を取り出し、より詳細なデータと結合させる、データ指向型ベイズ流統計的予測の研究を行っている。

アルゴリズム(機械学習)系・統計系のバランスがとれたカリキュラム

――2018年の4月にデータサイエンス学部を設立されたとのことですが、いつ頃から構想をお持ちでしたか?

汪 私が着任したのは2018年ですが、2016年に準備委員会を立ち上げたと聞いています。

本学は2005年の大学法人化を期に、文理融合の国際総合科学部(現在は学生募集停止)と医学部という2学部体制に変わりました。そこから10年がたち「大学として特長的な時代に沿ったカリキュラムを作りましょう」という話が持ち上がり、理系(特に数学系)、医学系、経営科学系の先生を中心に、情報を軸に学びを深めていける学部作りを検討し始めます。

当時は今ほどデータサイエンスという言葉は流行っていませんでしたが、情報化社会というところで、社会のニーズはあるだろうと考えていました。

文科省や社会に対しての約束はありますが、やはり理想的な姿を実践を通して絶えず追及し改良していく、ということを特に意識しています。

――カリキュラムを見ていくと、1年次から線形代数や統計など、数学関係の科目が多いなという印象を受けました。

汪 本学としてはバランスのとれたカリキュラム作りを意識しています。

本学のデータサイエンス学部は、大きく分けると2つの科目群から構成されています。1つが統計学を中心とした科目群、もう1つが機械学習を中心としたアルゴリズム系の科目です。機械学習や深層学習もここに含まれます。加えて、これらの科目を根底から支える数学や確率関係などの科目があります。

あわせて本学の理念「文理融合」「価値創造」に沿った学修として、PBL(Project-Based Learning:課題解決型)演習を用意しています。

――最近ビジネスサイドでも語られている「非構造化データ」のように、実用的な科目名もあるんですね。

汪 データは構造化されているものとそうでないものに分けることができます。

リレーショナルデータベースに格納されている従来のデータは構造化データと呼ばれ、各列の意味づけが事前に与えられた、表形式に変換可能なデータです。

この範疇に収まらないデータを全て非構造化データと呼び、テキスト、音声、画像、センサ信号などが全て該当します。Webやモバイル情報端末から収集された膨大な非構造化データは多くの情報を含み、この「非構造化データ」の利活用はデータサイエンスの実践において不可欠となっています。

非構造化データはデジタルデータだけに限りません。例えば介護日記の文章から、その方(被保険対象者)の要介護の度合いや今後どうなっていくのかを推定するのも、非構造化データの活用といえます。

「予測をするためにデータを整備して自然言語処理を使おう」といっても、介護スタッフには国籍が違う人や、流暢な日本語を操れない人もいるかもしれません。この辺は大きな壁があり、チャレンジのひとつになっていると思います。

専門科目である実際の講義では、非構造化データの管理技術や各種データの特徴と情報抽出のための実践的な技法を教授しています。

――他の学部の科目や、両方の分野にまたがる科目があるのもユニークなところですね。データサイエンスと経済、医療系の統計だとか。

汪 横浜市立大学には、国際教養学部、国際商学部、理学部、データサイエンス学部、医学部の5つの学部があります。私立大学のように学生数が多くなく、規模が小さい大学です。

データサイエンス学部の学生は学部の専門科目に加え、各自の将来の方向性に応じて、これらの学部が全学に開放している科目(全学開放科目)を履修できます。加えて、ドメインと言われる医療系や経済系の科目も揃えています。

特に医学系は医療統計学、生物統計学の専門の教員が複数名おり、学生からの人気も高いです。因果推論や医療統計を学べるゼミもありますよ。

医学系は医学、広い視野で見ると医療や健康科学などへのデータサイエンスの応用を目指していて、学生から非常に人気のある分野になっています。想定進路のひとつが製薬会社です。

企業のプロジェクトを通じて、ビジネス力とコミュニケーション力を身につける

――データサイエンスの専門知識に特定の分野の知識が加わると、卒業後の活躍の幅が広がりそうです。医療などの各分野や企業のデータサイエンティストとして活躍できそうですね。

汪 企業の方の話を聞くと、金融やマーケティングのように、スキルだけではなく、人間力やコミュニケーション力が求められる職種へのニーズが強いと感じています。スキルに関しては、深層学習というようなテクニカルな部分より、全般的に俯瞰する統計的データ解析の力が求められます。

私自身は統計学や機械学習、アルゴリズムといったテクニカルな部分で語ることができない、現実の世界の課題解決、価値創造、社会展開力を「ビジネス力」と呼んでいます。

今後は、データサイエンスをバランスよく学ぶために、そうした現場に立脚した「ビジネス力」を意識したPBL演習を絶えず改良していく方針です。PBL演習は、3年次の学生全員が参加し、授業で学んだ知識を現場で発揮する機会になります。

大学は知的な情報の発信基地ではあるものの、データは企業やビジネスの世界にありますし、大学が閉じていては現実社会の課題を研究することはできない。

一方で企業の方々は、データサイエンスの人材不足という課題意識をお持ちだからこそ、データサイエンス学部の設置後は多くの企業からアプローチがありました。

現在は全日空商事、シミック、サイバーエージェント、エイチ・エス損保、イオン、日産自動車、浜銀総合研究所など、さまざまな企業、業界で学生が学んでいます。

――PBLは就職に直結するイメージですか?

汪 学生の就活とは切り離し、あくまで学びの一環としています。

PBL演習は、データに関わる社会課題を4つから5つの類型に分けています。たとえば、会社の中にデータサイエンティストの社員がいて、社会人の世界ではある程度答えがわかっていることを学生に追体験してもらう「体験型」。これは1番シンプルな、教室での座学的な実習に近い形です。

一方で、どうすれば売上が上がるのか?といった社会人でも答えが分かっていないことを解決する「課題型」もあります。データが整っていないことも多く、「データサイエンスの視点で問題を整理し、限られた時間の中で必要があればデータを取ってきてください」といった、一番難しいタイプのPBLになります。

その他、この2つの中間レベルのPBLもあり、どのタイプのPBLを履修するにしても、学部生は直面しているビジネス課題を解決していくということより、ビジネスの課題解決を通してデータサイエンスを学ぶことを重視しています。

――レベル感や課題を見て選べるのは企業と学生、どちらにとっても魅力的かもしれませんね。

汪 良い人材を採用したいという企業にとって、PBL協力は大きなモチベーションになるのではないでしょうか。幅広い企業の方にご協力いただけるよう、無理に類型に当てはめず「なんでも結構です」とお伝えしています。

ミスマッチングを防ぐために、企業の課題や想定されるスキル、期間、人数などをあらかじめヒアリングしています。学生はこうした情報もふまえ、第5希望まで選定し、その後、教員は学生の希望をふまえつつ、参加チームを編成しています。

――データ関係の仕事はチームが中心で、むしろ個人で動くことはあまり多くないんじゃないかなと思います。PBLはチームワークを学べる場にもなりそうですね。

汪 そうですね。社会人になれば、PCの画面に向かって、ひとりで黙々と仕事するわけにはいかないので、同僚や上司、部下と絶えずコミュニケーションをとる必要があるでしょう。これこそ、従来の学問分野とデータサイエンスが1番異なっている部分でしょうね。

難しい数学テクニックを教えすぎたことが、日本のデータサイエンティスト育成が遅れた一因

――従来の学問分野との違いに触れていただきましたが、学問としてのデータサイエンスの特徴的な部分とは?

汪 データサイエンスの分野、特に人工知能や深層学習は発展のスピードがとても早く、ある意味ですぐ「腐ってしまう」とも言える分野です。

深層学習の具体的なアルゴリズムを教えることも重要ですが、大学の果たす役割を考えると、その根底を支える普遍的な原理や原則を教えることが非常に重要です。

例えばバックプロパゲーション(誤差逆伝播)を理解するには、基本的な微分・偏微分の概念が出てきます。データサイエンスを学ぶなら、文系理系を問わず、基礎的な数学の素養が必要になります。また、深層学習を理解するためには、最低限の行列代数に関する知識も必要不可欠です。

ただし、普遍といっても、ニュートンの時代に大学で教えていることを現代でもそのまま教えるというわけにはいかない。文理融合の理念を掲げ、価値創造を強く意識したデータサイエンス学部ならではの内容に科目の中身を変更していく必要があります。

例えば、線形代数は古くからある科目ですが、高校数学では習いません。しかし、書店に並んでいる微積や線形代数の教科書は古典的な構成になっているものが多く、自身で抽象的で難しい計算をしないと理解しづらいため、特に文系の学生にとってはハードルが高い。

線形代数は何を目指していて、どういうアルゴリズムを使って計算するのか、という部分が理解できたら、実際にはPythonやRを使って、計算機に計算してもらう。

難しい手計算ができることよりも、データサイエンスには数学の基礎が必要だ、ということを学生自身に理解させ、学ぶモチベーションを保つことが大事です。

――たしかに計算を解くこと自体が苦しくなったら、その時点で挫折してしまいそうです。

汪 従来の(数理)統計学の教育の教訓の1つは「数理的側面の過度な強調」だと思います。これは日本を始め世界でデータサイエンス教育が遅れた重要な要素でもあります。

日本の大学に、統計学部はほとんどないでしょう?始めから高度な微分積分を教え、その上に確率論を教えるとなると、統計学を学び始めるまでに高度な数学を理解しないといけない。つまり、統計学を数学の1分野として教えているのです。ビッグデータという概念が生まれ、計算機を使えば大量のデータを扱える時代に突入したにも関わらず、ですよ?

具体的な計算は計算機に任せれば良いけれど計算機は創造性を持っていない。完全自動運転すら実用化できていないのに、汎用的な人工知能が現実化するのはまだまだ先の世界だと思います。

データサイエンスの学びの方向性に不正解はない

――学部の今後の展望をうかがえますと嬉しいです。

汪 統計学と情報学をうまく融合したバランスのとれた学部、また本学の他学部と学びの融合も視野に入れた学部として、成長していければよいのではと考えています。

データサイエンス学部の方向性に「不正解」はありません。情報学が強い大学もありますし、統計に強いという大学もあれば、本学のように統計学と情報学のバランスや他学部との融合を視野に入れた大学もあります。いろいろな大学のデータサイエンス学部を検索するとき、「本質的に大事な統計学が強いかそうでないのか」にも注目してみてください。

データサイエンスが学べる有名な海外の大学も、大学によってだいぶ様相が異なります。ハーバード大学は統計の色が強い一方、隣にあるMIT(マサチューセッツ工科大学)は人工知能を全面的に出して、計算機科学の資源を存分に生かしています。比較的融合しているのがバークレー大学やスタンフォード大学です。

大学の歴史や教員のリソースなど、大学の事情によって学べる内容が異なるのは当然です。

――大学によってカラーが大きく変わるのは、新しい学問分野ならではですね。「データサイエンス」だからとどの大学でも同じ内容を学ぶより、多様化していたほうがある意味健全なのかもしれません。

汪 データサイエンスの教育と研究を続けていくのに問題なのが人材不足、とくにエキスパートレベルの人材育成が急務です。これは国の大きな課題として文科省も動いていますが、すぐに解決できる問題ではなさそうです。

就職の機会ということだけ捉えても、今後もデータサイエンスのニーズはますます高くなると思います。学問分野としてどう変わっていくかは分かりませんが、多くの方々に統計学や機械学習の分野に興味を持っていただき、共にデータサイエンス分野を盛り上げていくことができればと思っています。

究極的なデータサイエンスの課題にふれる場

本文では割愛したが、取材中に語っていただいた人類史上での「科学の4つのパラダイム」が印象的だった。

「火は触ると熱い」「一定の方向から日が昇る」といった経験科学からはじまり、データから数式や法則を導く理論科学、計算機が登場し、より複雑な問題解決ができるようになった計算機科学(コンピュータサイエンス)と続く。現代は計算機を使って、現実世界や科学そのものを発展させる計算科学の時代に差し掛かっているという。

いまは旅行で撮った写真データやSNSのやりとりなど、現実世界のさまざまな情報がデータとして保存されている時代だ。データから仮説を抽出・検証することで、実社会の問題解決や価値創出につなげていく。汪学部長は「これこそが究極的なデータサイエンスの課題ではないか」と述べられていた。

これまで複数校のデータサイエンス学部について話を聞いてきたが、数学やコンピュータサイエンスの教員が揃いつつも、学内では比較的独立しているという学部が多かった。しかし横浜市立大学は、他学部の「全学開放科目」との連携など、他の学問分野とデータサイエンスの繋がりをより強く意識している。データサイエンスを使った実社会の問題解決や価値創出を知るのに、最適な場だといえそうだ。

本企画は、今後もデータサイエンスを学べる大学・学部を紹介していく。

横浜市立大学 データサイエンス学部 概要