データサイエンスは扱うデータの質が問題
文部科学省によると2024年度の国立大学の入学定員は、学部が前年度比440人増の9万6,067人、大学院が前年度比553人増の6万439人となっています。学部では情報分野を強化する財政支援の枠組みを活用した神戸大など12校が、主に情報系学部の募集人数を340人増やしています。その中でデータサイエンスに関する学部学科の新設は少し下火になりましたが2024年度も千葉大学情報・データサイエンス学部100人、宇都宮大学データサイエンス経営学部55人の増加となっています。
この結果大学でデータサイエンスを学ぶ学生は数千人(国立私立合わせて)になると思われますが、こうなると学んだことを生かせる職場がないことが危惧されます。ここ最近データサイエンスが注目され始めたのは、大量のデータが蓄積されてきたにもかかわらず、それが活用されていないと考えられているからですが、本当にそうなのか考えてみる必要があります。確かにネット上や自社サーバには大量のデータが蓄積されていますが、データの種類が限られている(例えば住所、氏名、電話番号など)か、使える用途が限定されるものが殆どです。ネットや自社サーバへの書き込み(文字)データからは意外な深層心理が発見され、マーケティングや商品開発に有効な気付きが導き出せる可能性はあります。ただしこれも1年に1回か数カ月に1回やるから分かるものであり、毎日やるものではありません。そうなるとデータサイエンスを学んだ人は通常はどんな業務をやるのかという話になります。多分販売企画部や商品企画部などに属し、その業務の一部にデータサイエンス学部で学んだこと生かすことになると思われます。従って大学では、業務に応じたデータサイエンスの手法を学ぶ必要があるように思われます。例えば、データサイエンスが重要な役割を果たしている分野として、臨床試験における有効性判断があります。新薬は有効性のデータがないと承認されませんから、その解析結果は製薬会社でも注目され、解析担当者は重要な職種となっています。ここではデータ1件の解釈の違いで有効性の判断が変わることがありますので、データ解析者も創薬に関する知識が求められてきます。このようにデータサイエンスはコンピュータを使ったデータの分析手法ばかりでなく、それを使う業務の専門知識も求められてきます。従ってデータサイエンスを学ぶ場合、合わせて進みたい業務の専門知識も学ぶ必要があります。
私がデータサイエンスの将来性に疑問をもつのは、取得されるデータの信頼性に疑義があるからです。確かに大量のデータが取れてきていますが、信頼性がないデータが多いように思われます。新薬臨床試験のデータ分析の場合、1件1件の臨床試験データが臨床試験担当の医師や関係者によって検証されていますから、解析した結果は有効と言えます。しかしこのようなケースは稀であり、問題のあるデータが多数含まれているのが実体です。これでは有効な解析結果は期待できず、実際ビッグデータ解析から有効な結果が出たというケースは少ない(ない?)と思われます。だとすれば問題あるデータが含まれやすい文字データや数字データよりも、一意性があるイメージ(画像)データの解析技術の方が将来性が有るかもしれません。