データサイエンティスト (Data Scientist)
テクノロジー データサイエンス1. データサイエンティストは実際に何をするの? 🤔
一言で言うと
探偵 + 統計学者 + 通訳者を一人に詰め込んだ感じだよ。ただし、「事件」は殺人ミステリーじゃなくて、*「なんでうちのアプリの登録者が先月から減ってるんだ?」*みたいなビジネスミステリーで、手がかりは血のついたナイフじゃなくて、何百万行もあるぐちゃぐちゃの(エクセルよりずっと大きな)データだってことだね。📊
データサイエンティスト (Data Scientist)は、データを使ってこんなことをするよ:
- 問題の定義: 本当の仕事はここから始まる。「売上を上げて」という漠然とした依頼を → 「どの顧客層が、どの時点で、なぜ離脱するのか?」という解ける問いに翻訳すること
- データの収集・整形: あちこちに散らばったデータをかき集めて、空欄や誤字や外れ値をきれいにすること(これが実務の50〜80%だよ…華やかじゃないけどね)
- 探索・分析 (EDA): データをいろいろ回してみながら、パターンとおかしな点を見つけ出すこと
- モデリング: 予測モデルやレコメンドエンジン、離脱予測器みたいなものを作ること(機械学習が登場するところ)
- 因果推論: 「これが一緒に動いてるな」(相関)と「これがあれを引き起こしたな」(因果)を区別すること — これが本物の上級者の領域だよ
- コミュニケーション: 結果を役員にも分かるようにグラフ1枚と一文で説明すること(モデルがどんなに良くても、説得できなければ使われない)
「データサイエンティストの一日」をスナップショットで見せてあげる(正確なスケジュールじゃなくて雰囲気だけ):
- 午前: Slackに「この数字なんでこうなってるんですか?」という質問が溜まってる。データを呼び出してクエリ(SQL)を投げて、ノートブック(Jupyter)で仮説をひとつずつ確認する。
- 昼: プロダクトチームとミーティング。「うちが解いてるのは本当に正しい問題なのか?」を吟味する。半分はデータ、半分は人を扱う仕事だよ。
- 午後: モデルを回してみたら、なぜか精度が異常に高い。(喜ぶことじゃないよ — たいていデータリークみたいなバグだっていうサインだから。)デバッグ開始。
- 夕方: 発見したことを1枚のスライドにまとめる。「で、結局うちは何をすべきなのか」をはっきりと書く。コードよりこの一文のほうがずっと大事なことが多い。
一番かっこいいところ?絶え間なくモードを切り替えることだよ:コードを書くエンジニア、数字を見る統計学者、会議室で説得するコンサルタント、そして「この問い自体が間違ってるんですけど?」と言える批判的思考の持ち主 — これを全部1日でやるんだ。
この職業がかっこいい理由 ✨
正直に言うね。データサイエンティストはかつて「21世紀で最もセクシーな職業」(HBR、2012年 — DJ Patilが共同執筆)と呼ばれてた。バブルがはじけた今でも、かっこいい理由ははっきりしてる。
**本物の意思決定に手を触れる。**Netflixが何をおすすめするか、銀行が誰にローンを出すか、病院がどの患者を先に診るか — こういう決定の裏にデータサイエンティストがいる。君が作ったモデルの一行が、何百万人もの体験を変える。
**「なぜ?」をとことん掘り下げる仕事が職業になる。**好奇心旺盛な人にとって、これは天国だよ。「このパターン何だろう?」って掘ってみるのが仕事で、答えを見つけるとお金もくれるし褒めてもくれる。
やりがいのある瞬間も本当にある:
- 誰も知らなかったインサイトを発見して、会社が方向転換するとき(「あれ?うちが失敗したと思ってたあの機能が、実はコア顧客をつなぎとめてたんだ」)
- きれいなグラフ1枚で会議室全体を「あ…」とさせるとき
- 自分が作ったレコメンドシステムのおかげで、売上グラフが上向きに折れるとき
そのうえ、未来がますます面白くなってる。LLM・生成AI・因果推論ツール・MLOpsみたいなものが、前の世代のデータサイエンティストには無かった新しい扉を開いてる。(詳しくは2番で。)
冷静な現実(リアリティチェック)⚠️
データサイエンティストを少しでも考えているなら、インスタのハイライトじゃなくて真実を知る資格があるよ。
仕事の80%は華やかじゃない。映画で見る「かっこいいAIを作る」のは仕事のほんの一片だよ。現実はデータのお掃除だ — 空欄を埋めて、形式を統一して、誰かが間違って入力した値を見つけ出す。よく「データサイエンスの80%はデータの整形、残りの20%はデータの整形への愚痴」っていう冗談が回るくらいだよ。😅
**「曖昧な職業」という落とし穴。**会社ごとにデータサイエンティストがやることが千差万別だよ。あるところでは機械学習モデルを作り、あるところではただダッシュボードだけ作り(それは実はデータアナリストに近い)、あるところではデータパイプラインを組む(それはデータエンジニアだよ)。入社する前に「この会社でデータサイエンティストは正確に何をするんですか?」を必ず聞いておかなきゃダメだよ。
期待値と現実のギャップが大きい。経営陣はよくデータサイエンスを「魔法」と勘違いして、非現実的なことを期待する。「AIで来期の売上を正確に当てて」みたいなね。だからデータサイエンティストの平均在職期間が1.7年しかないっていう統計もある — 期待値のミスマッチが大きな原因だよ。
誤解を正すよ:データサイエンスは「天才が一人でAIを作る」仕事じゃない。ほとんどはぐちゃぐちゃの現実 + 人々の説得 + 粘り強いデバッグだ。それを楽しめてこそ長く続けられる。
2. この職業は将来も有望なの? 📈
就職市場のリアリティチェック
良いニュース:需要は依然として強い。米国労働統計局(BLS)基準でデータサイエンティストは最も速く成長する職種のひとつで、2024〜2034年に年間およそ23,400件の仕事が新たに開かれ、雇用成長率が約34%と推定されてる(全職業平均の数倍)。マッキンゼーは米国でデータサイエンティストの需要が供給を50%以上超過するだろうと見ている。
悪いニュース:だからといって参入が簡単なわけじゃない。「ジュニアの席は減り、シニア/特化人材の需要は増える」という二極化が進行中だよ。基本的な分析だけできる人はありふれてきたし、AIがその部分を自動化することで「ただの平凡なデータサイエンティスト」の価値が下がっている。差別化が必要だよ。
AIがこの職業を代替するの?
これがReputoの核心的な視点だよ。**AIはデータサイエンティストを代替しているんじゃなくて、再編しているんだ。**何が起きているのか正確に見てみよう。
AI/LLMが吸い上げる部分(価値が下がる仕事):
- コードの作成 — ChatGPT/Claudeがpandasのコード、SQL、可視化をあっという間に書いてくれる
- 基本的なEDA(探索的分析) — 「このデータ要約して」はもうLLMがやる
- 基本的なモデルチューニング — AutoMLとエージェントがモデル比較・ハイパーパラメータ探索を自動化する
実際に業界では、データサイエンティストの役割が**「自分でやる人(doer)」から「指揮する人(orchestrator)」へ**移ると言われてる。複雑な仕事をAIエージェントが実行できる小さなタスクに分解し、フィードバックループを設計し、AIが間違ったときに捕まえるガードレールを作るのが新しい核心スキルだよ。
ところがAIができない、だから価値が上がる部分:
- 問題の定義: 「このビジネス状況をどんな問いに変えるべきか?」 — モデルがどんなに良くても、間違った問いを解いたら0点だよ。AIはこれができない。
- 因果推論: これが本当の核心だよ。LLMは相関エンジンだから、因果推論の手法を説明することはできても、因果推論をすることはできない。因果推論はデータ生成過程を理解し、変数に介入(intervention)し、学習データには一度も登場しなかった反事実(counterfactual)を推論しなきゃならないからね。「価格を上げるべきか?」「この顧客に割引を与えるべきか?」のような*「何をすべきか」*という問いは、予測じゃなくて因果の領域で、AIが最も弱い部分だよ。
- MLシステム設計: モデルひとつを実際のサービスに安定して載せて(MLOps)、モニタリングして、壊れたときに備えるのは、依然として人の仕事だよ。
- LLM評価: 逆説的だけど、AIが作った成果物が正しいかどうか検証する仕事が新しい職業になりつつある。「このLLMの出力は信頼できるか?」を判断するのが、データサイエンティストの新しい武器だよ。
一言まとめ:**分析・モデリング・コーディングは自動化され、価値は問題定義・因果推論・MLシステム設計・LLM評価へ移る。**この上の方へ登った人は、AIを脅威じゃなくて超能力みたいに使う。AIに雑用をさせて、自分は「どの問いを解くか」と「これが本当に因果なのか」に集中するんだ。
💰 実際の給与
学生がいつも聞く質問:「で…データサイエンティストっていくら稼ぐの?」本物の数字で答えてあげる。
🇺🇸 アメリカ(USD、総報酬 = 年俸+株式+ボーナス基準、levels.fyi/Glassdoor 2026):
- 全体中央値: およそ $155,000 〜 $176,000(約2億1千万 〜 2億4千万ウォン)
- 新卒(エントリー): およそ $152,000 〜 $190,000(Google L3新卒が〜$190K)— 2025年より約$40K上昇
- ビッグテック中央値: Google $335K、Meta $288K、Amazon $250K、Microsoft $248K(約3億4千万 〜 4億6千万ウォン)
- シニア: Google基準で最近のオファーがたいてい**$310,000 〜 $410,000**の間
🇰🇷 韓国(KRW、2026基準):
- 新卒: およそ3,300万ウォンから始まる
- 5年目: およそ5,590万ウォン
- 10年目: およそ8,370万ウォン
- 全体平均: およそ5,745万ウォン
- 大企業と中小企業の年俸差が約1,285万ウォン — 会社規模・産業(ドメイン)が年俸を大きく左右する
リアリティチェック:アメリカの数字に目を奪われないで。アメリカは生活費・税金・就労ビザの壁が違うし、韓国のビッグテック(NAVER・カカオ・クーパン・トスなど)や外資系は韓国平均よりずっと高い。そして核心 — **「ビジネス問題を自分で定義してモデルで解いた経験」がある人の年俸が、単純な分析だけ繰り返した人よりはっきり高い。**さっき言ったあの「価値が上がる領域」が、そのまま年俸なんだよ。
自分に向いてるかな?(自己評価)
ゲームのキャラクタービルドみたいに考えてみて。データサイエンスは特定のステータスを報酬にする。
こんな人にぴったり合うよ:
- 好奇心が強い人 — 「なんでこうなんだろう?」が口癖の人
- 曖昧さに耐えられる人 — 正解が決まっていないぐちゃぐちゃの問題を楽しめる人
- 論理的でありながらコミュニケーションもできる人 — 数字も見て、その数字を人に説明もできる人
- 几帳面な人 — データの小さなミスひとつが結論全体をひっくり返すことがあるからね
- 懐疑的な人 — 「この結果良すぎない?どこかにバグがあるんじゃない?」と疑える人
必須の適性(選択肢じゃない):
- 数学・統計の基礎 — 確率、統計、ちょっとの線形代数(ブラックボックスとして使うと結局つまずく)
- コーディング — 最低でもPython、そしてSQLはほぼ必須
- ビジネス感覚 — 技術がなぜ必要なのかを理解する力
正直に言うと、こんな人は厳しいかも:
- 答えがきっちり出ないと気が済まない場合(データサイエンスは「たぶん」「これくらいの確率で」の世界だよ)
- 人を説得することを極度に嫌う場合(分析だけ上手くてコミュニケーションができないと認められない)
- データのお掃除みたいな反復作業にすぐ飽きる場合
**ワークライフバランス:**職種自体は医師・投資銀行よりマシだけど、締め切りと非現実的な期待のせいでストレスが強くなりうる。(3番で正直にぶっちゃけるね。)
3. 必ず知っておくべき冷静な真実:デメリット ⚠️
ストレスと期待値のミスマッチ
この職業で一番きついのは、実はデータじゃなくて人々の期待なんだ。
- 経営陣がデータサイエンスを「魔法」と勘違いして非現実的なことを要求する(「AIで来期の売上を正確に当てて」)
- プロジェクトはたいてい時間に追われ、要件がコロコロ変わり、ステークホルダーのフィードバックが絶え間なく入ってくる
- 何週間も注ぎ込んだ分析が「うーん、で、だから何?」という反応をもらうとき — 本当にメンタルに来る
データ職種のバーンアウトは実在する。ある調査(Data Kitchen)では、データエンジニアの97%がバーンアウトを経験すると出ていて、データサイエンティストも非現実的な期待・過労・評価不足で似たような圧力を受ける。
認められにくい「見えない仕事」
データサイエンスはしばしば過小評価される。君が何日も徹夜してきれいな分析を出しても、人々の目には「グラフ1枚」としか見えない。その裏のデータのお掃除・デバッグ・検証の苦労は見えないからね。「データサイエンスって正確に何をするものなの?」という誤解と一生戦うことになる。
高い離職率(1.7年ミステリー)
データサイエンティストの平均在職期間が1.7年だという統計がある。なぜこんなに短いんだろう?
- 組織がデータサイエンティストの役割を誤解して(アナリスト・エンジニアの仕事を全部押し付ける)
- 非現実的な期待 + 非協力的なデータインフラ
- 「自分が作ったモデルが結局サービスに載らない」という挫折(PoCだけで終わるプロジェクトが多い)
これは君個人の失敗じゃなくて、業界構造の問題である場合が多い。だから「データ文化が成熟した会社」を選ぶことが、年俸と同じくらい大事だよ。
経済的・キャリア的な現実
- 年俸は良いほうだけど、**「データサイエンティスト」というタイトルが職務を保証してくれない。**あるところでは高度なアナリスト、あるところではエンジニアとしてこき使われる。
- 技術が速く変わる。5年前にホットだったスキルが今はLLMに自動化された。生涯学習がオプションじゃなくて生存条件だよ。
- AIが基本業務を侵食することで、「基本だけやるデータサイエンティスト」の席は減っている。上に登っていかないと危ない。
辞めた人たちの話
データサイエンスを去った人たちのよくある後悔/理由:
- 「自分の分析が実際の決定に反映されるのをほとんど見られなかった — PoCばかり作って疲れた」
- 「データのお掃除が仕事のすべてだなんて知らなかった。かっこいいAIを作るんだと思ってた」
- 「経営陣を説得する政治が、分析よりつらかった」
**結論:**好奇心があふれていて、曖昧さを楽しめて、人も説得できて、AI時代に上の方(問題定義・因果・システム)へずっと登っていく覚悟があるなら — データサイエンスは依然として最高の道だよ。でも「AI天才が一人でかっこいいモデルを作る」という絵だけを見て来るなら、現実のデータのお掃除と社内政治にやけどをするかもしれない。
4. この分野の伝説たち 🏆
データサイエンスの伝説たちの中には、「オールA天才」ばかりがいるわけじゃない。数学を嫌っていた人、名門大の学位なしで独学した人、英語ひとことも話せなかった移民、博士課程で落ちた人 — この人たちが一つの分野を丸ごと作り上げたんだ。
DJ Patil — 「データサイエンティスト」という言葉を作った人
DJ Patilがかつて数学を嫌っていて、GoogleとYahooに落ちたって知ってた?
インド移民の両親のもとで育った彼は、学生時代に数学を嫌っていたけど、後にメリーランド大で応用数学の博士を取ってデータの世界にのめり込んだ。面白い事実 — 最初はeBayに就職したんだけど、それは母親がそこに知り合いがいたからだったんだって。華やかなスタートじゃなかったんだね。
本当のターニングポイントはLinkedInだった。2008年そこでデータプロダクト責任者として働きながら、同僚のJeff Hammerbacher(当時Facebook)と一緒に、自分たちがやっているこの新しい仕事を呼ぶ言葉が無いことに気づき、「データサイエンティスト(Data Scientist)」という肩書きを作り出した。2012年にはハーバード・ビジネス・レビューに「21世紀で最もセクシーな職業」という記事を共同執筆し、2015年にはオバマ大統領に直接抜擢されて米国初にして(今まで)唯一のホワイトハウス主席データサイエンティストになった。学生たちに彼がいつもする助言はシンプルだよ:「本物のプロジェクトでポートフォリオを作れ — コードじゃなくてインパクトを見せろ。」
Hilary Mason — ブログで自分を証明した実用主義のデータサイエンティスト
Hilary Masonが博士課程で断られたけど、その失敗をブログで公開することでむしろ有名になったって知ってた?
彼女はグリネル大学でコンピュータサイエンスを専攻し、学術界の機械学習でキャリアを始めた。ところがすぐ気づいたんだって — 自分は論文よりも人々が実際に使えるものを作ることにもっと惹かれるってことを。だから学術界の代わりにスタートアップの世界へ方向を変えた。
彼女の踏み台は、URL短縮サービスbitlyの主席科学者の座だった。そこで4年間「インターネットで人々の関心がリアルタイムにどう動くか」を研究するチームを率いた。2014年には同僚と一緒にFast Forward Labsを創業して、最新の機械学習研究を企業が実際に使えるように翻訳する仕事をして、この会社は2017年にClouderaに買収された。彼女の哲学は一文に圧縮されてる:**「ぐちゃぐちゃのプロトタイプを毎日リリースしろ — 完璧主義がイノベーションを殺す。」**学術界の博士号が無くても、「作って共有する」習慣でデータサイエンスのアイコンになったケースだよ。
Fei-Fei Li — 英語も話せなかった移民から「AIのゴッドマザー」へ
Fei-Fei Liが15歳で英語ひとことも話せずにアメリカに来て、週末は家族のクリーニング店で働きながら勉強したって知ってた?
中国の成都で生まれた彼女は、15歳で両親についてニュージャージーに移民してきた。1部屋だけのアパートから始まって、父はカメラを直し、母はレジ係として働いた。彼女は学校に通いながら、週末は家族が開いたクリーニング店で働いた。ところが数学で満点を取り、プリンストン大学物理学科に全額奨学金で入学する。
彼女の最大の業績は**ImageNet(2006〜)**だよ。当時AI研究者たちは「もっと賢いアルゴリズム」だけにこだわっていたけど、Fei-Feiは正反対に考えた — **「コンピュータが世界を見るには、まず途方もなく多くのラベル付きデータが必要だ。」**そこで何百万枚もの画像を人が一枚一枚分類した巨大なデータセットを作った。最初は「それが何の研究だ」とあざ笑われもしたけど、このデータセットが2012年のディープラーニング革命の火種になり、今日の顔認識・自動運転の土台になった。データサイエンスの核心的な教訓を彼女が証明したんだ — **モデルと同じくらいデータが大事だ。**今はスタンフォード人間中心AI研究所(HAI)を率いて「AIのゴッドマザー」と呼ばれている。
Cassie Kozyrkov — 「意思決定」を科学にした人
Cassie Kozyrkovが南アフリカ出身の移民で、初期のコンサルティングの仕事でコミュニケーションができずに失敗したけど、それを直してGoogle初の役職を作ったって知ってた?
南アフリカからアメリカへ渡った彼女は、文化の壁を突き抜けて数学と物理学を学んだ。データサイエンティストとして働きながら彼女が見た最大の問題は技術じゃなかった — **「人々がデータを使って悪い決定を下す」**ということだった。かっこいいモデルを作っても、いざそのモデルでどんな決定をどう下すか、誰もちゃんと吟味していなかったんだ。
そこで彼女はまったく新しい分野を作った — 「意思決定インテリジェンス(Decision Intelligence)」。統計・機械学習・心理学・経営をひとまとめにして「データでどうやってより良い決定を下すか」を扱う学問だよ。Googleは2017年に彼女を会社初の「主席意思決定サイエンティスト(Chief Decision Scientist)」に任命し、彼女はGoogle社内で2万人を教育して500を超えるプロジェクトに影響を与えた。彼女のメッセージはデータサイエンスの未来そのものだよ:「完璧な答えを探すより、より良い問いを投げかけろ。」 — AIが答えを自動的に吐き出す時代に、価値は「問いを立てる人」にあるということを先取りして見せたんだ。
Andrew Ng — AI教育をみんなに開いた人
Andrew Ngが作ったオンライン講義ひとつを10万人が受講して、世界最大のオンライン教育プラットフォームが誕生したって知ってた?
香港生まれで幼少期に複数の国を移り住みながら育った彼は、スタンフォード教授になり、Google Brainチームの創設リーダー、Baidu(百度)の主席科学者を務めた。機械学習・ロボット工学分野の論文を100本以上書いた。でも彼を本物の伝説にしたのは研究じゃなくて教育だよ。
2011年に彼はスタンフォードの機械学習講義をオンラインに無料で公開したんだけど、10万人以上が受講するという事件が起きた。これが最初のMOOC(大規模公開オンライン講座)のひとつになり、彼は翌年Daphne Kollerと一緒にCourseraを共同創業した。2017年にはDeepLearning.AIを立ち上げてAI教育をもっと身近にした。今日、データサイエンス・機械学習を独学するほぼすべての人が、何らかの形で彼の講義を通り抜けていく。「AIは新しい電気だ(AI is the new electricity)」という彼の言葉のように、彼はAIを少数の専門家のものからみんなのものに変えた人だよ。
5. どうやって準備しよう? 🎯
まだ学生なら(高校生/大学生)
「天才」である必要はない。継続と本物のプロジェクトが必要だよ。
勉強する科目(基礎をしっかりと):
- 数学・統計 — 確率、統計、線形代数(データサイエンスの本当の骨組みだよ。ここが弱いと結局つまずく)
- プログラミング — Pythonを先に、その次にSQL(データを扱う二大言語)
- コンピュータサイエンスの基礎 — データ構造、アルゴリズム程度で十分
- 統計の授業があるなら絶対に取ること。AIがコードは書いてくれても、「この統計が筋が通っているか」の判断は君の仕事だよ。
身につけるスキル(実際に差を生むもの):
- 「問いを立てる力」 — データを見て「なぜ?」と「で、何をすべき?」を投げかける習慣
- ストーリーテリング — 分析結果を人に説明する練習(発表、ブログ、何でも)
- 懐疑的思考 — 「この結果は本物かな?相関なのか因果なのか?」を疑うこと
- AIを道具として使う方法 — ChatGPT/Claudeにコードをやらせて、その結果を検証する能力
今週始められるプロジェクト(本当に):
- Kaggle(kaggle.com)で入門用データセット(タイタニックの生存予測など)をひとつ選んで最後まで分析してみる
- 自分が興味ある主題の公開データ(スポーツ記録、YouTube統計、自分の街のPM2.5など)で小さな分析 + グラフを作る
- その分析をブログやGitHubにまとめる — Hilary Masonみたいに「作って公開する」習慣がポートフォリオになる
- Kaggleのノートブックを真似て打ちながら「なぜこのコードを使うのか」を一行ずつコメントを付ける(教えるように学ぶのがチートキー)
目標は「スペックを積むこと」じゃない。「私はぐちゃぐちゃのデータを受け取って、意味のある結論まで引っ張っていける」ということを証明する小さな作品を作ることだよ。DJ Patilが言うように、コードじゃなくてインパクトを見せて。
他の分野から転換するなら
データサイエンスは転換が最も活発な分野のひとつだよ。統計学・経済学・物理学・心理学・マーケティングなど、「数字を扱ったことがある」ほぼすべての背景が資産になる。(実際にドメイン知識がある人が強い — 医療データは医療を知る人が、金融データは金融を知る人がうまく解く。)
うまく移転できるもの:
- ドメイン専門性 — 君がすでに知っている産業の「本当の問題」を定義する能力(AIが絶対にできない部分!)
- 分析的思考と統計 — 研究・リサーチ経験があるなら、すでに半分は来てるよ
- コミュニケーション — 結果を説得する能力は、どの分野から来ても通じる
現実的な期待:Python・SQL・機械学習の基礎は新しく学ばなきゃならない。でも「ゼロから始める」じゃなくて「既存の強み + データスキル」の組み合わせだから、むしろ純粋な新卒より競争力があるかもしれない。Andrew Ngのオンライン講義で6〜12か月集中すれば、ポートフォリオを作れるよ。
必須スキル
実用的なスキルスタックを優先順位で整理するね:
- 最優先:統計・確率
- なぜ:AI時代に唯一もっと重要になったスキル。「このモデルの結果を信じていいか」を判断する根拠だよ
- リソース:セクション6のIntroduction to Statistical Learning(無料)、StatQuest YouTube
- 最優先:Python + SQL
- なぜ:データを触る基本ツール。LLMがコードを手伝ってくれても、読んで直せるようにはならなきゃ
- リソース:セクション6のPython for Data Analysis、Kaggle無料コース
- 最優先:問題定義 & 因果的思考
- なぜ:AIが自動化できない領域。ここが君の年俸が決まるところだよ
- リソース:Cassie Kozyrkovの意思決定インテリジェンスの記事、因果推論入門書
- 重要:機械学習
- なぜ:依然として核心ツール。ただし「原理を理解して使う」vs「コピペする」が分かれる地点
- リソース:Andrew Ngの機械学習講義、Hands-On Machine Learning
- 重要:コミュニケーション & 可視化
- なぜ:説得できない分析は使われない。グラフ1枚、一文の力
- リソース:ブログ運営、データ可視化の練習
6. 学習リソース 📚
必読書
これらの本が有名なのには理由がある。データサイエンティストが実際にどう考えるかを教えてくれるんだ。 そして無料ボーナスをもう一冊:
- An Introduction to Statistical Learning(無料PDF):https://www.statlearning.com/ — データサイエンス入門者に最もよく勧められる統計学習の教科書。数式が怖くないように説明されてる。Rバージョンとpythonバージョンの両方があるよ。
おすすめオンライン講義
理論だけ見ないで、講義を聞きながら自分でコードを打ってみて。それが本当の勉強だよ。 追加で強くおすすめ:
- Andrew NgのMachine Learning Specialization(Coursera/DeepLearning.AI):https://www.deeplearning.ai/courses/machine-learning-specialization/ — 上の伝説本人が作った、機械学習入門の王道
- fast.ai — Practical Deep Learning for Coders(無料):https://course.fast.ai/ — 「数学が先」じゃなくて「コードが先、理論は後」方式。早く作ってみたい人に最高
無料資料(お金を使わずに学ぶ)
財布が軽い学生でも、世界最高水準の資料をタダで使える時代だよ:
- 練習プラットフォーム
- Kaggle:https://www.kaggle.com/ — 実際のデータセット + コンペ + 無料ミニ講義(Python、Pandas、ML、SQL)。データサイエンス入門の遊び場だよ
- Google Colab:https://colab.research.google.com/ — インストール無しでブラウザですぐPython・機械学習を回せる無料ノートブック
- YouTube(理論の直観をつかむ)
- StatQuest with Josh Starmer:https://www.youtube.com/@statquest — 統計・機械学習を本当に理解させてくれるチャンネル。「BAM!」一回で概念が刻まれる
- 3Blue1Brown(線形代数/微積分の直観):https://www.youtube.com/@3blue1brown
- 読み物
- Towards Data Science:https://towardsdatascience.com/ — 現役データサイエンティストたちの実戦記事(因果推論、AI時代のキャリアなど)
- Cassie Kozyrkovの記事(Medium):https://kozyr.com/ — 意思決定インテリジェンスを分かりやすく解いた記事たち
コミュニティ
データサイエンスは一人でやるものじゃない。詰まったときに聞いて、他人の分析を盗み見しながら学ぶんだ:
- Kaggleディスカッション・ノートブック:https://www.kaggle.com/discussions — 他の人が同じデータをどう解くかが公開されてる。最高の教材だよ
- r/datascience(Reddit):https://www.reddit.com/r/datascience/ — 現実的な就職アドバイス、正直な業界の話
- Kaggleコンペにチームで参加する — 実戦経験 + ネットワーク + ポートフォリオを一度に
最後にひとこと。この分野は完璧に準備してから始めるものじゃない。Hilary Masonが言うように、**「ぐちゃぐちゃのプロトタイプを毎日作れ。」**Kaggleのデータセットをひとつ選んで、今日最初の一行を打ってみて。それがデータサイエンティストの本当のスタートだよ。ファイト! 💪
タグ
参考資料
- https://www.levels.fyi/t/data-scientist
- https://brunch.co.kr/@sparta/119
- https://towardsdatascience.com/causal-inference-is-eating-machine-learning/
- https://towardsdatascience.com/the-ai-bubble-has-a-data-science-escape-hatch/
- https://365datascience.com/career-advice/data-scientist-job-market/
- https://en.wikipedia.org/wiki/DJ_Patil
- https://en.wikipedia.org/wiki/Hilary_Mason_(entrepreneur)
- https://hai.stanford.edu/news/fei-fei-li-candid-look-young-immigrants-rise-ai-trailblazer