数据科学家 (Data Scientist)

1. 数据科学家实际上是做什么的？ 🤔

一句话来说

就像把侦探 + 统计学家 + 翻译官硬塞进一个人身上的感觉。只不过这里的"案子"不是凶杀悬案，而是 “为什么我们 App 的注册用户从上个月开始变少了？” 这种商业谜题；线索也不是带血的刀，而是几百万行乱糟糟的（比 Excel 大得多的）数据。📊

数据科学家 (Data Scientist) 拿着数据干的就是这些活儿：

定义问题： 真正的活儿从这里开始。把"帮我提升营收"这种含糊的请求，翻译成"哪一类客户、在什么时间点、为什么会流失？“这样能被解答的问题
数据收集与清洗： 把散落各处的数据搜罗回来，清理掉空白、错别字和异常值（这才是真正工作量的 50~80%……一点都不华丽）
探索与分析（EDA）： 把数据翻来覆去地看，找出其中的规律和奇怪之处
建模： 做出预测模型、推荐引擎、流失预测器之类的东西（机器学习登场的部分）
因果推断： 区分"这俩是一起动的”（相关）和"是这个引发了那个"（因果），这才是真正高手的领域
沟通： 把结果用一张图加一句话，讲到连高管都能听懂（模型再好，说服不了人就用不上）

我给你一个"数据科学家的一天"的快照（不是精确的日程表，只是感受一下氛围）：

上午： Slack 里堆满了"这个数字怎么回事？“的提问。把数据调出来，写查询（SQL），在 Notebook（Jupyter）里一个个验证假设。
中午： 跟产品团队开会。一起琢磨"我们要解的，真的是对的问题吗？"。一半是处理数据，一半是处理人。
下午： 跑模型，结果准确率高得离奇。（这可不是该高兴的事，通常是数据泄漏之类 bug 的信号。）开始 debug。
傍晚： 把发现整理成一页幻灯片。把"那我们到底该怎么做"写得清清楚楚。很多时候这一句话比代码重要得多。

最酷的一点？就是不停地切换模式：写代码的工程师、看数字的统计学家、在会议室里说服别人的顾问，还有那个敢说"这个问题本身就提错了吧？“的批判性思考者，这些都要在一天里干完。

这个职业酷在哪里 ✨

说句实话。数据科学曾经被称为"21 世纪最性感的职业”（HBR，2012，由 DJ Patil 合著）。即便现在泡沫退去，它酷的理由依然很明确。

你能直接触碰真正的决策。 Netflix 推荐什么、银行把贷款放给谁、医院先看哪位病人，这些决策的背后都有数据科学家。你写的一行模型，能改变几百万人的体验。

把"为什么？“刨根问底，变成了一份工作。 对好奇心旺盛的人来说，这就是天堂。“这个规律是怎么回事？“刨下去就是工作，找到答案还给你发钱、给你点赞。

真正让人有成就感的瞬间也是实打实的：

发现一个谁都没察觉的洞见，让公司因此调转方向（“咦？那个我们以为快废掉的功能，其实正死死拴住核心客户呢”）
用一张干净的图，让整间会议室的人都"啊……“地恍然大悟
因为你做的推荐系统，营收曲线往上翘了

而且未来越来越有意思。LLM、生成式 AI、因果推断工具、MLOps 这些东西，正在为上一代数据科学家打开他们从未有过的新大门。（详情在第 2 部分。）

冷静的现实（现实检验） ⚠️

如果你哪怕只有一点点在考虑做数据科学家，那你就有资格了解真相，而不是只看 Instagram 上的高光时刻。

工作的 80% 一点都不华丽。 电影里看到的"做酷炫 AI"只是工作的一小块。现实是数据清洗，填空白、统一格式、揪出谁填错的值。圈内甚至流传一个笑话：“数据科学的 80% 是数据清洗，剩下 20% 是抱怨数据清洗。"😅

“模糊职业"这个陷阱。 每家公司里数据科学家干的活儿差别巨大。有的地方做机器学习模型，有的地方只做仪表盘（那其实更接近数据分析师），有的地方搭数据管道（那是数据工程师）。入职前一定要问清楚：“在这家公司，数据科学家具体做什么？”

期望和现实之间的落差很大。 管理层常常把数据科学误解成"魔法”，期待不切实际的东西。比如"用 AI 帮我精确算出下个季度的营收”。所以才有统计显示数据科学家的平均在职时间只有 1.7 年，期望错配是一大原因。

纠正一个误解：数据科学不是"天才一个人造 AI"的活儿。大部分是乱糟糟的现实 + 说服别人 + 死磕 debug。得能享受这些，才能干得长久。

2. 这个职业在未来还有前途吗？ 📈

就业市场现实检验

好消息：需求依然强劲。按美国劳工统计局（BLS）的口径，数据科学家是增长最快的职业之一，2024~2034 年每年新增约 23,400 个岗位，就业增长率估计约 34%（是所有职业平均的好几倍）。麦肯锡认为美国对数据科学家的需求会超过供给 50% 以上。

坏消息：这并不意味着入门容易。一种"初级岗位变少、资深/专精人才需求变大"的两极分化正在发生。只会做基础分析的人已经满大街都是了，而随着 AI 把那部分自动化掉，“普普通通的数据科学家"的价值正在下跌。你需要做出差异化。

AI 会取代这个职业吗？

这是 Reputo 的核心观点。AI 不是在取代数据科学家，而是在重塑它。 我们来精确地看看到底发生了什么。

被 AI/LLM 吸走的部分（价值在下跌的活儿）：

写代码，ChatGPT/Claude 能瞬间帮你写出 pandas 代码、SQL、可视化
基础 EDA（探索性分析），“帮我总结一下这份数据"现在 LLM 就能做
基础模型调参，AutoML 和智能体把模型对比、超参数搜索自动化了

实际上业界都说，数据科学家的角色正从**“亲手做的人（doer）“转向"指挥编排的人（orchestrator）”**。把复杂的工作拆成 AI 智能体能执行的小任务，设计反馈回路，再做出能在 AI 出错时把它揪住的护栏，这才是新的核心能力。

而 AI 做不到、所以价值在上涨的部分：

定义问题： “该把这个商业局面转化成什么样的问题？"，模型再好，解的是错问题就是 0 分。这个 AI 做不到。
因果推断： 这才是真正的核心。LLM 是相关性引擎，所以它能解释因果推断的方法，但做不了因果推断本身。因果推断需要理解数据的生成过程、对变量做干预（intervention），并推断训练数据里一次都没出现过的反事实（counterfactual）。“该不该涨价？““要不要给这位客户打折？“这类*“该怎么做”*的问题不是预测，而是因果的领域，恰恰是 AI 最弱的地方。
ML 系统设计： 把一个模型稳定地上线到真实服务里（MLOps）、做监控、为它崩溃时做好预案，这些依然是人的活儿。
LLM 评估： 听起来很矛盾，但验证 AI 产出的结果对不对，正在成为一门新职业。判断"这个 LLM 的输出值不值得信”，是数据科学家的新武器。

一句话总结：分析、建模、编程被自动化了，价值则转移到了定义问题、因果推断、ML 系统设计、LLM 评估上。 往上爬上去的人，把 AI 当成的不是威胁而是超能力。把杂活丢给 AI，自己专注在"该解哪个问题"和"这到底是不是因果"上。

💰 实际薪资

学生总会问的问题：“那……数据科学家到底赚多少？“我用真实数字回答你。

🇺🇸 美国（USD，总薪酬 = 年薪+股票+奖金，levels.fyi/Glassdoor 2026）：

整体中位数： 约 $155,000 ~ $176,000（约 110 万 ~ 124 万人民币）
应届（入门）： 约 $152,000 ~ $190,000（Google L3 新人约 $190K），比 2025 年涨了约 $40K
大厂中位数： Google $335K、Meta $288K、Amazon $250K、Microsoft $248K（约 175 万 ~ 236 万人民币）
资深： 以 Google 为例，近期 offer 通常在 $310,000 ~ $410,000 之间

🇰🇷 韩国（KRW，2026 口径）：

应届： 从约 3,300 万韩元起步
5 年经验： 约 5,590 万韩元
10 年经验： 约 8,370 万韩元
整体平均： 约 5,745 万韩元
大企业和中小企业的年薪差约 1,285 万韩元，公司规模、行业（领域）很大程度上决定了薪资

现实检验：别被美国的数字晃花了眼。美国的生活成本、税、工作签证门槛都不一样；而韩国的大厂（Naver、Kakao、Coupang、Toss 等）或外企，会比韩国平均高出一大截。还有最关键的一点，有过"亲手定义商业问题并用模型把它解出来"经历的人，薪资明显高于只是反复做简单分析的人。 上面说的那些"价值上涨的领域”，本身就是薪资。

我适合吗？（自我评估）

就像游戏里捏角色的 build 一样想一想。数据科学奖励特定的属性点。

这种人特别合适：

好奇心旺盛的人，“为什么会这样？“是口头禅的人
能忍受模糊的人，享受那种没有标准答案、乱糟糟问题的人
既有逻辑又能沟通的人，既能看数字、又能把数字讲给人听的人
细致的人，数据里一个小错误就可能把整个结论推翻
会怀疑的人，能想到"这结果好得过头了吧？是不是哪里有 bug？“的人

必备资质（不是选修）：

数学与统计基础，概率、统计、再加一点点线性代数（当黑箱用，迟早会卡住）
编程，至少要会 Python，SQL 也几乎是必须的
商业嗅觉，理解技术为什么被需要的能力

说实话，这种人可能会比较辛苦：

答案非得明明白白才安心的人（数据科学是"大概吧"“差不多这个概率"的世界）
极度讨厌说服别人的人（只会分析、不会沟通，就得不到认可）
很快就会被数据清洗这种重复劳动磨到厌烦的人

工作与生活平衡： 这个职业本身比医生、投行要好，但因为 deadline 和不切实际的期望，压力可能很大。（第 3 部分我会坦白摊开。）

3. 必须知道的冷酷真相：缺点 ⚠️

压力与期望错配

这个职业最难的，其实不是数据，而是人们的期望。

管理层把数据科学误解成"魔法”，提出不切实际的要求（“用 AI 帮我精确算出下季度营收”）
项目通常被时间追着跑，需求不断变，相关方的反馈源源不断地涌进来
投入好几周熬出来的分析，换来一句"嗯，那又怎样？“的反应时，是真的会伤到心态

数据职业的倦怠（burnout）是真实存在的。有一项调查（Data Kitchen）显示，数据工程师中有 97% 经历过倦怠；数据科学家也因为不切实际的期望、过劳、认可不足而承受着类似的压力。

难以被认可的"看不见的工作”

数据科学经常被低估。你熬了好几个通宵拿出一份干净的分析，在别人眼里却只是"一张图”。背后数据清洗、debug、验证的辛苦，他们看不见。你这辈子都得和"数据科学到底是干嘛的？“这种误解作斗争。

高离职率（1.7 年之谜）

有个统计说，数据科学家的平均在职时间是 1.7 年。为什么这么短？

组织误解了数据科学家的角色（把分析师、工程师的活儿全都甩给他）
不切实际的期望 + 不配合的数据基础设施
“我做的模型最后压根没上线"的挫败感（很多项目做完 PoC 就草草收场）

这往往不是你个人的失败，而是行业结构的问题。所以挑一家"数据文化成熟的公司”，和薪资一样重要。

经济与职业现实

薪资算是不错，但**“数据科学家"这个头衔并不保证你的职责。** 有的地方把你当高级分析师，有的地方当工程师使唤。
技术变化飞快。5 年前火热的技能，如今已经被 LLM 自动化了。终身学习不是选项，而是生存条件。
随着 AI 蚕食基础工作，“只会做基础的数据科学家"的位置正在变少。不往上爬就很危险。

离开的人的故事

离开数据科学的人常见的后悔/原因：

“我几乎没看到自己的分析真正被用进决策里，一直在做 PoC，最后做累了”
“没想到数据清洗就是工作的全部。我以为能做酷炫的 AI 呢”
“说服管理层那点政治，比分析本身还累”

结论： 如果你好奇心爆棚、享受模糊、也能说服别人，而且做好了在 AI 时代持续往上（定义问题、因果、系统）爬的觉悟，那数据科学依然是一条超棒的路。但如果你只是冲着"AI 天才一个人做酷炫模型"那幅画面来的，那现实里的数据清洗和办公室政治可能会把你烫伤。

4. 这个领域的传奇人物 🏆

数据科学的传奇里，并不只有"门门 A 的天才”。讨厌数学的人、没有名校学位靠自学的人、一句英语都不会说的移民、读博被刷下来的人，是这些人，活生生造出了一整个领域。

DJ Patil：造出"数据科学家"这个词的人

你知道 DJ Patil 曾经讨厌数学，还被 Google 和 Yahoo 拒绝过吗？

他在印度移民父母的家庭里长大，学生时代讨厌数学，但后来在马里兰大学拿到了应用数学博士，从此一头扎进数据的世界。有个有趣的事实，他最早进的是 eBay，而那是因为他妈妈在那儿认识人。起点一点都不华丽。

真正的转折点是 LinkedIn。2008 年他在那里担任数据产品负责人时，和同事 Jeff Hammerbacher（当时在 Facebook）一起意识到，他们正在做的这件新事情根本没有词可以称呼，于是造出了"数据科学家（Data Scientist）“这个职位名。 2012 年他在《哈佛商业评论》合著了那篇"21 世纪最性感的职业”，2015 年又被奥巴马总统亲自挑中，成为美国首位、（迄今）唯一一位白宫首席数据科学家。他对学生一贯的建议很简单：“用真实的项目去做作品集，别展示代码，展示影响力。”

Hilary Mason：靠博客证明自己的实用主义数据科学家

你知道 Hilary Mason 读博被拒，却因为把那次失败公开在博客上，反而出了名吗？

她在格林内尔学院（Grinnell College）主修计算机科学，从学术界的机器学习开始自己的职业生涯。但她很快意识到，比起写论文，自己更被做出人们真的能用的东西所吸引。于是她离开学术界，转向了创业的世界。

她的跳板是短链接服务 bitly 的首席科学家这个职位。她在那里带了 4 年的团队，研究"互联网上人们的注意力如何实时流动”。2014 年她和同事一起创办了 Fast Forward Labs，专门把最新的机器学习研究翻译成企业真正能用的东西，这家公司在 2017 年被 Cloudera 收购。她的理念可以浓缩成一句话：“每天发布乱糟糟的原型，完美主义会扼杀创新。” 这是一个即便没有学术博士学位，也靠"做出来并分享"的习惯成为数据科学偶像的例子。

Fei-Fei Li：从一句英语都不会的移民，到"AI 教母”

你知道 Fei-Fei Li 15 岁时一句英语都不会就来到美国，周末还在家里的洗衣店打工边学习吗？

她出生于中国成都，15 岁随父母移民到新泽西。一家从一间单房公寓起步，父亲修相机、母亲做收银员。她一边上学，一边周末在家里开的洗衣店里干活。然而她数学考了满分，以全额奖学金考进普林斯顿大学物理系。

她最大的成就是 ImageNet（2006~）。当时的 AI 研究者都只盯着"更聪明的算法”，而 Fei-Fei 想的恰恰相反，“要让计算机看见世界，首先需要海量的带标注的数据。” 于是她做了一个由人一张张分类的、包含数百万张图片的庞大数据集。一开始她还被嘲笑"那算什么研究”，但这个数据集成了 2012 年深度学习革命的火种，也成了如今人脸识别、自动驾驶的基石。她用这件事证明了数据科学的核心教训，数据和模型一样重要。 如今她领导着斯坦福以人为本 AI 研究院（HAI），被称为"AI 教母”。

Cassie Kozyrkov：把"决策"变成科学的人

你知道 Cassie Kozyrkov 作为来自南非的移民，在早期的咨询工作中因为不会沟通而搞砸过，后来把这一点修正过来，并造出了 Google 史上第一个职位吗？

她从南非来到美国，冲破文化壁垒学习了数学和物理。作为数据科学家工作时，她看到的最大问题并不是技术，而是**“人们拿着数据做出糟糕的决策”**。哪怕做出了漂亮的模型，可到底要用这个模型做什么决策、怎么决策，却没人认真去琢磨。

于是她干脆开创了一个全新的领域，“决策智能（Decision Intelligence）"。 这是一门把统计、机器学习、心理学、管理学糅合在一起，研究"如何用数据做出更好的决策“的学问。Google 在 2017 年任命她为公司首位"首席决策科学家（Chief Decision Scientist）”，她在 Google 内部培训了2 万人，影响了 500 多个项目。她的讯息本身就是数据科学的未来：“与其去找完美的答案，不如提出更好的问题。”，在一个 AI 会自动吐出答案的时代，她提前向我们展示了，价值在于"提问的人”。

Andrew Ng：把 AI 教育向所有人敞开的人

你知道 Andrew Ng 做的一门在线课程被10 万人听了之后，诞生了全球最大的在线教育平台吗？

他生于香港，小时候辗转多个国家长大，后来成了斯坦福教授，并担任过 Google 大脑（Google Brain）团队的创始负责人、百度（Baidu）首席科学家。他在机器学习、机器人学领域写了 100 多篇论文。但真正让他成为传奇的，不是研究，而是教育。

2011 年他把斯坦福的机器学习课程免费放到了网上，结果出现了超过 10 万人选修的盛况。这成了最早的 MOOC（大规模在线公开课）之一，第二年他便和 Daphne Koller 一起共同创办了 Coursera。2017 年他又创立 DeepLearning.AI，让 AI 教育变得更容易。如今几乎每一个自学数据科学、机器学习的人，都以某种方式上过他的课。正如他那句"AI 是新的电力（AI is the new electricity）"，他正是那个把 AI 从少数专家的东西，变成所有人的东西的人。

5. 该怎么准备？ 🎯

如果你还是学生（高中生/大学生）

不需要当"天才”。需要的是坚持和真实的项目。

要学的科目（把基础打牢）：

数学与统计，概率、统计、线性代数（这才是数据科学真正的骨架。这里弱，迟早会卡住）
编程，先学 Python，然后是 SQL（处理数据的两大语言）
计算机科学基础，数据结构、算法，到这个程度就够了
如果有统计课就一定要上。AI 能帮你写代码，但"这个统计是否说得通"的判断是你自己的事。

要培养的技能（真正能拉开差距的东西）：

“提问的能力”，看着数据，把"为什么？“和"那该怎么做？“抛出来的习惯
讲故事，练习把分析结果讲给人听（演讲、博客，什么都行）
怀疑式思考，怀疑"这个结果是真的吗？是相关还是因果？”
把 AI 当工具用的本事，让 ChatGPT/Claude 写代码，再验证它结果的能力

这周就能开始的项目（真的）：

在 Kaggle（kaggle.com）上挑一个入门数据集（比如泰坦尼克号生存预测），把它从头分析到尾
用你感兴趣主题的公开数据（体育记录、YouTube 统计、你家附近的雾霾数据等），做一个小分析 + 画图
把那份分析整理到博客或 GitHub 上，像 Hilary Mason 那样"做出来并公开"的习惯，会变成你的作品集
跟着 Kaggle 的 Notebook 一行行敲，给"为什么用这行代码"逐行写注释（用教别人的方式去学，是作弊级技巧）

目标不是"堆履历”。而是做出一件能证明"我能接过乱糟糟的数据，把它一路带到有意义结论"的小作品。正如 DJ Patil 所说，别展示代码，要展示影响力。

如果你是从别的领域转行

数据科学是转行最活跃的领域之一。统计学、经济学、物理学、心理学、市场营销等几乎所有"和数字打过交道"的背景，都会成为资产。（实际上有领域知识的人更强，医疗数据，懂医疗的人解得好；金融数据，懂金融的人解得好。）

能很好迁移过来的东西：

领域专长，在你已经熟悉的行业里定义"真问题"的能力（这正是 AI 绝对做不到的部分！）
分析性思考与统计，如果你有研究、调研的经历，那你已经走完一半路了
沟通，说服别人接受结论的能力，不管来自哪个领域都通用

现实的期望：Python、SQL、机器学习基础是要从头学的。但这不是"从 0 开始”，而是"既有强项 + 数据技能"的组合，所以你反而可能比纯新人更有竞争力。用 Andrew Ng 的在线课程集中学 6~12 个月，就能做出一份作品集。

必备技能

我按优先级把实用的技能栈整理一下：

最优先：统计与概率
- 为什么：在 AI 时代唯一变得更重要的技能。它是判断"这个模型结果能不能信"的依据
- 资源：第 6 部分的 Introduction to Statistical Learning（免费）、StatQuest YouTube
最优先：Python + SQL
- 为什么：动手处理数据的基本工具。哪怕 LLM 帮你写代码，你也得会读、会改
- 资源：第 6 部分的 Python for Data Analysis、Kaggle 免费课程
最优先：定义问题与因果思考
- 为什么：AI 做不到自动化的领域。这里决定了你的薪资
- 资源：Cassie Kozyrkov 的决策智能文章、因果推断入门书
重要：机器学习
- 为什么：依然是核心工具。不过这是"理解原理后再用” vs “复制粘贴"分道扬镳的地方
- 资源：Andrew Ng 的机器学习课程、Hands-On Machine Learning
重要：沟通与可视化
- 为什么：说服不了人的分析没人用。一张图、一句话的力量
- 资源：运营博客、练习数据可视化

6. 学习资源 📚

必读书目

这些书出名是有道理的。它们会告诉你数据科学家实际上是怎么思考的。再加一本免费的赠品：

An Introduction to Statistical Learning（免费 PDF）：https://www.statlearning.com/，对数据科学入门者推荐最多的统计学习教科书。把公式讲得不吓人。有 R 版和 Python 版两个版本。

免费资料（不花钱也能学）

现在是一个钱包再轻的学生，也能免费用上世界顶尖资料的时代：

练习平台
- Kaggle：https://www.kaggle.com/，真实数据集 + 比赛 + 免费迷你课程（Python、Pandas、ML、SQL）。是数据科学入门的游乐场
- Google Colab：https://colab.research.google.com/，不用安装，在浏览器里直接跑 Python、机器学习的免费 Notebook
YouTube（建立理论直觉）
- StatQuest with Josh Starmer：https://www.youtube.com/@statquest，让你真正理解统计、机器学习的频道。一声"BAM!“概念就刻进脑子里了
- 3Blue1Brown（线性代数/微积分直觉）：https://www.youtube.com/@3blue1brown
阅读材料
- Towards Data Science：https://towardsdatascience.com/，一线数据科学家的实战文章（因果推断、AI 时代的职业等）
- Cassie Kozyrkov 的文章（Medium）：https://kozyr.com/，把决策智能讲得通俗易懂的文章

社区

数据科学不是一个人闷头干的事。卡住了就去问，偷看别人的分析来学：

Kaggle 讨论与 Notebook：https://www.kaggle.com/discussions，别人怎么解同一份数据都公开着。是最好的教材
r/datascience（Reddit）：https://www.reddit.com/r/datascience/，实在的求职建议、坦诚的行业内幕
组队参加 Kaggle 比赛，实战经验 + 人脉 + 作品集一次到手

最后说一句。这个领域，不是完美准备好了才开始的。正如 Hilary Mason 所说，“每天都做出乱糟糟的原型。” 挑一个 Kaggle 数据集，今天就敲下第一行。那才是数据科学家真正的开始。加油！💪

一句话概述

数据科学家 (Data Scientist)

一览这个职业

1. 数据科学家实际上是做什么的？ 🤔

一句话来说

这个职业酷在哪里 ✨

冷静的现实（现实检验） ⚠️

2. 这个职业在未来还有前途吗？ 📈

就业市场现实检验

AI 会取代这个职业吗？

💰 实际薪资

我适合吗？（自我评估）

3. 必须知道的冷酷真相：缺点 ⚠️

压力与期望错配

难以被认可的"看不见的工作”

高离职率（1.7 年之谜）

经济与职业现实

离开的人的故事

4. 这个领域的传奇人物 🏆

DJ Patil：造出"数据科学家"这个词的人

Hilary Mason：靠博客证明自己的实用主义数据科学家

Fei-Fei Li：从一句英语都不会的移民，到"AI 教母”

Cassie Kozyrkov：把"决策"变成科学的人

Andrew Ng：把 AI 教育向所有人敞开的人

5. 该怎么准备？ 🎯

如果你还是学生（高中生/大学生）

如果你是从别的领域转行

必备技能

6. 学习资源 📚

必读书目

推荐在线课程

免费资料（不花钱也能学）

社区

深度职业报告

适合这样的你

需要有心理准备

分阶段准备路线图

推荐专业与领域

证书·考试·作品集

现实建议

推荐书籍与课程

想更深入了解这个职业？

走过这条路的人

标签

参考资料

准备好开始了吗？

相关职业

数据中心工程师 (Data Center Engineer)

老师 (Teacher)

内容创作者 (Content Creator)

研究员 (Researcher)