데이터 과학자 (Data Scientist)

이 직업 한눈에

성장 전망 성장 중

수요 매우 높음

출처 및 참고 (8)

마지막 업데이트: 2026-01-30

1. 데이터 과학자는 실제로 무슨 일을 할까? 🤔

한마디로 말하면

탐정 + 통계학자 + 통역사를 한 명에 욱여넣은 느낌이야. 단, “사건"은 살인 미스터리가 아니라 “왜 우리 앱 가입자가 지난달부터 줄고 있지?” 같은 비즈니스 미스터리고, 단서는 피 묻은 칼이 아니라 수백만 줄짜리 지저분한 엑셀(보다 훨씬 큰) 데이터라는 거지. 📊

데이터 과학자 (Data Scientist)는 데이터를 가지고 이런 일을 해:

문제 정의: 진짜 일은 여기서 시작돼. “매출을 올려줘"라는 막연한 요청을 → “어떤 고객군이, 어떤 시점에, 왜 이탈하는가?“라는 풀 수 있는 질문으로 번역하기
데이터 수집·정제: 여기저기 흩어진 데이터를 긁어모으고, 빈칸과 오타와 이상치를 청소하기 (이게 진짜 업무의 50~80%야… 화려하진 않지)
탐색·분석 (EDA): 데이터를 이리저리 돌려보면서 패턴과 이상한 점을 찾아내기
모델링: 예측 모델이나 추천 엔진, 이탈 예측기 같은 걸 만들기 (머신러닝이 등장하는 부분)
인과 추론: “이게 같이 움직이네”(상관)와 “이게 저걸 일으켰네"(인과)를 구분하기, 이게 진짜 고수의 영역이야
커뮤니케이션: 결과를 임원도 알아듣게 그래프 한 장과 한 문장으로 설명하기 (모델이 아무리 좋아도 설득 못 하면 안 쓰여)

“데이터 과학자의 하루"를 스냅샷으로 보여줄게 (정확한 스케줄이 아니라 분위기만):

오전: 슬랙에 “이 숫자가 왜 이래요?“라는 질문이 쌓여 있어. 데이터를 불러와서 쿼리(SQL)를 날리고, 노트북(주피터)에서 가설을 하나씩 확인해.
낮: 제품팀이랑 미팅. “우리가 푸는 게 정말 맞는 문제인가?“를 따져. 절반은 데이터, 절반은 사람을 다루는 일이야.
오후: 모델을 돌려보는데 정확도가 이상하게 높아. (좋아할 일이 아니야, 보통 데이터 누수 같은 버그라는 신호거든.) 디버깅 시작.
저녁: 발견한 걸 한 장짜리 슬라이드로 정리. “그래서 우리가 뭘 해야 하는가"를 또렷하게 적어. 코드보다 이 문장이 훨씬 중요할 때가 많아.

가장 멋진 점? 끊임없이 모드를 전환한다는 거야: 코드 짜는 엔지니어, 숫자 보는 통계학자, 회의실에서 설득하는 컨설턴트, 그리고 “이 질문 자체가 틀렸는데요?“라고 말할 줄 아는 비판적 사고가, 이걸 다 하루에 해.

이 직업이 멋진 이유 ✨

솔직히 말할게. 데이터 과학자는 한때 “21세기 가장 섹시한 직업”(HBR, 2012, DJ Patil이 공동 집필)이라 불렸어. 거품 빠진 지금도 멋진 이유는 분명해.

진짜 의사결정에 손을 대. 넷플릭스가 뭘 추천할지, 은행이 누구에게 대출을 내줄지, 병원이 어떤 환자를 먼저 볼지, 이런 결정 뒤에 데이터 과학자가 있어. 네가 만든 모델 한 줄이 수백만 명의 경험을 바꿔.

“왜?“를 끝까지 파고드는 일이 직업이 돼. 호기심 많은 사람한테 이건 천국이야. “이 패턴 뭐지?” 하고 파보는 게 일이고, 답을 찾으면 돈도 주고 칭찬도 줘.

보람 있는 순간들도 진짜 있어:

아무도 몰랐던 인사이트를 발견해서 회사가 방향을 바꿀 때 (“어? 우리가 망한다고 생각한 그 기능이 사실 핵심 고객을 붙잡고 있었네”)
깔끔한 그래프 하나로 회의실 전체를 “아…” 하게 만들 때
내가 만든 추천 시스템 덕분에 매출 그래프가 위로 꺾일 때

게다가 미래가 점점 흥미로워. LLM·생성형 AI·인과 추론 도구·MLOps 같은 게 이전 세대 데이터 과학자에겐 없던 새로운 문을 열고 있어. (자세한 건 2번에서.)

냉정한 현실 (리얼리티 체크) ⚠️

데이터 과학자를 조금이라도 고려하고 있다면, 인스타 하이라이트 말고 진실을 알 자격이 있어.

일의 80%는 화려하지 않아. 영화에서 보는 “멋진 AI 만들기"는 업무의 한 조각이야. 현실은 데이터 청소야, 빈칸 채우고, 형식 통일하고, 누가 잘못 입력한 값 찾아내고. 흔히 “데이터 과학의 80%는 데이터 정제, 나머지 20%는 데이터 정제에 대한 불평"이라는 농담이 돌 정도야. 😅

“애매한 직업"이라는 함정. 회사마다 데이터 과학자가 하는 일이 천차만별이야. 어디선 머신러닝 모델을 만들고, 어디선 그냥 대시보드만 만들고(그건 사실 데이터 분석가에 가까워), 어디선 데이터 파이프라인을 짜(그건 데이터 엔지니어야). 입사하기 전에 “이 회사에서 데이터 과학자는 정확히 뭘 하나요?“를 꼭 물어봐야 해.

기대치와 현실의 간극이 커. 경영진은 종종 데이터 과학을 “마법"으로 오해해서 비현실적인 걸 기대해. “AI로 다음 분기 매출 정확히 맞춰줘” 같은 거. 그래서 데이터 과학자의 평균 재직 기간이 1.7년밖에 안 된다는 통계도 있어, 기대치 미스매치가 큰 원인이야.

오해 바로잡기: 데이터 과학은 “천재가 혼자 AI 만드는” 일이 아니야. 대부분은 지저분한 현실 + 사람들 설득 + 끈질긴 디버깅이야. 그걸 즐길 수 있어야 오래가.

2. 이 직업은 미래에도 유망할까? 📈

취업 시장 현실 점검

좋은 소식: 수요는 여전히 강해. 미국 노동통계국(BLS) 기준 데이터 과학자는 가장 빠르게 성장하는 직군 중 하나로, 2024~2034년 연간 약 23,400개의 일자리가 새로 열리고, 고용 성장률이 **약 34%**로 추정돼 (전체 직업 평균의 몇 배). 맥킨지는 미국에서 데이터 과학자 수요가 공급을 50% 이상 초과할 거라고 봤어.

나쁜 소식: 그렇다고 진입이 쉬운 건 아니야. “주니어 자리는 줄고, 시니어/특화 인재 수요는 커지는” 양극화가 진행 중이야. 기본 분석만 할 줄 아는 사람은 흔해졌고, AI가 그 부분을 자동화하면서 “그냥 평범한 데이터 과학자"의 가치가 떨어지고 있어. 차별화가 필요해.

AI가 이 직업을 대체할까?

이게 Reputo의 핵심 관점이야. AI는 데이터 과학자를 대체하는 게 아니라 재편하고 있어. 무슨 일이 일어나는지 정확히 보자.

AI/LLM이 빨아들이는 부분 (가치가 떨어지는 일):

코드 작성, ChatGPT/Claude가 판다스(pandas) 코드, SQL, 시각화를 순식간에 짜줘
기본 EDA(탐색적 분석), “이 데이터 요약해줘"는 이제 LLM이 해
기본 모델 튜닝, AutoML과 에이전트가 모델 비교·하이퍼파라미터 탐색을 자동화

실제로 업계에서는 데이터 과학자의 역할이 “직접 하는 사람(doer)“에서 “지휘하는 사람(orchestrator)“으로 이동한다고 말해. 복잡한 일을 AI 에이전트가 실행할 수 있는 작은 작업으로 쪼개고, 피드백 루프를 설계하고, AI가 틀렸을 때 잡아내는 가드레일을 만드는 게 새 핵심 역량이야.

그런데 AI가 못 하는, 그래서 가치가 올라가는 부분:

문제 정의: “이 비즈니스 상황을 어떤 질문으로 바꿔야 하는가?”, 모델이 아무리 좋아도 틀린 질문을 풀면 0점이야. AI는 이걸 못 해.
인과 추론: 이게 진짜 핵심이야. LLM은 상관관계 엔진이라서 인과 추론 기법을 설명할 순 있어도 인과 추론을 하지는 못해. 인과 추론은 데이터 생성 과정을 이해하고, 변수에 개입(intervention)하고, 학습 데이터엔 한 번도 등장하지 않은 반사실(counterfactual)을 추론해야 하거든. “가격을 올려야 할까?” “이 고객에게 할인을 줘야 할까?” 같은 “무엇을 해야 하는가” 질문은 예측이 아니라 인과의 영역이고, AI가 가장 약한 부분이야.
ML 시스템 설계: 모델 하나를 실제 서비스에 안정적으로 올리고(MLOps), 모니터링하고, 망가질 때 대비하는 건 여전히 사람 몫이야.
LLM 평가: 역설적이지만, AI가 만든 결과물이 맞는지 검증하는 일이 새 직업이 되고 있어. “이 LLM 출력이 신뢰할 만한가?“를 판단하는 게 데이터 과학자의 새 무기야.

한 줄 요약: 분석·모델링·코딩은 자동화되고, 가치는 문제 정의·인과추론·ML시스템 설계·LLM 평가로 이동해. 이 위쪽으로 올라간 사람은 AI를 위협이 아니라 초능력처럼 써. AI한테 잡일 시키고, 자신은 “어떤 질문을 풀지"와 “이게 정말 인과인지"에 집중하는 거지.

💰 실제 급여

학생들이 항상 묻는 질문: “그래서… 데이터 과학자 얼마 벌어?” 진짜 숫자로 답해줄게.

🇺🇸 미국 (USD, 총보상 = 연봉+주식+보너스 기준, levels.fyi/Glassdoor 2026):

전체 중위값: 약 $155,000 ~ $176,000 (약 2억 1천만 ~ 2억 4천만 원)
신입(엔트리): 약 $152,000 ~ $190,000 (Google L3 신입이 ~$190K), 2025년보다 약 $40K 오름
빅테크 중위값: Google $335K, Meta $288K, Amazon $250K, Microsoft $248K (약 3억 4천만 ~ 4억 6천만 원)
시니어: Google 기준 최근 오퍼가 보통 $310,000 ~ $410,000 사이

🇰🇷 한국 (KRW, 2026 기준):

신입: 약 3,300만 원부터 시작
5년차: 약 5,590만 원
10년차: 약 8,370만 원
전체 평균: 약 5,745만 원
대기업과 중소기업 연봉 차이가 약 1,285만 원, 회사 규모·산업(도메인)이 연봉을 크게 가름

현실 점검: 미국 숫자에 눈 돌아가지 마. 미국은 생활비·세금·취업 비자 장벽이 다르고, 한국 빅테크(네이버·카카오·쿠팡·토스 등)나 외국계는 한국 평균보다 훨씬 높아. 그리고 핵심, “비즈니스 문제를 직접 정의하고 모델로 풀어낸 경험"이 있는 사람의 연봉이 단순 분석만 반복한 사람보다 확연히 높아. 위에서 말한 그 “가치가 올라가는 영역"이 곧 연봉이야.

나한테 맞을까? (자기 평가)

게임 캐릭터 빌드처럼 생각해봐. 데이터 과학은 특정 스탯을 보상해.

이런 사람에게 딱 맞아:

호기심이 많은 사람, “왜 이렇지?“가 입버릇인 사람
모호함을 견디는 사람, 정답이 안 정해진 지저분한 문제를 즐기는 사람
논리적이면서 소통도 되는 사람, 숫자도 보고, 그 숫자를 사람한테 설명도 할 줄 아는 사람
꼼꼼한 사람, 데이터의 작은 오류 하나가 결론 전체를 뒤집을 수 있거든
회의적인 사람, “이 결과 너무 좋은데? 어디 버그 있는 거 아냐?“라고 의심할 줄 아는 사람

필수 적성 (선택 아님):

수학·통계 기초, 확률, 통계, 약간의 선형대수 (블랙박스로 쓰면 결국 막혀)
코딩, 최소 Python, 그리고 SQL은 거의 필수
비즈니스 감각, 기술이 왜 필요한지를 이해하는 능력

솔직히, 이런 사람은 힘들 수 있어:

답이 딱 떨어져야만 마음이 편한 경우 (데이터 과학은 “아마도”, “이 정도 확률로"의 세계야)
사람 설득하는 걸 극도로 싫어하는 경우 (분석만 잘하고 소통 못 하면 인정 못 받아)
데이터 청소 같은 반복 작업에 금방 질리는 경우

워라밸: 직군 자체는 의사·투자은행보다 낫지만, 마감과 비현실적 기대 때문에 스트레스가 셀 수 있어. (3번에서 솔직하게 깔게.)

3. 반드시 알아야 할 냉정한 진실: 단점 ⚠️

스트레스와 기대치 미스매치

이 직업에서 가장 힘든 건 사실 데이터가 아니라 사람들의 기대야.

경영진이 데이터 과학을 “마법"으로 오해해서 비현실적인 걸 요구해 (“AI로 다음 분기 매출 정확히 맞춰줘”)
프로젝트는 보통 시간에 쫓기고, 요구사항이 계속 바뀌고, 이해관계자 피드백이 끊임없이 들어와
몇 주를 갈아 넣은 분석이 “음, 그래서 어쩌라고?“라는 반응을 받을 때, 진짜 멘탈에 와

데이터 직군의 번아웃은 실재해. 한 조사(Data Kitchen)에선 데이터 엔지니어의 97%가 번아웃을 경험한다고 나왔고, 데이터 과학자도 비현실적 기대·과로·인정 부족으로 비슷한 압박을 받아.

인정받기 어려운 “보이지 않는 일”

데이터 과학은 자주 과소평가돼. 네가 며칠 밤을 새워 깔끔한 분석을 내놔도, 사람들 눈엔 “그래프 한 장"으로만 보여. 그 뒤의 데이터 청소·디버깅·검증의 고생은 안 보이거든. “데이터 과학이 정확히 뭐 하는 건데?“라는 오해와 평생 싸우게 돼.

높은 이직률 (1.7년 미스터리)

데이터 과학자의 평균 재직 기간이 1.7년이라는 통계가 있어. 왜 이렇게 짧을까?

조직이 데이터 과학자의 역할을 오해하고 (분석가·엔지니어 일을 다 떠넘김)
비현실적 기대 + 비협조적인 데이터 인프라
“내가 만든 모델이 결국 서비스에 안 올라가는” 좌절 (PoC만 하다 끝나는 프로젝트가 많아)

이건 너 개인의 실패가 아니라 업계 구조의 문제인 경우가 많아. 그래서 “데이터 문화가 성숙한 회사"를 고르는 게 연봉만큼 중요해.

경제적·커리어 현실

연봉은 좋은 편이지만, “데이터 과학자"라는 타이틀이 직무 보장을 안 해줘. 어떤 곳에선 고급 분석가, 어떤 곳에선 엔지니어로 굴려져.
기술이 빠르게 변해. 5년 전 핫했던 스킬이 지금은 LLM에 자동화됐어. 평생 학습이 옵션이 아니라 생존 조건이야.
AI가 기본 업무를 잠식하면서, “기본만 하는 데이터 과학자"의 자리는 줄어들고 있어. 위로 올라가지 않으면 위험해.

그만둔 사람들의 이야기

데이터 과학을 떠난 사람들의 흔한 후회/이유:

“내 분석이 실제 결정에 반영되는 걸 거의 못 봤다, PoC만 만들다 지쳤다”
“데이터 청소가 업무의 전부라는 걸 몰랐다. 멋진 AI 만들 줄 알았는데”
“경영진을 설득하는 정치가 분석보다 힘들었다”

결론: 호기심이 넘치고, 모호함을 즐기고, 사람도 설득할 수 있고, AI 시대에 위쪽(문제 정의·인과·시스템)으로 계속 올라갈 각오가 있다면, 데이터 과학은 여전히 끝내주는 길이야. 하지만 “AI 천재가 혼자 멋진 모델 만드는” 그림만 보고 온다면, 현실의 데이터 청소와 사내 정치에 데일 수 있어.

4. 이 분야의 전설들 🏆

데이터 과학의 전설들 중엔 “올A 천재"만 있는 게 아니야. 수학을 싫어했던 사람, 명문대 학위 없이 독학한 사람, 영어 한마디 못 하던 이민자, 박사 과정에서 떨어진 사람, 이들이 한 분야를 통째로 만들어냈어.

DJ Patil, “데이터 과학자"라는 단어를 만든 사람

DJ Patil이 한때 수학을 싫어했고, Google과 Yahoo에서 떨어졌다는 거 알고 있었어?

인도 이민자 부모 밑에서 자란 그는 학창 시절 수학을 싫어했지만, 나중에 메릴랜드대에서 응용수학 박사를 따고 데이터의 세계에 빠졌어. 재밌는 사실, 처음엔 이베이(eBay)에 취직했는데, 그건 어머니가 거기 아는 사람이 있어서였대. 화려한 시작이 아니었던 거지.

진짜 전환점은 LinkedIn이었어. 2008년 그곳에서 데이터 제품 책임자로 일하면서, 동료 Jeff Hammerbacher(당시 Facebook)와 함께 자기들이 하는 이 새로운 일을 부를 단어가 없다는 걸 깨닫고 “데이터 과학자(Data Scientist)“라는 직함을 만들어냈어. 2012년엔 하버드 비즈니스 리뷰에 “21세기 가장 섹시한 직업"이라는 글을 공동 집필했고, 2015년엔 오바마 대통령에게 직접 발탁돼 미국 최초이자 (지금까지) 유일한 백악관 수석 데이터 과학자가 됐어. 학생들에게 그가 늘 하는 조언은 단순해: “진짜 프로젝트로 포트폴리오를 만들어라, 코드 말고 임팩트를 보여줘라.”

Hilary Mason, 블로그로 자기를 증명한 실용주의 데이터 과학자

Hilary Mason이 박사 과정에서 거절당했지만, 그 실패를 블로그에 공개하면서 오히려 유명해졌다는 거 알고 있었어?

그녀는 그리넬 칼리지에서 컴퓨터과학을 전공하고 학계 머신러닝으로 커리어를 시작했어. 그런데 곧 깨달았대, 자기는 논문보다 사람들이 실제로 쓸 수 있는 걸 만드는 데 더 끌린다는 걸. 그래서 학계 대신 스타트업 세계로 방향을 틀었어.

그녀의 도약대는 URL 단축 서비스 bitly의 수석 과학자 자리였어. 거기서 4년간 “인터넷에서 사람들의 관심이 실시간으로 어떻게 움직이는지"를 연구하는 팀을 이끌었지. 2014년엔 동료와 함께 Fast Forward Labs를 창업해, 최신 머신러닝 연구를 기업이 실제로 쓸 수 있게 번역해주는 일을 했고, 이 회사는 2017년 Cloudera에 인수됐어. 그녀의 철학은 한 문장으로 압축돼: “지저분한 프로토타입을 매일 출시해라, 완벽주의가 혁신을 죽인다.” 학계 박사 학위가 없어도, “만들고 공유하는” 습관으로 데이터 과학의 아이콘이 된 케이스야.

Fei-Fei Li, 영어도 못 하던 이민자에서 ‘AI의 대모’로

Fei-Fei Li가 15살에 영어 한마디 못 하고 미국에 와서, 주말엔 가족 세탁소에서 일하며 공부했다는 거 알고 있었어?

중국 청두에서 태어난 그녀는 15살에 부모를 따라 뉴저지로 이민 왔어. 방 한 칸짜리 아파트에서 시작했고, 아버지는 카메라를 고치고 어머니는 계산원으로 일했어. 그녀는 학교에 다니면서 주말엔 가족이 차린 세탁소에서 일했지. 그런데 수학에서 만점을 받으며 프린스턴대 물리학과에 전액 장학금으로 입학해.

그녀의 가장 큰 업적은 **ImageNet(2006~)**이야. 당시 AI 연구자들은 “더 똑똑한 알고리즘"에만 매달렸는데, Fei-Fei는 정반대로 생각했어, “컴퓨터가 세상을 보려면, 먼저 엄청나게 많은 라벨링된 데이터가 필요하다.” 그래서 수백만 장의 이미지를 사람이 일일이 분류한 거대한 데이터셋을 만들었어. 처음엔 “그게 무슨 연구냐"는 비웃음도 받았지만, 이 데이터셋이 2012년 딥러닝 혁명의 불씨가 됐고, 오늘날 얼굴 인식·자율주행의 토대가 됐어. 데이터 과학의 핵심 교훈을 그녀가 증명한 거야, 모델만큼이나 데이터가 중요하다. 지금은 스탠퍼드 인간중심 AI 연구소(HAI)를 이끌며 ‘AI의 대모’로 불려.

Cassie Kozyrkov, “결정"을 과학으로 만든 사람

Cassie Kozyrkov가 남아프리카 출신 이민자로, 초기 컨설팅 일에서 소통을 못 해 망했다가 그걸 고쳐서 구글 최초의 직책을 만들었다는 거 알고 있었어?

남아공에서 미국으로 건너온 그녀는 문화 장벽을 뚫고 수학과 물리학을 공부했어. 데이터 과학자로 일하면서 그녀가 본 가장 큰 문제는 기술이 아니었어, **“사람들이 데이터를 가지고 나쁜 결정을 내린다”**는 거였지. 멋진 모델을 만들어도, 정작 그 모델로 무슨 결정을 어떻게 내릴지 아무도 제대로 따지지 않았던 거야.

그래서 그녀는 아예 새로운 분야를 만들었어, ‘의사결정 지능(Decision Intelligence)’. 통계·머신러닝·심리학·경영을 한데 묶어서 “데이터로 어떻게 더 나은 결정을 내릴 것인가“를 다루는 학문이야. 구글은 2017년 그녀를 **회사 최초의 ‘수석 의사결정 과학자(Chief Decision Scientist)’**로 임명했고, 그녀는 구글 내부에서 2만 명을 교육하고 500개가 넘는 프로젝트에 영향을 줬어. 그녀의 메시지는 데이터 과학의 미래 그 자체야: “완벽한 답을 찾기보다, 더 나은 질문을 던져라.”, AI가 답을 자동으로 뱉는 시대에, 가치는 ‘질문하는 사람’에게 있다는 걸 미리 보여준 거지.

Andrew Ng, AI 교육을 모두에게 연 사람

Andrew Ng가 만든 온라인 강의 하나를 10만 명이 들으면서 세계 최대 온라인 교육 플랫폼이 탄생했다는 거 알고 있었어?

홍콩 태생으로 어린 시절 여러 나라를 옮겨 다니며 자란 그는 스탠퍼드 교수가 됐고, 구글 브레인(Google Brain) 팀의 창립 리더, 바이두(Baidu) 수석 과학자를 지냈어. 머신러닝·로봇공학 분야 논문을 100편 넘게 썼지. 하지만 그를 진짜 전설로 만든 건 연구가 아니라 교육이야.

2011년 그는 스탠퍼드의 머신러닝 강의를 온라인에 무료로 공개했는데, 10만 명 넘게 수강하는 사건이 벌어졌어. 이게 최초의 MOOC(대규모 온라인 공개강좌) 중 하나가 됐고, 그는 이듬해 Daphne Koller와 함께 Coursera를 공동 창업했어. 2017년엔 DeepLearning.AI를 세워 AI 교육을 더 쉽게 만들었지. 오늘날 데이터 과학·머신러닝을 독학하는 거의 모든 사람이 어떤 식으로든 그의 강의를 거쳐 가. “AI는 새로운 전기다(AI is the new electricity)“라는 그의 말처럼, 그는 AI를 소수 전문가의 것에서 모두의 것으로 바꾼 사람이야.

5. 어떻게 준비할까? 🎯

아직 학생이라면 (고등학생/대학생)

“천재"일 필요 없어. 꾸준함과 진짜 프로젝트가 필요해.

공부할 과목 (기초를 단단히):

수학·통계, 확률, 통계, 선형대수 (데이터 과학의 진짜 뼈대야. 여기 약하면 결국 막혀)
프로그래밍, Python을 먼저, 그다음 SQL (데이터 다루는 양대 언어)
컴퓨터과학 기초, 자료구조, 알고리즘 정도면 충분
통계 수업이 있다면 무조건 들어. AI가 코드는 짜줘도, “이 통계가 말이 되는지” 판단은 네 몫이야.

개발할 스킬 (실제로 차이를 만드는 것들):

“질문하는 힘”, 데이터를 보고 “왜?“와 “그래서 뭘 해야 하지?“를 던지는 습관
스토리텔링, 분석 결과를 사람한테 설명하는 연습 (발표, 블로그, 뭐든)
회의적 사고, “이 결과가 진짜일까? 상관인가 인과인가?“를 의심하기
AI를 도구로 쓰는 법, ChatGPT/Claude한테 코드 시키고, 그 결과를 검증하는 능력

이번 주에 시작할 수 있는 프로젝트 (진짜로):

Kaggle(kaggle.com)에서 입문용 데이터셋(타이타닉 생존 예측 등) 하나 잡고 끝까지 분석해보기
내가 관심 있는 주제의 공개 데이터(스포츠 기록, 유튜브 통계, 우리 동네 미세먼지 등)로 작은 분석 + 그래프 만들기
그 분석을 블로그나 깃허브에 정리, Hilary Mason처럼 “만들고 공개하는” 습관이 포트폴리오가 돼
캐글 노트북을 따라 치면서 “왜 이 코드를 쓰는지” 한 줄씩 주석 달기 (가르치듯 배우는 게 치트키)

목표는 “스펙 쌓기"가 아니야. “나는 지저분한 데이터를 받아서 의미 있는 결론까지 끌고 갈 수 있다"는 걸 증명하는 작은 작품을 만드는 거야. DJ Patil 말대로, 코드가 아니라 임팩트를 보여줘.

다른 분야에서 전환한다면

데이터 과학은 전환이 가장 활발한 분야 중 하나야. 통계학·경제학·물리학·심리학·마케팅 등 “숫자를 다뤄본” 거의 모든 배경이 자산이 돼. (실제로 도메인 지식이 있는 사람이 강해, 의료 데이터는 의료를 아는 사람이, 금융 데이터는 금융을 아는 사람이 잘 풀어.)

잘 이전되는 것들:

도메인 전문성, 네가 이미 아는 산업의 “진짜 문제"를 정의하는 능력 (AI가 절대 못 하는 부분!)
분석적 사고와 통계, 연구·리서치 경험이 있다면 이미 절반은 온 거야
커뮤니케이션, 결과를 설득하는 능력은 어느 분야에서 왔든 통해

현실적 기대: Python·SQL·머신러닝 기초는 새로 배워야 해. 하지만 “0에서 시작"이 아니라 “기존 강점 + 데이터 스킬"의 조합이라서, 오히려 순수 신입보다 경쟁력 있을 수 있어. Andrew Ng의 온라인 강의로 6~12개월 집중하면 포트폴리오를 만들 수 있어.

필수 스킬

실용적인 스킬 스택을 우선순위로 정리할게:

최우선: 통계·확률
- 왜: AI 시대에 유일하게 더 중요해진 스킬. “이 모델 결과를 믿어도 되나"를 판단하는 근거야
- 리소스: 섹션 6의 Introduction to Statistical Learning(무료), StatQuest 유튜브
최우선: Python + SQL
- 왜: 데이터를 만지는 기본 도구. LLM이 코드를 도와줘도, 읽고 고칠 줄은 알아야 해
- 리소스: 섹션 6의 Python for Data Analysis, 캐글 무료 코스
최우선: 문제 정의 & 인과적 사고
- 왜: AI가 자동화 못 하는 영역. 여기가 너의 연봉이 결정되는 곳이야
- 리소스: Cassie Kozyrkov의 의사결정 지능 글, 인과추론 입문서
중요: 머신러닝
- 왜: 여전히 핵심 도구. 단, “원리를 이해하고 쓰기” vs “복붙하기"가 갈리는 지점
- 리소스: Andrew Ng의 머신러닝 강의, Hands-On Machine Learning
중요: 커뮤니케이션 & 시각화
- 왜: 설득 못 하는 분석은 안 쓰여. 그래프 한 장, 한 문장의 힘
- 리소스: 블로그 운영, 데이터 시각화 연습

6. 학습 리소스 📚

필독 도서

이 책들이 유명한 데는 이유가 있어. 데이터 과학자가 실제로 어떻게 생각하는지를 알려주거든. 그리고 무료 보너스 한 권 더:

An Introduction to Statistical Learning (무료 PDF): https://www.statlearning.com/, 데이터 과학 입문자에게 가장 많이 추천되는 통계 학습 교과서. 수식이 무섭지 않게 설명돼 있어. R 버전과 Python 버전 둘 다 있어.

무료 자료 (돈 안 쓰고 배우기)

지갑 가벼운 학생도 세계 최고 수준 자료를 공짜로 쓸 수 있는 시대야:

연습 플랫폼
- Kaggle: https://www.kaggle.com/, 실제 데이터셋 + 대회 + 무료 미니 강의(Python, Pandas, ML, SQL). 데이터 과학 입문의 놀이터야
- Google Colab: https://colab.research.google.com/, 설치 없이 브라우저에서 바로 Python·머신러닝 돌리는 무료 노트북
유튜브 (이론 직관 잡기)
- StatQuest with Josh Starmer: https://www.youtube.com/@statquest, 통계·머신러닝을 진짜로 이해하게 해주는 채널. “BAM!” 한 번이면 개념이 박혀
- 3Blue1Brown (선형대수/미적분 직관): https://www.youtube.com/@3blue1brown
읽을거리
- Towards Data Science: https://towardsdatascience.com/, 현업 데이터 과학자들의 실전 글 (인과추론, AI 시대 커리어 등)
- Cassie Kozyrkov의 글 (Medium): https://kozyr.com/, 의사결정 지능을 쉽게 푼 글들

커뮤니티

데이터 과학은 혼자 하는 게 아니야. 막힐 때 물어보고, 남의 분석을 훔쳐보며 배워:

Kaggle 토론·노트북: https://www.kaggle.com/discussions, 다른 사람이 같은 데이터를 어떻게 푸는지 공개돼 있어. 최고의 교재야
r/datascience (Reddit): https://www.reddit.com/r/datascience/, 현실적인 취업 조언, 솔직한 업계 이야기
캐글 대회에 팀으로 참가하기, 실전 경험 + 네트워크 + 포트폴리오를 한 번에

마지막으로 한마디. 이 분야는 완벽하게 준비하고 시작하는 게 아니야. Hilary Mason 말처럼 “지저분한 프로토타입을 매일 만들어라.” 캐글 데이터셋 하나 잡고, 오늘 첫 줄을 쳐봐. 그게 데이터 과학자의 진짜 시작이야. 화이팅! 💪

정밀 진로 리포트

이 직업, 진짜로 준비하려면

이런 사람에게 맞아요

✓지저분한 데이터 속에서 패턴 찾는 걸 퍼즐처럼 즐긴다
✓수학·통계와 코딩을 둘 다 좋아한다
✓복잡한 걸 그래프 한 장으로 쉽게 설명하는 게 재밌다
✓답이 애매한 문제와 평생 공부를 견딜 수 있다

이건 각오하세요

!업무의 50~80%는 화려한 모델링이 아니라 데이터 청소와 회의야
!신입 시장이 포화라 한 자리에 지원자 100명, 학위보다 포트폴리오
!스킬 수명이 2~3년, LLM·MLOps를 계속 새로 배워야 해
!성과의 80%는 커뮤니케이션, 설명이 싫으면 힘들어

단계별 준비 로드맵

중·고등학생 때

통계·확률·대수 같은 수학 기초를 탄탄히 다져둬
파이썬 기초를 익히고 Kaggle Titanic 튜토리얼을 따라 해봐
관심 주제(스포츠·게임·기후)의 실제 데이터에서 패턴을 찾아봐

대학·초기

통계·CS·수학을 전공하고 선형대수·확률·머신러닝을 들어
공개 데이터셋으로 포트폴리오 프로젝트 3개를 만들어 GitHub에 올려
데이터 인턴 자리를 잡고 SQL을 확실히 익혀

취업 준비

정확도가 아니라 비즈니스 임팩트를 보여주는 완성 프로젝트 3개로 포트폴리오를 다듬어
SQL·통계 면접 문제를 연습하고 Kaggle 대회를 하나 완주해
이력서보다 포트폴리오, Kaggle·LinkedIn·밋업으로 넓게 지원하고 네트워킹해

자격증·시험·포트폴리오

Andrew Ng의 머신러닝·딥러닝 강좌 수료(Coursera)엔드투엔드 프로젝트 3개가 담긴 GitHub 포트폴리오Kaggle 대회 순위·노트북 기록

현실 조언

하루는 보통 '이 숫자 왜 이래요?' 같은 슬랙 질문으로 시작해서, SQL을 날리고 주피터에서 데이터를 뒤지고, 어떤 문제를 풀지 정하는 회의에 화려한 모델보다 더 많은 시간을 써. 업무의 50~80%는 신경망 만들기가 아니라 지저분한 데이터를 청소하고 결과를 설명하는 일이야. 처음 1~3년은 취업 경쟁이 치열하고 도구가 해마다 바뀌어서 늘 새로 배우게 돼.

이 길을 걸은 사람들

참고 자료

자, 이제 시작해볼까?

위에 나온 사람들도 다 너처럼 시작했어. 뭐든 좋으니까 오늘 딱 하나만 해보자!

다른 직업도 구경하기 나한테 맞는 직업 찾기

한 줄 요약