의식의 흐름

AI 시대, 데이터 분석가는 어떻게 해야할까

밍키. 2024. 12. 22. 15:16


AI 시대에 접어들면서 나 스스로도 데이터 분석가 직군의 역할과 생존 전략에 대한 고민이 깊어지고 있다. 생성형 AI, LLM, 자동화 기술이 급속도로 발전하면서 기존 데이터 직군의 업무는 빠르게 변화하고 있기 때문이다. 그러던 중 하용호님의 강의를 접하게 되었고, 인상 깊어 정리하여 공유한다. 강의가 보고싶다면 아래 링크를 참고 하길 바란다.

[지금 무료]AI시대 데이터 직군을 위한 생존 전략 강의 | 하용호 - 인프런


1. 데이터 직군, 변화의 시작

데이터 직군은 지난 10여 년간 세분화되어 왔다.

  • 데이터 엔지니어: 데이터를 수집하고 적재하는 역할
  • 데이터 분석가: 데이터를 분석하고 시각화하는 역할
  • ML 엔지니어: 머신러닝 모델을 개발하고 서빙하는 역할

하지만 지금 이 구조는 흔들리고 있다. 생성형 AI대규모 언어 모델(LLM)의 등장 때문이다. AI는 이미 간단한 데이터 분석과 추출 업무를 자동화하고 있고, 그 결과 데이터 직군 종사자들은 새로운 위기를 맞이하고 있다.


2. 다시 돌아온 ‘Full Stack 데이터 전문가’

과거에는 한 명이 데이터를 다루는 모든 작업을 수행했다. 데이터 수집부터 분석, 모델링, 결과 서빙까지 모두 담당했다. 하지만 기술의 발전으로 역할이 세분화되었고, 지금은 다시 통합되는 흐름이 나타나고 있다.

이제 필요한 건 Full Stack Data Expert다. 한 명이 전체 데이터 파이프라인을 이해하고 비즈니스 가치 창출에 기여하는 것이다.

Full Stack Data Expert의 역할

  1. 데이터 접근 및 처리
    • 클라우드와 데이터 레이크를 활용해 데이터를 수집하고 가공.
    • DuckDB 같은 경량 도구를 사용해 로컬에서 SQL 기반 데이터 처.
  2. AI와 자동화 도구 활용
    • LangChain, LlamaIndex 등을 사용해 SQL 추출 업무를 자동화.
    • LLM 기반 분석을 도입해 반복적인 작업을 줄이고 효율화.
  3. 비즈니스 분석 및 인사이트 제공
    • 데이터를 기반으로 심도 있는 분석을 통해 비즈니스 의사결정을 지원.
    • 최적의 비즈니스 액션을 제시하고 검증.
  4. API 서빙 및 개발 협업
    • 머신러닝 모델을 API화하고 개발팀과 협업해 실시간 서비스에 적용.
  5. 가치 창출
    • 데이터 분석 결과를 통해 회사의 실질적인 성과와 연결.

이제 데이터 직군은 단순히 분석 결과를 도출하는 것에 그치지 않고, 비즈니스의 가치를 창출하는 중심 역할을 맡아야 한다.


3. 데이터 핸들링의 변화: 분산에서 싱글로

과거에는 데이터가 커질수록 분산 처리가 필수적이었다. 하지만 지금은 상황이 다르다. 하드웨어 성능이 비약적으로 발전하면서 대부분의 데이터는 싱글 머신에서 처리할 수 있게 되었다.

핵심 변화

  • 컴퓨터 성능: SSD, 다중 코어 CPU, 대용량 메모리의 발전.
  • 평균 데이터 크기: 대부분의 회사 데이터는 1TB 이하로, 한 대의 고성능 머신에서 충분히 처리 가능.
  • 새로운 도구:
    • DuckDB: 로컬 파일(SQL 기반) 처리 도구. Spark보다 빠를 때도 많음.
    • BigQuery, Snowflake: 클라우드 기반 데이터 처리 도구.

이런 도구들을 활용하면 데이터 분석의 반복 속도(iteration)가 획기적으로 빨라진다.


4. AI 도구와 자동화의 도입

이제 단순 반복 작업은 AI와 자동화 도구가 대체하고 있다. 특히 Text-to-SQL 기술은 SQL 추출 업무를 크게 줄여준다.

추천 도구

  1. LangChain, LlamaIndex:
    • 테이블 스키마를 자동으로 인식하고 SQL 쿼리를 생성.
  2. Gold Table의 필요성:
    • AI가 정확하게 SQL을 생성하려면 핵심 데이터만 모아둔 Gold Table이 필요하다.
    • 민감 정보(PII)를 제외하고 데이터를 정리해 자동화 효율을 높임.
  3. EDA 자동화:
    • PyGWalker: 빠르게 데이터를 시각화하고 탐색
    • DeepBI: 분석과 비주얼화를 동시에 지원하는 오픈소스 도구

5. 차별화의 핵심: 해석력과 의사결정

기술이 발전하면서 누구나 데이터를 쉽게 추출하고 시각화할 수 있게 되었다. 하지만 데이터를 해석하고 올바른 결론을 내리는 것은 인간의 영역이다.

차별화 포인트

  1. 비즈니스 중심 해석력
    • 분석 결과를 비즈니스 목표와 연결해 최적의 결론을 도출.
  2. 오류 발견 및 해결
    • 데이터 분석의 오류를 발견하고 올바른 방향을 제시.
  3. Evidence-Based Decisions
    • 감이 아닌 데이터를 기반으로 비즈니스 결정을 내리고 실행

6. 앞으로 준비해야 할 것들

AI 시대에서 살아남으려면 다음과 같은 능력을 길러야 한다.

  1. AI 도구 학습: LangChain, LlamaIndex, PyGWalker 등 최신 도구 익히기.
  2. Full Stack 능력 강화: 데이터 접근부터 서빙까지 파이프라인을 통합적으로 이해.
  3. 해석력 향상: 데이터를 통해 비즈니스 가치를 창출하는 인사이트 도출.
  4. 최적화와 서빙: ML 모델 서빙, API화, 최적화 도구 사용 능력

강의의 마지막 말이 인상 깊었다.

“이 모든 것을 지금 당장 할 수 있어야 한다는 게 아닙니다. 다만 시대의 변화를 읽고 준비하면 됩니다. 앞으로 5년간 꾸준히 쌓아가세요.”


결론

AI 시대에 데이터 직군은 단순 반복 업무에서 벗어나 해석력, 가치 창출, 자동화 도구 활용을 중심으로 변화하고 있다. 결론은 계속 공부해 나가야 한다는 것.