부스트캠프 AI Tech 4기

[WEEK02 마스터클래스] 최성철 마스터

StoneSeller 2022. 9. 30. 17:48

Data Centric

 

실제 ML 프로젝트에서는 양질의 데이터 확보가 관건이다.

Production time 데이터와 Experiment 데이터가 다른 문제도 발생한다.

끊임없이 데이터를 관리하고 확보하는 노력이 필요하다.

 

User generated data : inputs, clicks for recommendation

System generated data : logs, metadata

Data Flywheel : 사용자들의 참여로 데이터를 개선

Data augmentation : 데이터를 임의로 추가 확보

 

 

Data Feedback Loop

사용자로부터 오는 데이터를 자동화하여 모델에 피딩해주는 체계가 필요하다.

앞으로 많은 ML/DL 엔지니어가 가져야할 역량 중 하나

 

 

앞으로 알아야할 것 들

- MLOPs 도구들

- Database

- Cloud - AWS, GCP, Azure

- Spark (+Hadoop)

- Linux + Docker + 쿠버네티스

- 스케줄링 도구들 (쿠브플로우, MLFlow, AirFlow)

 

 

단순히 ML/DL 코드 작성을 넘어서야 한다.

→ 자동화하고 데이터와 연계, 실험 결과를 기반으로 설득, 시스템화

 

 

728x90