부스트캠프 AI Tech 4기
[WEEK02 마스터클래스] 최성철 마스터
StoneSeller
2022. 9. 30. 17:48
Data Centric
실제 ML 프로젝트에서는 양질의 데이터 확보가 관건이다.
Production time 데이터와 Experiment 데이터가 다른 문제도 발생한다.
끊임없이 데이터를 관리하고 확보하는 노력이 필요하다.
User generated data : inputs, clicks for recommendation
System generated data : logs, metadata
Data Flywheel : 사용자들의 참여로 데이터를 개선
Data augmentation : 데이터를 임의로 추가 확보
Data Feedback Loop
사용자로부터 오는 데이터를 자동화하여 모델에 피딩해주는 체계가 필요하다.
앞으로 많은 ML/DL 엔지니어가 가져야할 역량 중 하나
앞으로 알아야할 것 들
- MLOPs 도구들
- Database
- Cloud - AWS, GCP, Azure
- Spark (+Hadoop)
- Linux + Docker + 쿠버네티스
- 스케줄링 도구들 (쿠브플로우, MLFlow, AirFlow)
단순히 ML/DL 코드 작성을 넘어서야 한다.
→ 자동화하고 데이터와 연계, 실험 결과를 기반으로 설득, 시스템화
728x90