alpyrithm_알파이리즘
DAY9. Data Pipeline 본문
Summary
- Data Pipeline 구축 Steps
- OSEMN
- Obtaining Data
- Scrubbing Data
- Exploring Data
- Modeling Data
- iNterpreting Data
- OSEMN
Main
Data Pipleline 구축 Steps
- 의미
- 데이터 이슈에서 유의미한 결괏값을 도축하기 위한 핵심 프로세스
- OSEMN
- Obtaining Data
- 데이터 수집 단계
- 구조화, 비 구조화 또는 반 구조화할 수 있는 모든 데이터 셋
- 단일 소스 또는 여러 소스에서 데이터를 수집 가능
- 데이터가 종종 Silo 되므로 데이터 수집을 어려운 이슈이기도 함
- Scrubbing Data
- 데이터 스크럽 단계
- 데이터를 문질러서 데이터를 정리하는 단계
- 유실 데이터의 값 대치, 데이터의 유형 변환, 누락 값의 표준화 대치, column 이름 바꾸기 등 진행
- Exploring Data
- 데이터 탐색 단계
- 각 변수 간의 관계를 찾기 위해 데이터를 탐색
- 변수 간의 상관 관계 검색을 통하여 설명 변수와 반응 변수 사이의 관계 찾기
- Statistical overview(통계적 개요), Correlation(상관성), Visualization(시각화) 단계로 구성
- Modeling Data
- 데이터 모델링 단계
- 머신러닝 모델 구축 뿐만 아니라 모델에 포함될 중요한 Feature 및 column을 선택하는 것 포함
- clustering, prediction, forecasting
- 주요 기능
- Training 시간 단축
- column이 적을수록 데이터가 줄어들어 알고리즘이 더 빨리 실행되게 함
- Overfitting 감소(과적합 줄이기)
- 관련 없는 column을 제거하면 알고리즘의 노이즈가 줄어들어 Overfitting 감소
- 정확도 향상
- 머신러닝 모델의 정확도 향상시킴
- Training 시간 단축
- iNterpreting Data
- 데이터 해석 단계
- 데이터 파이프라인 프로세스의 마지막
- 분석의 모든 과정에서 얻은 통찰력을 요약하며, 모든 해석과 결과를 결합하여 결론을 도축
- Obtaining Data
728x90
반응형
'SM공부 > Data Mining & Machine Learning' 카테고리의 다른 글
DAY8. Ensemble Learning II (0) | 2020.08.04 |
---|---|
DAY7. Ensemble Learning I (0) | 2020.08.03 |
+) DataFrame 기초 정리 (0) | 2020.07.28 |
DAY6. Supervised Learning III (0) | 2020.07.27 |
DAY5. Supervised Learning II (0) | 2020.07.26 |
Comments