alpyrithm_알파이리즘

DAY9. Data Pipeline 본문

SM공부/Data Mining & Machine Learning

DAY9. Data Pipeline

알파이 2020. 8. 5. 08:29

 

Summary

  • Data Pipeline 구축 Steps
    • OSEMN
      • Obtaining Data
      • Scrubbing Data
      • Exploring Data
      • Modeling Data
      • iNterpreting Data

 

 

 

 

 

 

 

 

 

Main

Data Pipleline 구축 Steps

  • 의미
    • 데이터 이슈에서 유의미한 결괏값을 도축하기 위한 핵심 프로세스
  • OSEMN
    • Obtaining Data
      • 데이터 수집 단계
      • 구조화, 비 구조화 또는 반 구조화할 수 있는 모든 데이터 셋
      • 단일 소스 또는 여러 소스에서 데이터를 수집 가능
      • 데이터가 종종 Silo 되므로 데이터 수집을 어려운 이슈이기도 함
    • Scrubbing Data
      • 데이터 스크럽 단계
      • 데이터를 문질러서 데이터를 정리하는 단계
      • 유실 데이터의 값 대치, 데이터의 유형 변환, 누락 값의 표준화 대치, column 이름 바꾸기 등 진행
    • Exploring Data
      • 데이터 탐색 단계
      • 각 변수 간의 관계를 찾기 위해 데이터를 탐색
      • 변수 간의 상관 관계 검색을 통하여 설명 변수와 반응 변수 사이의 관계 찾기
      • Statistical overview(통계적 개요), Correlation(상관성), Visualization(시각화) 단계로 구성
    • Modeling Data
      • 데이터 모델링 단계
      • 머신러닝 모델 구축 뿐만 아니라 모델에 포함될 중요한 Feature 및 column을 선택하는 것 포함
      • clustering, prediction, forecasting
      • 주요 기능
        • Training 시간 단축
          • column이 적을수록 데이터가 줄어들어 알고리즘이 더 빨리 실행되게 함
        • Overfitting 감소(과적합 줄이기)
          • 관련 없는 column을 제거하면 알고리즘의 노이즈가 줄어들어 Overfitting 감소
        • 정확도 향상
          • 머신러닝 모델의 정확도 향상시킴
    • iNterpreting Data
      • 데이터 해석 단계
      • 데이터 파이프라인 프로세스의 마지막
      • 분석의 모든 과정에서 얻은 통찰력을 요약하며, 모든 해석과 결과를 결합하여 결론을 도축

 

 

 

 

 

 

 

 

 

반응형

'SM공부 > Data Mining & Machine Learning' 카테고리의 다른 글

DAY8. Ensemble Learning II  (0) 2020.08.04
DAY7. Ensemble Learning I  (0) 2020.08.03
+) DataFrame 기초 정리  (0) 2020.07.28
DAY6. Supervised Learning III  (0) 2020.07.27
DAY5. Supervised Learning II  (0) 2020.07.26
Comments