목록SM공부/Data Mining & Machine Learning (10)
alpyrithm_알파이리즘
Summary Data Pipeline 구축 Steps OSEMN Obtaining Data Scrubbing Data Exploring Data Modeling Data iNterpreting Data Main Data Pipleline 구축 Steps 의미 데이터 이슈에서 유의미한 결괏값을 도축하기 위한 핵심 프로세스 OSEMN Obtaining Data 데이터 수집 단계 구조화, 비 구조화 또는 반 구조화할 수 있는 모든 데이터 셋 단일 소스 또는 여러 소스에서 데이터를 수집 가능 데이터가 종종 Silo 되므로 데이터 수집을 어려운 이슈이기도 함 Scrubbing Data 데이터 스크럽 단계 데이터를 문질러서 데이터를 정리하는 단계 유실 데이터의 값 대치, 데이터의 유형 변환, 누락 값의 표준화 대..
Summary Advanced Ensemble Learning Advanced Ensemble Learning 개념 Bagging Boosting Random Forest Stacking Main Advanced Ensemble Learning Advanced Ensemble Learning 개념 Ensemble Learning의 본질은 개별 모델을 결합하여 우수한 모델을 형성하는 것 우수한 모델이 생성되는 방식을 살펴보면 개별 모델 또는 Learner는 Prediction을 생성하고 그 Prediction은 Final Prediction을 형성하는 데 사용 맨 처음 Prediction Set(예측 세트)를 생성하는 Individual Models 또는 학습자를 Base Learner(기본 학습자) 또는..
Summary Ensemble Learning 기초 Simple Ensemble Learning Averaging Weighted Averaging Max voting Main Ensemble Learning 기초 Ensemble Learning의 개념 모델의 성능 개선을 목적으로 다양한 알고리즘을 이용한 다수의 모델을 통합하는 방법 앙상블 학습은 여러 기계 학습 모델을 결합하여 우수한 모델을 생성하여 Variance와 Bias의 영향을 줄이고 성능을 향상시키는 알고리즘 Top-left는 Bias가 높고 Variance가 낮은 시나리오 Top-right는 Bias, Variance 모두 높은 시나리오 앙상블 모델은 Bias와 Variance가 다른 약한 모델을 많이 결합하여 더 약한 모델을 만들어 개별 ..
데이터 선택 Slice : 이름 또는 인덱스를 이용한 선택 슬라이스(Slice) 기능을 이용해 DataFrame의 특정 열(column) 또는 행(row)을 가져올 수 있음 DataFrame에 대괄호([])를 이용 df['A'] → df의 A 열 가리킴 복수의 열을 슬라이스 할 경우, 열의 이름을 또 하나의 대괄호([])로 묶어서 표현 df[['A', 'B']] → df의 A, B 열 가리킴 콜론(:)을 이용해 행의 범위로 가져오기 가능 df[0:5] → df의 0~4번 index를 가리킴 df[0:1] → df의 첫 번째 행(index 0) loc : 이름을 이용한 선택 열과 행의 조건을 모두 제공해야 할 경우 loc 함수 이용 loc : label의 이름을 이용해 선택 df.loc[2013-01-31..
Summarry SVM(Support Vector Machine) in Supervised Learning Soft Margin Classification in Supervised Learning Decision Tree Main SVM(Support Vector Machine) Support Vector Machine의 개념 SVM(Support Vector Machine)의 목표는 클래스 간 경계를 찾아서 misclassification 오류를 줄이는 것 입력 데이터를 공간에서 선형으로 분리할 수 있는 초평면 또는 최적의 선형 결정 경계를 찾는 알고리즘 문제는 대부분 몇 가지 결정 결계가 생긴다는 것 어느 경계가 더 나은지를 더 잘 정의하는 방법에 대한 질문의 해결책이며, 이 해결책은 마진 최적화를 ..
Summary Supervised Learning(지도 학습) 응용 Classification(분류) 예시 Regression(회귀분석) 응용 Linear Regreassion의 이해 및 응용 Logistic Regression의 이해 및 응용 K-Nearest Neighbor(KNN)의 이해 및 응용 Main Supervised Learning 응용 Classification Model(분류 모델) 로지스틱 회귀분석(Logistic Regression) 의사결정나무(Decision Tree) 앙상블(Ensemble) Random Forest Gradient Boosting SVM(Support Vector Machine) K-Nearest Neighbors Naive Bayesian Classifica..
Summary Supervised Learning(지도 학습) 기초 Supervised Learning 개념 Supervised Learning의 종류 Feature Engineering 이해와 실습 Main Supervised Learning 기초 Supervised Learning의 개념 답을 주고 학습시키는 방법 특정 입력(Input)에 대하여 올바른 정답(Right Answer)이 있는 데이터 집합이 주어지는 경우의 학습 문제를 내고 그 다음 바로 정답까지 같이 알려주는 방식의 Learning 방법 여러 문제와 답을 함께 학습하여 미지의 문제에 대한 올바른 답 예측이 가능 문제와 함께 문제의 정답까지 함께 알고 있는 데이터를 선택 Input과 Output에 대한 관계를 유추하여 Right Answ..
Summary Dimension Reduction(차원 축소) Dimension Reduction 기초 Dimension Reduction 적용 분야 Dimension Reduction의 목표 PCA(주성분 분석) 기초 PCA 개념 PCA 플로우 Main Dimension Reduction Dimension Reduction 기초 Dimension(차원)의 이해 차원은 데이터 샘플과 관련된 차원, 기능 또는 변수의 수 스프레스 시트를 예로 들 때, 시트의 여러 열을 생각할 수 있는데, 각 샘플은 새로운 행에 있고 각 열은 샘플의 속성들을 설명함 Dimension Reduction(차원 축소)의 필요 변수를 축약하여 정보를 쉽게 표현(고차원 변수 -> 저차원 주성분 선택) 에코 심전도 데이터의 예 에코 심..