- Syllabus
- Domain ISSUE로 Data Preprocessing with Python는 Class에서 제외
- 실제 현업에서는 데이터 분석에 있어서 Data Preprocessing이 90% 차지함
- Course Owner : Gonie Ahn
- E) : [email protected]
- Course History
Data Store - [Toy Data]
- 데이터는 .csv 형태 또는 .pickle 형태로 저장되어 있음
- .csv 형태의 파일은 브라우저가 열림
- .pickle 형태의 파일은 다운로드 되어 본인 컴퓨터에 저장 가능
- Toy Data에 몇가지 트릭을 걸어 놓음
- 스스로 전처리 잘해야함
- 주의: pickle의 경우 python 버전이 다르면 error가 날 수 있음
- 데이터를 저장하지 않고 Github Data Store에서 Python으로 바로 불러오는 법(모든 Tutorial Code에 적용 가능)
import pandas as pd
data = pd.read_csv("https://raw.githubusercontent.com/GonieAhn/Data-Science-online-course-from-gonie/main/Data%20Store/TOY_DATA.csv")
[Class01] Introduction to Data Analytics - [Slide]
- 전반적인 AI 흐름
- Data Analytics에 대한 전반적인 내용
- 기업에서 데이터 분석이 실패하는 이유
- 데이터 분석 성공 사례
- Keyword : #Data Analytics #Data Science
[Class02] Data Loading from AWS(S3) - [Slide], [Tutorial Code]
- Anaconda에서 가상환경 만드는 방법
- AWS 클라우드 Burket인 S3에서 Python 분석환경으로 데이터 Load 하는 법
- 보안 ISSUE로 KEY 값들은 삭제함
- Partitioning 되어 있는 File들을 Multiprocessing을 활용하여 빠르게 불러오는 방법 소개
- Keyword : #AWS #S3 #Multiprocessing #pickle #Virtual Environment
# Install Package
- conda install -c anaconda boto3
- conda install -c conda-forge datatable
- conda install -c conda-forge tqdm
[Class03] Basic of Data Analytics - [Slide]
- 데이터 분석에 앞서 필요한 전반적인 지식
- 데이터 종류와 변수의 종류 정의
- Regression & Classification에 대한 정의
- Keyword : #Bias VS Variance #Overfitting VS Underfitting #Loss Function #K-fold Cross Validation
[Class04] Regression Problem - [Slide], [Tutorial Code]
- Regression Loss Function
- 계수 추정
- Regression Model 평가 및 지표해석
- 데이터 실습
- 고려대학교 DMQA Lab. 김성범 교수님 강의 자료를 참고함
- Keyword : #Linear Regression #R2 #MSE
# Install Package
- pip install regressors
- Anaconda 지원 안됨, 하지만 이것 만큼 Result Summary 잘해주는 Package 없음
- 설치 안되시는 분 Class04 Tutorial Code 맨 마지막 Cell 보면 설치 정보 얻을 수 있음 (뻘짓 5시간 경험담)
[Class05] Regularized Linear Models - [Slide], [Tutorial Code]
- Feature Selection 기법 중 Embedded 기법 소개
- 계수에 Penalty Term을 주어 분석에 필요하고 중요한 변수만 선택하게 하는 기법
- 데이터 실습
- 고려대학교 DMQA Lab. 김성범 교수님 강의 자료를 참고함
- Keyword : #Ridge #LASSO # ElasticNet
[Class06] Classification Problem - [Slide], [Toturial Code]
- Classification Loss Function
- Classification Model 평가 및 지표해석
- 데이터 실습
- Keyword : #DecisionTree #ACC #Recall #Precision # F1-score #RuleExtraction
[Class07] Ensemble Learning - [Slide], [Tutorial Code]
- Ensemble의 정의 및 single model보다 좋은 이유 수식 증명
- Bagging, Boosting, Stacking에 대한 소개
- 데이터 실습
- 고려대학교 DSBA Lab. 강필성 교수님 강의 자료를 참고함
- Keyword : #RandomForest #Adaboost #Feature Importance Score
[Class08] Gradient Boosting Machine(GBM) Family - [Slide], [Tutorial Code]
- Gradient Boosting Machine 개념 설명
- GBM -> XGboost -> LightGBM -> CatBoost -> NGBoost로 발전 History 설명
- 알고리즘은 LightGBM 까지만 설명함
- 데이터 실습
- 고려대학교 DSBA Lab. 강필성 교수님 강의 자료를 참고함
- Keyword : #Missing Value Handling #Bigdata Learning #GBM #XGBoost #LightGBM #Feature Importance Score
- Reference site
- XGboost - Hyperparameter Tuning
- LightGBM - Hyperparameter Tuning
# Install Package
- conda install -c conda-forge xgboost
- conda install -c conda-forge lightgbm
[Class09] eXplainable Method For High Complexity Models - [Slide], [Tutorial Code]
- 복잡한 모델을 해석하기 위한 기법 소개
- Global Feature Importance Score VS Local Feature Importance Score
- Interpretable Meachine Learning을 활용한 원인 분석 소개
- 데이터 실습
- Keyword : #IML #Global VS Local #LIME #SHAP
- Reference site
- Interpretable Machine Learning (IML)
- LIME
- SHAP
# Install Package
- conda install -c conda-forge shap
[Class10] Clustering & Dimensionality Reduction - [Slide], [Tutorial Code]
- Unsupervised Learning을 활용하여 최적의 X's 조합을 도출하는 방법 소개
- 복잡한 Supervised Learning을 탈피하여 고효율군을 이루는 X's들의 조합을 찾는 새로운 기법 제시
- Dimensionality Reduction을 활용하여 cluster의 분포 확인
- Dimensionality Reduction을 활용한 Anormaly Detection 방법
- 데이터 실습
- Keyword : #Distance #K-means #Hierarchical Clustering #HDBSCAN #Spectral #PCA #T-SNE #Autoencoder
- Reference site
- Clustering - 다양한 데이터에 여러 개의 Cluster 기법을 실험해 놓음
- HDBSCAN - 개념정리
# Install Package
- conda install -c conda-forge hdbscan
- Data Mining & Quality Analytics Lab @Korea University : Machine Learning, Deep Learning, Artifical Intelligence
- Lab Homepage : http://dmqa.korea.ac.kr/
- Lab Seminar : http://dmqa.korea.ac.kr/activity/seminar
- YouTube Video : https://www.youtube.com/channel/UCueLU1pCvFlM8Y8sth7a6RQ
- Data Science & Business Analytics Lab @Korea University : Machine Learning, Deep Learning, Artifical Intelligence
- Lab Homepage : http://dsba.korea.ac.kr/
- Lab Seminar : http://dsba.korea.ac.kr/seminar/
- YouTube Video : https://www.youtube.com/channel/UCPq01cgCcEwhXl7BvcwIQyg
- Applied Artifical Intelligence @KAIST : Machine Learning, Deep Learning, Artifical Intelligence
- Lab Homepage : https://aai.kaist.ac.kr/index.php
- YouTube Video : https://www.youtube.com/@kaistmooc_kooc/videos
- Top 50 matplotlib Visualization Code - 초강추!!!
- 전반적인 Plotting Reference (Scatter size, form, plot 종류 등등등)
- Bubble size 조정하면서 Scatter plot 그리는 방법 Reference
- Color bar 종류
- The Next Level of Data Visualization in Python
- BOKEH