Bayesian Optimization 코드 (Optuna, HyperOpt)
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다.개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!)1. Optuna 사용 가이드✅주요 개념Study: 전체 최적화 과정의 단위. (Trial을 여러 번 실행하며 최적의 하이퍼파라미터를 찾아나감)Trial: 특정 하이퍼파라미터 조합으로 모델을 평가하는 1번의 시도Objective Function: 최적화하려는 대상 함수. ( 각 Trial의 성능을 평가하고 반환함)0) 라이브러리 및 데이터 준비optuna 없으면 `pip install optuna`로 설치하고 시작import numpy as npimport pandas as pdimport optuna # Optuna 라이브러리import xgboost ..
[데이터마이닝] eXplainable AI ② LIME, SHAP
·
ML & DL/데이터마이닝
[데이터마이닝] 데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.지난 시간에 이어 계속 eXplainable AI (설명 가능한 인공지능) 에 대한 내용을 다룹니다. 모델에 관계없이 사용 가능한 Model-Agnostic method를 다루고 있으며, PDP, ICE, Feature Importance에 이어서 LIME과 SHAP에 대해 살펴보겠습니다.앞서 살펴본 PDP와 ICE는 입력과 출력의 관계를 적절히 시각화함으로써 해석력을 얻었다면, 지금부터 볼 LIME과 SHAP은 설명을 위한 대리모델(surrogate model, explanatio..
[데이터마이닝] eXplainable AI ① PDP, ICE, Feature Importance
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.우리는 앞서 트리 기반 모델을 다룰 때 앙상블을 통해 모델의 성능을 강력하게 높일 수 있음을 배웠습니다.그런데 여기서 다시 한 가지 의문이 들 수 있어요. Decision Tree의 장점은 명확한(해석 가능한) 규칙의 집합을 만들어 ‘의사 결정’에 직관적으로 도움을 준다는 것이었는데, 앙상블은 그런 트리가 수십, 수백 개가 모여서 작동합니다. 그렇다면 그 앙상블 모델의 결과에 대해서는 대체 어떻게 설명할 수 있을까요?학습 매커니즘을 일일이 설명할 수는 있겠지만, 더이상 원래의 트리모델처럼 명확한 규..
[데이터마이닝] 클러스터링 알고리즘
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.지도학습의 대표 격인 트리 기반 모델에 대해 알아봤으니, 이젠 비지도학습 차례입니다. 비지도학습의 대표적인 알고리즘인 클러스터링(clustering)의 세계로 들어가봅시다.1. 클러스터링 개요1.1. Background지도학습은 입력(X)과 정답(Y)이 모두 존재하여 둘의 관계를 찾아내는 것이 목표인 반면, 비지도학습은 정답(Y)없이 입력(X)의 내재적 특징을 찾는 것이 목표였죠. 그중에서도 아래 그림처럼 비슷한 객체끼리 묶어주는 것을 ‘군집화(clustering)’라고 합니다.군집화(cluster..
[데이터마이닝] 앙상블 학습 (Ensemble learning)
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro. 지난 스터디 때 지도학습의 대표 알고리즘으로 DecisionTree를 다뤘습니다. 단일한 Decision Tree 모델로는 생각보다 일반화 성능을 높이기 쉽지 않은데요. 모델의 성능을 높이려면 트리를 복잡하게 분기해야 하는데, 복잡해질수록 과대적합이 되는 딜레마가 있기 때문입니다. (즉, DecisionTree는 기본적으로 ‘Non-robust’하고 Variance가 큰 모델입니다.)그런데 단일한 Decision Tree를 여러 개 모아서 활용하는 '앙상블' 기법을 사용하면 이러한 한계를 극복할 ..
[데이터마이닝] 트리 모델 가지치기(Pruning)
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.지난 스터디에서는 트리 알고리즘의 기본적인 학습 과정을 배웠습니다. 트리 알고리즘의 핵심은 아래 2가지 질문으로 볼 수 있었는데, 지난 시간에 배운 내용은 그 중에서 "어떻게 분기할 것인가"에 대한 내용이었습니다. 🔑Key Ideas in Decision Tree (트리 알고리즘의 핵심이 되는 2가지 질문)1. 어떻게 분기할 것인가?▶ 1회성 분기가 아니라, 반복적으로 분기하자! = 재귀적 분기(Recursive Partitioning)▶ “잘” 분기하자! = 정보이득이 커지는 방향으로! (분류는..
[데이터마이닝] 의사 결정 나무(Decision Tree)
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.이번 시간에는 지도학습의 대표적인 알고리즘 중 하나인 의사 결정 나무(Decision Tree)에 대해 다룹니다. 단순해보일 수 있지만 강력한 성능의 앙상블 모델(XGBoost, LightGBM 등)의 기반이 되는 중요한 알고리즘입니다. 1. Decision Tree 소개1.1. 기본 아이디어의사결정나무(Decision Tree)는 간단한 규칙들을 논리적으로 결합한 순차적 모델(sequential model)로, 흔히 아는 스무고개와 비슷한 매커니즘이라고 이해하면 편합니다. 데이터를 잘 나눌 수 있..
[데이터마이닝] 하이퍼파라미터 튜닝 (Grid search, Random search, Bayesian optimization)
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하면서 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며, 개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.머신러닝은 인간의 개입을 최소화한 기계학습 방법이긴 하지만, 여전히 인간의 역할이 존재합니다. 인간이 통상 어떤 기계를 사용할 때도 기본적인 설정을 해줘야 하듯이, 머신러닝 모델을 구성할 때도 학습을 제어하는 데 필요한 설정을 어느 정도 직접 해주어야 하는 것이죠. 이전 포스팅에서 봤듯이, 모델에서 학습되지 않고 사용자가 직접 세팅해야 하는 설정(매개변수)을 ‘하이퍼 파라미터(Hyper-paremeter)’라고 합니다. 그리고 그러한 설정들 중 가장 성능을 좋게 만드는 설정을 찾아나가는 과정을 '..
[데이터마이닝] 지도학습의 기본 원리 (MSE Decomposition, Variance-Bias Trade off)
·
ML & DL/데이터마이닝
데이터마이닝에 관한 스터디를 진행하고자 정리한 내용입니다. 참고한 자료들은 아래에 따로 정리해두었으며,개인 공부 과정에서 틀린 부분이 있을 수 있습니다. (잘못된 부분은 알려주시면 수정하겠습니다!) Intro.데이터마이닝을 위해 사용할 머신러닝 알고리즘의 대부분은 지도학습 방법론입니다. 따라서 지도학습의 이론적인 원리에 대해 살펴보고, 아주 간단한 알고리즘인 KNN 모델에 적용해봅시다.※머신러닝에 관한 기본적인 배경 지식(독립변수와 종속변수, 훈련 데이터와 평가 데이터 등)에 대한 설명은 생략했습니다. 1. 지도학습의 기본 원리 지도학습의 기본 format을 수학적인 형태로 나타내면 위와 같습니다. (ex. 예시는 집값 예측으로 가정)여기서 $X$는 독립변수들(ex. 방 크기, 화장실 개수 등)이고, $..