본문 바로가기
Machine Learning with Python

5_트리의 앙상블(Ensemble Learning)

by Hot김치 2022. 7. 5.

결정트리 + 앙상블

1) 첫단계, 결정 트리에 대하여 가볍게 이해하도록 하자.

2) 두번째, 앙상블의 종류와 의미를 생각해 보자.

 

첫번째로, 

결정트리(Decision Tree)란 머신러닝 알고리즘 중 하나로, flowchart 같은 구조를 가지고 있다. 이러한 구조로 인하여 다른 사람에게 설명하기 쉬운 모델로 스무고개와 같은 논리를 가지고 동작한다.

추가적으로 모델의 모형이 나무(Tree)형태라 하여 위와 같이 불린다.

타이타닉 예제

여기로 중요한 포인트는 얼마나 데이터를 잘 나눌 수 있느냐 혹은 계속 질문을 추가해서 분류 정확도를 높일 수 있느냐라는 점이다. 이러한 좋은 질문 혹은 데이터를 잘 나누는 기준이 되는 것이 gini(지니 불순도: Gini impurity) 라고 합니다.

 

  • 결정트리 모델은 부모노드(상위)와 자식노드(하위)의 불순도의 차이가 가능한 크도록 트리를 성장시킨다.
  • 이런 부모와 자식 노드 사이의 불순도 차이를 정보 이득(information gain)이라고 한다.
  • 즉, 정보 이득(information gain)이 최대가 되도록 결정 트리는 데이터를 나누는 행동을 반복한다.
  • criterion = 'entropy' 설정할 경우, 밑이 2인 로그로 표현.