본문 바로가기
[R] 결정 트리의 해석 1. summary 함수로 결정 트리 해석하기 - summary 함수를 사용하면 결정 트리의 내용을 보다 상세하게 알 수 있다. - variable importance 행은 설명 변수의 중요성을 순서대로 보여준다. - P(node)는 이 노드에 도달할 확률 2. 결정 트리 시각화하기 (rpart.plot 라이브러리 사용) library(rpart.plot) rpart.plot(r, type = 4) 3. 결정 트리의 장점과 단점 ① 장점 - 결정 트리의 예측 결과는 해석이 가능하다. - 예측 과정이 매우 빠르다. - 여러 개의 결정 트리를 결합하면 높은 성능의 예측기를 만들 수 있다. - 결측값을 가진 샘플을 처리할 수 있다. - 범주형 변수를 그대로 사용할 수 있다. ② 단점: 성능이 낮다. -> 높은.. 2021. 12. 1.
[R] 결정 트리 함수의 사용 (rpart) 1. iris 데이터에 rpart 적용하기 설명 변수: 꽃받침의 길이와 너비, 꽃잎의 길이와 너비 반응 변수: {setosa, versicolor, virginica}의 3개 부류를 가진 Species r = rpart(Species~., data = iris) 첫 번째 매개변수: '반응 변수 ~ 설명 변수로 정의되는 수식' 형태 iris의 경우 4개의 설명 변수를 모두 사용하므로 수식을 Species~. 형식으로 지정 두 번째 매개변수: iris 데이터를 사용한다는 사실을 알려준다. 참고) 반응 변수는 범주형이여야한다. 만일 범주형이 아니라면 범주형으로 변환한 다음에 사용하거나 rpart(···.,method='class')옵션을 설정해야 한다. 그렇지 않으면 rpart가 분류가 아닌 회귀로 작동한다... 2021. 11. 30.
[R] 결정 트리의 원리 1. 결정 트리 스무고개와 비슷한 원리로 분류 문제를 해결한다. '예'와 '아니요'에 해당하는 2개의 가지를 뻗는다. 2. 용어 정리 노드: 문제에 해당하는 곳 루트 노드: 맨 꼭대기에 있는 노드 리프 노드: 자식이 없는 노드 에지: 부모 노드와 자식 노드를 연결하는 선 트리: 위의 사진과 같은 전체 구조 이진 트리: 모든 노드가 2개 이하의 자식 노드만 가진 것 깊이: 가장 깊은 레벨의 트리의 깊이 -> 트리는 계층 구조를 표현하는데, 루트 노드는 레벨 0, 그 자식 노드는 레벨 1, 그 자식 노드는 레벨 2에 해당한다. 위의 사진의 이진 트리 깊이는 3이다. 2021. 11. 30.