본문 바로가기
[R] 결정 트리 함수의 사용 (rpart) 1. iris 데이터에 rpart 적용하기 설명 변수: 꽃받침의 길이와 너비, 꽃잎의 길이와 너비 반응 변수: {setosa, versicolor, virginica}의 3개 부류를 가진 Species r = rpart(Species~., data = iris) 첫 번째 매개변수: '반응 변수 ~ 설명 변수로 정의되는 수식' 형태 iris의 경우 4개의 설명 변수를 모두 사용하므로 수식을 Species~. 형식으로 지정 두 번째 매개변수: iris 데이터를 사용한다는 사실을 알려준다. 참고) 반응 변수는 범주형이여야한다. 만일 범주형이 아니라면 범주형으로 변환한 다음에 사용하거나 rpart(···.,method='class')옵션을 설정해야 한다. 그렇지 않으면 rpart가 분류가 아닌 회귀로 작동한다... 2021. 11. 30.
[R] 결정 트리의 원리 1. 결정 트리 스무고개와 비슷한 원리로 분류 문제를 해결한다. '예'와 '아니요'에 해당하는 2개의 가지를 뻗는다. 2. 용어 정리 노드: 문제에 해당하는 곳 루트 노드: 맨 꼭대기에 있는 노드 리프 노드: 자식이 없는 노드 에지: 부모 노드와 자식 노드를 연결하는 선 트리: 위의 사진과 같은 전체 구조 이진 트리: 모든 노드가 2개 이하의 자식 노드만 가진 것 깊이: 가장 깊은 레벨의 트리의 깊이 -> 트리는 계층 구조를 표현하는데, 루트 노드는 레벨 0, 그 자식 노드는 레벨 1, 그 자식 노드는 레벨 2에 해당한다. 위의 사진의 이진 트리 깊이는 3이다. 2021. 11. 30.
[R] 회귀와 분류 1. 회귀와 분류 회귀: 반응 변수가 연속인 경우의 모델링 문제 분류: 반응 변수가 연속이 아닌 몇 가지 부류 값을 가지는 문제 2. 분류 문제를 푸는 기법 - 결정트리 - 랜덤 포리스트 - K-NN - 신경망 - 딥러닝 3. 이진 분류 반응 변수가 가질 수 있는 값을 부류 레이블이라고 하는데 보통 줄여서 부류 또는 레이블이라 부른다. 그 중 부류의 개수가 2개인 분류 문제를 이진 분류라고 한다. 2021. 11. 30.
[R] 분류를 위한 모델(목차) 목차 1. 회귀와 분류 2. 결정 트리의 원리 3. 결정 트리 함수의 사용 4. 결정 트리의 해석 5. 랜덤 포리스트 6. SVM과 K-NN 7. 분류 모델의 다양한 적용 2021. 11. 30.
[R] 일반화 선형 모델(목차) 목차 1. 일반화 선형 모델은 왜 필요한가? 2. 일반화 선형 모델 3. 로지스틱 회귀 4. 로지스틱 회귀의 적용: UCLA admission 데이터 5. 로지스틱 회귀의 적용: colon 데이터 2021. 11. 30.
[R] 모델링과 예측: 선형 회귀(목차) 목차 1. 모델링과 예측이란? 2. 현실 셰계의 모델링 3. 단순 선형 회귀 4. 단순 선형 회귀의 적용: cars데이터 5. 모델의 통계량 해석 6. 다중 선형 회귀 7. 다중 선형 회귀의 적용: trees데이터 2021. 11. 30.
[R] ggplot2 라이브러리를 이용한 데이터 시각화 1. aes 함수 - 플롯의 가로축과 세로축에 대응될 데이터의 항목을 지정한다. - 데이터 프레임 형식의 데이터를 시각화할 때 데이터 프레임의 이름을 반복 사용하지 않아도 되므로 명령어가 간결하다. - aes 내부에서 col이나 size 옵션을 활용해 플롯의 색상이나 마커의 크기 등을 속성에 대응시킬 수 있다. - 막대그래프를 그리고자 할 때는 geom_histogram 혹은 geom_bar 함수의 내부에 stat="identity" (데이터 프레임의 값을 그대로 사용해서 그래프를 그리라는 뜻)을 선택 인자로 전달해야 한다. 2. geom_point 함수 - 데이터를 점으로 표시하는 플롯을 그린다. - 내부에서 alpha 옵션을 통해 점의 불투명도(투명 0.0 ~ 불투명 1.0)를 설정할 수 있다. - .. 2021. 10. 22.
[R] 베이스 R을 이용한 데이터 시각화 1. plot 함수 - 가장 일반적인 그래프 시각화 함수로 직선, 점 등 여러 가지 형태의 플롯이 가능하다. - type="p"는 점 플롯. main="cars"는 그래프의 제목 plot(cars, type="p", main="cars") - 입력 데이터가 데이터 프레임 형식인 경우, 가로축과 세로축의 이름은 별도로 지정하지 않아도 자동으로 지정된다. - type="l"은 선을 사용한 플롯 plot(cars, type="l", main="cars") - type="b"는 점과 선을 모두 사용한 플롯 plot(cars, type="b", main="cars") - type="h"는 히스토그램과 같은 막대그래프 plot(cars, type="h", main="cars") 2. pie, barplot 함수 -.. 2021. 10. 22.
[R] 데이터 시각화의 기본 기능_데이터를 여러 관점에서 보게 함 시각화의 주요 특징 1. 비교/ 순위 - 실습) 1952년 아시아 대륙의 인구 분포에서 각 국가의 순위 gapminder %>% filter(year==1952&continent=="Asia")%>% ggplot(aes(reorder(country, pop), pop))+ geom_bar(stat="identity")+coord_flip() - reorder(x축 변수, 정렬기준변수) - stat="identity": 막대그래프 그릴 때 넣어야하는 옵션 - coord_flip(): 가로축과 세로축의 위치 변경 - 위의 그래프는 중국과 인도의 인구가 다른 국가에 비해 월등히 많아 싱가포르와 같은 인구가 적은 국가는 확인이 거의 불가. - 이런 경우 로그 스케일의 축을 사용해서 큰 값은 작게, 작은 값은 상.. 2021. 10. 22.