본문 바로가기
R <RHINO 설치방법> 위의 폴더를 다운 받고 R 라이브러리 폴더에 넣는다. (R 라이브러리 경로는 .libPath() 함수를 입력해서 찾을 수 있다.) 설치가 완료되면 1. library(RHINO) 2. initRhino() 를 입력한다. 2021. 12. 13.
R 오류 해결법 <윈도우즈 폰트데이터베이스에서 찾을 수 없는 폰트페밀리입니다> R에서 윈도우즈 폰트데이터베이스에서 찾을 수 없는 폰트페밀리입니다 오류날 때 1. install.packages("extrafont") 2. library(extrafont) 3. font_import(paths=NULL, recursive = TRUE, prompt=TRUE, pattern=NULL) 4. 뜨는 질문에 y 입력 - 30분 정도 소요됨 2021. 12. 12.
[R] 결정 트리의 해석 1. summary 함수로 결정 트리 해석하기 - summary 함수를 사용하면 결정 트리의 내용을 보다 상세하게 알 수 있다. - variable importance 행은 설명 변수의 중요성을 순서대로 보여준다. - P(node)는 이 노드에 도달할 확률 2. 결정 트리 시각화하기 (rpart.plot 라이브러리 사용) library(rpart.plot) rpart.plot(r, type = 4) 3. 결정 트리의 장점과 단점 ① 장점 - 결정 트리의 예측 결과는 해석이 가능하다. - 예측 과정이 매우 빠르다. - 여러 개의 결정 트리를 결합하면 높은 성능의 예측기를 만들 수 있다. - 결측값을 가진 샘플을 처리할 수 있다. - 범주형 변수를 그대로 사용할 수 있다. ② 단점: 성능이 낮다. -> 높은.. 2021. 12. 1.
[R] 결정 트리 함수의 사용 (rpart) 1. iris 데이터에 rpart 적용하기 설명 변수: 꽃받침의 길이와 너비, 꽃잎의 길이와 너비 반응 변수: {setosa, versicolor, virginica}의 3개 부류를 가진 Species r = rpart(Species~., data = iris) 첫 번째 매개변수: '반응 변수 ~ 설명 변수로 정의되는 수식' 형태 iris의 경우 4개의 설명 변수를 모두 사용하므로 수식을 Species~. 형식으로 지정 두 번째 매개변수: iris 데이터를 사용한다는 사실을 알려준다. 참고) 반응 변수는 범주형이여야한다. 만일 범주형이 아니라면 범주형으로 변환한 다음에 사용하거나 rpart(···.,method='class')옵션을 설정해야 한다. 그렇지 않으면 rpart가 분류가 아닌 회귀로 작동한다... 2021. 11. 30.
[R] 결정 트리의 원리 1. 결정 트리 스무고개와 비슷한 원리로 분류 문제를 해결한다. '예'와 '아니요'에 해당하는 2개의 가지를 뻗는다. 2. 용어 정리 노드: 문제에 해당하는 곳 루트 노드: 맨 꼭대기에 있는 노드 리프 노드: 자식이 없는 노드 에지: 부모 노드와 자식 노드를 연결하는 선 트리: 위의 사진과 같은 전체 구조 이진 트리: 모든 노드가 2개 이하의 자식 노드만 가진 것 깊이: 가장 깊은 레벨의 트리의 깊이 -> 트리는 계층 구조를 표현하는데, 루트 노드는 레벨 0, 그 자식 노드는 레벨 1, 그 자식 노드는 레벨 2에 해당한다. 위의 사진의 이진 트리 깊이는 3이다. 2021. 11. 30.
[R] 회귀와 분류 1. 회귀와 분류 회귀: 반응 변수가 연속인 경우의 모델링 문제 분류: 반응 변수가 연속이 아닌 몇 가지 부류 값을 가지는 문제 2. 분류 문제를 푸는 기법 - 결정트리 - 랜덤 포리스트 - K-NN - 신경망 - 딥러닝 3. 이진 분류 반응 변수가 가질 수 있는 값을 부류 레이블이라고 하는데 보통 줄여서 부류 또는 레이블이라 부른다. 그 중 부류의 개수가 2개인 분류 문제를 이진 분류라고 한다. 2021. 11. 30.
[R] 모델링과 예측: 선형 회귀(목차) 목차 1. 모델링과 예측이란? 2. 현실 셰계의 모델링 3. 단순 선형 회귀 4. 단순 선형 회귀의 적용: cars데이터 5. 모델의 통계량 해석 6. 다중 선형 회귀 7. 다중 선형 회귀의 적용: trees데이터 2021. 11. 30.
[R] 데이터 구조 변경 * 실습에서 사용한 1인당 전기 생산량 데이터/ 전기 사용량 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. names와 substr함수를 사용해서 연도를 나타내는 열의 X문자 제거 2. 같은 방식으로 전기 사용량 데이터 파일에 연도 이름에서 불필요한 문자 제거 3. elec_gen과 elec_use 데이터 병합 - 데이터가 가로로 되어있어서 보기 불편 - 가로형 데이터를 세로형 데이터로 만들기 위해 gather함수 사용 gather(key='key', value='value') cf) gather 함수와 반대되는 함수는 spread 함수이다. - 재구성된 데이터 프레임을 merge 함수를 이용해 하나의 데이터 프레임으로 병합 2021. 10. 18.
[R] 모델링을 위한 가공 * 실습에서 사용한 wine 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 데이터 프레임의 열 이름 읽고 쓰기 - 실습) wine.names.text 파일을 읽어들여 wine 데이터의 열 이름으로 지정한다. - names 함수: 데이터프레임 변수명 변경 - nchar 함수: 문자열의 길이 cf) R에서 length 함수는 변수 값의 개수를 반환하는 함수! - substr 함수: 문자열 일부를 추출 substr(문자열, 시작, 끝) 2. 데이터 셋 분할하기 - 모델을 학습하는데 필요한 학습 데이터(train 데이터)와 구해진 모델이 적절한지 검증하기 위한 데이터(test 데이터)는 주어진 데이터 셋을 일정 비율로 분할하여 얻게 된다. - dplyr에서 제공하는 sample_frac나 sam.. 2021. 10. 18.