본문 바로가기
Programing/R

[R] 모델링을 위한 가공

by 구루미94 2021. 10. 18.

* 실습에서 사용한 wine 데이터.

wine.names.text
0.00MB
wine.data.text
0.01MB

* 아래의 실습은 Colab에서 진행하였습니다.

 

1. 데이터 프레임의 열 이름 읽고 쓰기

- 실습) wine.names.text 파일을 읽어들여 wine 데이터의 열 이름으로 지정한다.

- names 함수: 데이터프레임 변수명 변경

- nchar 함수: 문자열의 길이

cf) R에서 length 함수는 변수 값의 개수를 반환하는 함수!

- substr 함수: 문자열 일부를 추출

  substr(문자열, 시작, 끝)

 

2. 데이터 셋 분할하기

- 모델을 학습하는데 필요한 학습 데이터(train 데이터)와 구해진 모델이 적절한지 검증하기 위한 데이터(test 데이터)는 주어진 데이터 셋을 일정 비율로 분할하여 얻게 된다.

- dplyr에서 제공하는 sample_frac나 sample_n 함수를 사용하면 분할을 간편하게 할 수 있다.

 

728x90

댓글