[R] dplyr 라이브러리를 이용한 데이터 가공 * 실습에서 사용한 gapminder 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 샘플과 속성의 추출 1) select 함수 사용 - 열을 지정할 때 $ 기호나 " " 없이 열 이름 그대로 사용할 수 있다. 2) filter 함수 사용 - 조건식을 사용한다는 점에서 베이스 R과 비슷하지만, 함수 내에서 인덱싱을 위해 데이터 프레임의 이름을 매번 입력하지 않아도 된다. 2. 행/ 열 단위의 연산 - group_by 함수를 사용해 데이터 프레임에 포함된 범주형 속성을 활용해 전체 데이터를 그룹으로 분류한다. - 보통 summarize 함수를 같이 사용해 통계 지표를 산출한다. 3. %>% 연산자를 사용한 연속 처리 - 파이프 연산자는 앞의 명령어를 처리한 결과를 다음 명령어로 전달하는 역할.. 2021. 10. 10. [R] 베이스 R을 이용한 데이터 가공 * 실습에서 사용한 gapminder 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 샘플과 속성의 추출 - 데이터 프레임에서 샘플은 행, 속성은 열로 표현된다. - 실습) 캘리포니아의 1990년도 이후의 기대수명과 인구 추출 2. 행/ 열 단위의 연산 - apply 함수를 이용 apply(데이터, margin, 함수) - margin은 1이면 행, 2면 열 - 실습) 캘리포니아의 기대수명과 인구의 평균 연산. 2021. 10. 10. [R] 데이터 가공(목차) 목차 1. 베이스 R을 이용한 데이터 가공 https://haseulx-x.tistory.com/11 2. dplyr 라이브러리를 이용한 데이터 가공 https://haseulx-x.tistory.com/12 3. 데이터 가공의 실제 1) 방대한 데이터 요약 https://haseulx-x.tistory.com/19 2) 모델링을 위한 가공 https://haseulx-x.tistory.com/29 3) 데이터 구조 변경 https://haseulx-x.tistory.com/30 2021. 10. 10. [R] 이상값 처리 이상값이란? 다른 관측값과 멀리 떨어진 관측값. 이상값 처리방법 이상값으로 판단하기 어려운 경우 - boxplot을 활용하기 2021. 10. 10. [R] 결측값 처리 결측값이란? 통계에서 누락된 데이터 또는 데이터 수집 단계에서 변수에 값이 저장되지 않아 발생하는 값. 결측값 처리방법 1. is.na 함수 사용- NA인 데이터가 있으면 T, 없으면 F로 나타낸다. 2. na.omit 함수 사용- NA가 포함된 행을 지운다. 3. 함수의 속성 이용- na.rm = T로 하여 함수 수행 시, NA를 제거한다. 2021. 10. 10. [R] 사용자 정의 함수 사용자 정의 함수 - 라이브러리 함수 외에 사용자가 원하는 기능을 직접 구현한 함수 1 2 3 4 함수명 = function (전달인자1, 전달인자2, ...) { 함수 동작 시 수행할 코드 return(반환값) } 2021. 10. 10. [R] 반복문 1. repeat - 블록 안의 문장을 계속 반복한다. 2. while - 조건식이 참일 때 블록 안의 문장을 수행한다. 3. for 문 - 데이터의 각 요소를 변수에 할당하면서 각각에 대해 블록 안의 문장을 수행한다. * 위의 실습은 Colab에서 진행하였습니다. 2021. 10. 10. [R] 조건문 1. [ ]에 조건을 명시해 원하는 요소 추출 - 변수명[행 조건식, 열 조건식] 2. if 문 사용 - if(조건식) 표현식 3. ifelse 문 사용 - ifelse(조건식, 참인 경우 반환값, 거짓인 경우 반환값) * 위의 실습은 Colab에서 진행하였습니다. 2021. 10. 10. [R] 파일 쓰기 R에서 데이터를 파일로 저장할 때는 read.table과 read.csv 함수를 사용할 수 있다. 1. write.table - 일반 텍스트 파일로 저장할 때 사용한다. - 옵션 문자열을 나타내는 큰따옴표를 제거하고 싶을 때: quote = F 2. write.csv - CSV 파일로 저장할 때 사용한다. 2021. 10. 10. 이전 1 2 3 다음