본문 바로가기
[R] 데이터 시각화의 기본 기능_많은 양의 데이터를 효과적으로 관찰 1. 시각화를 사용했을 때 나타나는 효과 - 직관(insight)를 얻을 수 있다. - 핵심을 명확하게 이해할 수 있다. - 평균적인 경향과 더불어 이상값(outlier)도 발견할 수 있다. - 데이터에서 문제를 빨리 찾아낼 수 있다. 2. gapminder 데이터의 직관적 이해 - 요약 통계를 추출하는 과정 없이도 시각화를 통해 데이터를 직관적으로 이해할 수 있다. - 실습) gapminder 데이터에서 1인당 GDP에 따른 기대 수명을 대륙별로 살펴본다.(로그 스케일 사용) plot(log10(gapminder$gdpPercap), gapminder$lifeExp, col = gapminder$continent) legend("bottomright", legend = levels((gapminder$.. 2021. 10. 20.
[R] 데이터 시각화란? 1. 데이터 시각화의 필요성 - 데이터의 분포 특성을 눈으로 직접 확인하지 않고 통계 수치로만 확인하는 것은 매우 위험하다. - ex) 앤스콤의 4분할 - 데이터 과학의 신뢰성을 향상시킬 수 있는 중요한 수단으로서 데이터 시각화는 필수적이다. 2. 시각화의 기본 요소 - 실습) gapminder 데이터에 담긴 인구 데이터를 이용해 시각화를 구성하는 기본 요소에 대해 알아보기 - gapminder data는 밑에 주소에 있음 https://haseulx-x.tistory.com/11 - 연도에 따른 변화를 알아보기 위해서는 각 대륙의 인구를 연도별로 정리할 필요가 있다. - group_by와 summarize 함수를 이용한다. - 이렇게 요약된 결과를 plot함수를 사용해 시각화한다. plot(가로축, 세.. 2021. 10. 19.
[R] 데이터 구조 변경 * 실습에서 사용한 1인당 전기 생산량 데이터/ 전기 사용량 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. names와 substr함수를 사용해서 연도를 나타내는 열의 X문자 제거 2. 같은 방식으로 전기 사용량 데이터 파일에 연도 이름에서 불필요한 문자 제거 3. elec_gen과 elec_use 데이터 병합 - 데이터가 가로로 되어있어서 보기 불편 - 가로형 데이터를 세로형 데이터로 만들기 위해 gather함수 사용 gather(key='key', value='value') cf) gather 함수와 반대되는 함수는 spread 함수이다. - 재구성된 데이터 프레임을 merge 함수를 이용해 하나의 데이터 프레임으로 병합 2021. 10. 18.
[R] 모델링을 위한 가공 * 실습에서 사용한 wine 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 데이터 프레임의 열 이름 읽고 쓰기 - 실습) wine.names.text 파일을 읽어들여 wine 데이터의 열 이름으로 지정한다. - names 함수: 데이터프레임 변수명 변경 - nchar 함수: 문자열의 길이 cf) R에서 length 함수는 변수 값의 개수를 반환하는 함수! - substr 함수: 문자열 일부를 추출 substr(문자열, 시작, 끝) 2. 데이터 셋 분할하기 - 모델을 학습하는데 필요한 학습 데이터(train 데이터)와 구해진 모델이 적절한지 검증하기 위한 데이터(test 데이터)는 주어진 데이터 셋을 일정 비율로 분할하여 얻게 된다. - dplyr에서 제공하는 sample_frac나 sam.. 2021. 10. 18.
[R] 방대한 데이터 요약 * 실습에서 사용한 avocado 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 그룹 단위 통계 - 실습) 총 판매량과 평균 가격 속성을 지역, 연도, 유기농 재배 여부를 기준으로 구분하여 요약 2. 데이터 정렬과 검색 - 실습) 총 판매량을 기준으로 판매량 순위와 최댓값을 기록한 연도와 지역 알아보기 (arrange 함수 사용) 3. Date형 데이터의 활용 Date형 - 1개월은 31일, 1년은 12개월로 구성되어있다. - 일반 숫자형처럼 처리할 경우 데이터 간의 간격이 일정하지 않아서 시각화나 모델링 단계에서 잘못 적용될 수 있다. - 실습) avocado 판매 정보를 월별 평균으로 요약해보기 2021. 10. 11.
[R] dplyr 라이브러리를 이용한 데이터 가공 * 실습에서 사용한 gapminder 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 샘플과 속성의 추출 1) select 함수 사용 - 열을 지정할 때 $ 기호나 " " 없이 열 이름 그대로 사용할 수 있다. 2) filter 함수 사용 - 조건식을 사용한다는 점에서 베이스 R과 비슷하지만, 함수 내에서 인덱싱을 위해 데이터 프레임의 이름을 매번 입력하지 않아도 된다. 2. 행/ 열 단위의 연산 - group_by 함수를 사용해 데이터 프레임에 포함된 범주형 속성을 활용해 전체 데이터를 그룹으로 분류한다. - 보통 summarize 함수를 같이 사용해 통계 지표를 산출한다. 3. %>% 연산자를 사용한 연속 처리 - 파이프 연산자는 앞의 명령어를 처리한 결과를 다음 명령어로 전달하는 역할.. 2021. 10. 10.
[R] 베이스 R을 이용한 데이터 가공 * 실습에서 사용한 gapminder 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 샘플과 속성의 추출 - 데이터 프레임에서 샘플은 행, 속성은 열로 표현된다. - 실습) 캘리포니아의 1990년도 이후의 기대수명과 인구 추출 2. 행/ 열 단위의 연산 - apply 함수를 이용 apply(데이터, margin, 함수) - margin은 1이면 행, 2면 열 - 실습) 캘리포니아의 기대수명과 인구의 평균 연산. 2021. 10. 10.
[R] 이상값 처리 이상값이란? 다른 관측값과 멀리 떨어진 관측값. 이상값 처리방법 이상값으로 판단하기 어려운 경우 - boxplot을 활용하기 2021. 10. 10.
[R] 결측값 처리 결측값이란? 통계에서 누락된 데이터 또는 데이터 수집 단계에서 변수에 값이 저장되지 않아 발생하는 값. 결측값 처리방법 1. is.na 함수 사용- NA인 데이터가 있으면 T, 없으면 F로 나타낸다. 2. na.omit 함수 사용- NA가 포함된 행을 지운다. 3. 함수의 속성 이용- na.rm = T로 하여 함수 수행 시, NA를 제거한다. 2021. 10. 10.