본문 바로가기
Programing/R

[R] 데이터 시각화란?

by 구루미94 2021. 10. 19.

1. 데이터 시각화의 필요성

- 데이터의 분포 특성을 눈으로 직접 확인하지 않고 통계 수치로만 확인하는 것은 매우 위험하다.

- ex) 앤스콤의 4분할

- 데이터 과학의 신뢰성을 향상시킬 수 있는 중요한 수단으로서 데이터 시각화는 필수적이다.

 

2. 시각화의 기본 요소

- 실습) gapminder 데이터에 담긴 인구 데이터를 이용해 시각화를 구성하는 기본 요소에 대해 알아보기

- gapminder data는 밑에 주소에 있음

https://haseulx-x.tistory.com/11

 

- 연도에 따른 변화를 알아보기 위해서는 각 대륙의 인구를 연도별로 정리할 필요가 있다.

- group_by와 summarize 함수를 이용한다.

 

- 이렇게 요약된 결과를 plot함수를 사용해 시각화한다.

  plot(가로축, 세로축, (option))

plot(y$year, y$c_pop)

- plot함수 옵션

   마커 색상 변경: col

   마커 모양 변경: pch

- 범례 표시: legend 함수 사용

  legend(범례위치, 범례 개수, (option))

- legend 함수 옵션은 plot함수 옵션과 동일

plot(y$year, y$c_pop, col = y$continent, pch = c(1:length(levels(y$continent))))
legend("topleft", legend = levels((y$continent)), 
       pch = c(1:length(levels(y$continent))), col = c(1:length(levels(y$continent))))
       
#levels 함수: 요인이 가지는 집단이 몇 개이며 각 집단의 이름이 무어인지 알고자할 떄 사용

 

728x90

댓글