1. 데이터 시각화의 필요성
- 데이터의 분포 특성을 눈으로 직접 확인하지 않고 통계 수치로만 확인하는 것은 매우 위험하다.
- ex) 앤스콤의 4분할
- 데이터 과학의 신뢰성을 향상시킬 수 있는 중요한 수단으로서 데이터 시각화는 필수적이다.
2. 시각화의 기본 요소
- 실습) gapminder 데이터에 담긴 인구 데이터를 이용해 시각화를 구성하는 기본 요소에 대해 알아보기
- gapminder data는 밑에 주소에 있음
https://haseulx-x.tistory.com/11
- 연도에 따른 변화를 알아보기 위해서는 각 대륙의 인구를 연도별로 정리할 필요가 있다.
- group_by와 summarize 함수를 이용한다.
- 이렇게 요약된 결과를 plot함수를 사용해 시각화한다.
plot(가로축, 세로축, (option))
plot(y$year, y$c_pop)
- plot함수 옵션
마커 색상 변경: col
마커 모양 변경: pch
- 범례 표시: legend 함수 사용
legend(범례위치, 범례 개수, (option))
- legend 함수 옵션은 plot함수 옵션과 동일
plot(y$year, y$c_pop, col = y$continent, pch = c(1:length(levels(y$continent))))
legend("topleft", legend = levels((y$continent)),
pch = c(1:length(levels(y$continent))), col = c(1:length(levels(y$continent))))
#levels 함수: 요인이 가지는 집단이 몇 개이며 각 집단의 이름이 무어인지 알고자할 떄 사용
728x90
'Programing > R' 카테고리의 다른 글
[R] 데이터 시각화의 기본 기능_데이터를 여러 관점에서 보게 함 (0) | 2021.10.22 |
---|---|
[R] 데이터 시각화의 기본 기능_많은 양의 데이터를 효과적으로 관찰 (0) | 2021.10.20 |
[R] 데이터 구조 변경 (0) | 2021.10.18 |
[R] 모델링을 위한 가공 (0) | 2021.10.18 |
[R] 방대한 데이터 요약 (0) | 2021.10.11 |
댓글