본문 바로가기
[R] 데이터 시각화의 기본 기능_많은 양의 데이터를 효과적으로 관찰 1. 시각화를 사용했을 때 나타나는 효과 - 직관(insight)를 얻을 수 있다. - 핵심을 명확하게 이해할 수 있다. - 평균적인 경향과 더불어 이상값(outlier)도 발견할 수 있다. - 데이터에서 문제를 빨리 찾아낼 수 있다. 2. gapminder 데이터의 직관적 이해 - 요약 통계를 추출하는 과정 없이도 시각화를 통해 데이터를 직관적으로 이해할 수 있다. - 실습) gapminder 데이터에서 1인당 GDP에 따른 기대 수명을 대륙별로 살펴본다.(로그 스케일 사용) plot(log10(gapminder$gdpPercap), gapminder$lifeExp, col = gapminder$continent) legend("bottomright", legend = levels((gapminder$.. 2021. 10. 20.
[R] 데이터 시각화란? 1. 데이터 시각화의 필요성 - 데이터의 분포 특성을 눈으로 직접 확인하지 않고 통계 수치로만 확인하는 것은 매우 위험하다. - ex) 앤스콤의 4분할 - 데이터 과학의 신뢰성을 향상시킬 수 있는 중요한 수단으로서 데이터 시각화는 필수적이다. 2. 시각화의 기본 요소 - 실습) gapminder 데이터에 담긴 인구 데이터를 이용해 시각화를 구성하는 기본 요소에 대해 알아보기 - gapminder data는 밑에 주소에 있음 https://haseulx-x.tistory.com/11 - 연도에 따른 변화를 알아보기 위해서는 각 대륙의 인구를 연도별로 정리할 필요가 있다. - group_by와 summarize 함수를 이용한다. - 이렇게 요약된 결과를 plot함수를 사용해 시각화한다. plot(가로축, 세.. 2021. 10. 19.
[R] 데이터 구조 변경 * 실습에서 사용한 1인당 전기 생산량 데이터/ 전기 사용량 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. names와 substr함수를 사용해서 연도를 나타내는 열의 X문자 제거 2. 같은 방식으로 전기 사용량 데이터 파일에 연도 이름에서 불필요한 문자 제거 3. elec_gen과 elec_use 데이터 병합 - 데이터가 가로로 되어있어서 보기 불편 - 가로형 데이터를 세로형 데이터로 만들기 위해 gather함수 사용 gather(key='key', value='value') cf) gather 함수와 반대되는 함수는 spread 함수이다. - 재구성된 데이터 프레임을 merge 함수를 이용해 하나의 데이터 프레임으로 병합 2021. 10. 18.
[R] 모델링을 위한 가공 * 실습에서 사용한 wine 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 데이터 프레임의 열 이름 읽고 쓰기 - 실습) wine.names.text 파일을 읽어들여 wine 데이터의 열 이름으로 지정한다. - names 함수: 데이터프레임 변수명 변경 - nchar 함수: 문자열의 길이 cf) R에서 length 함수는 변수 값의 개수를 반환하는 함수! - substr 함수: 문자열 일부를 추출 substr(문자열, 시작, 끝) 2. 데이터 셋 분할하기 - 모델을 학습하는데 필요한 학습 데이터(train 데이터)와 구해진 모델이 적절한지 검증하기 위한 데이터(test 데이터)는 주어진 데이터 셋을 일정 비율로 분할하여 얻게 된다. - dplyr에서 제공하는 sample_frac나 sam.. 2021. 10. 18.
[R] 데이터 시각화(목차) 목차 1. 데이터 시각화란? https://haseulx-x.tistory.com/31 2. 시각화의 기본 기능 (1) 많은 양의 데이터를 효과적으로 관찰 https://haseulx-x.tistory.com/32 (2) 데이터를 여러 관점에서 보게 함 https://haseulx-x.tistory.com/33 3. 시각화 도구 (1) 베이스 R을 이용한 데이터 시각화 https://haseulx-x.tistory.com/34 (2) ggplot2 라이브러리를 이용한 데이터 시각화 https://haseulx-x.tistory.com/35 2021. 10. 15.
[Machine Learning] Colab Mount 하기 (구글 드라이브 파일 불러오기) 드라이브에 있는 파일을 Colab에서 사용하고 싶을 때 사용하는 방법. 마운트 전에 Colab에서 사용할 파일을 미리 구글 드라이브에 업로드 하는 것은 필수. 1. 드라이브 마운트 버튼 누르기 2. Google Drive에 연결 버튼 누르기 3. URL에 들어가 로그인하고 코드 넣기 4. 마운트 완료 2021. 10. 14.
[SQL] 데이터 정렬하기 데이터 정렬 - ORDER BY 절을 사용한다. ORDER BY 절 형태 정렬 방식 ORDER BY col1, col2 col1 컬럼 오름차순 후, col2 컬럼 오름차순 정렬 ORDER BY col1 DESC, col2 col1 컬럼 내림차순 후, col2 컬럼 오름차순 정렬 ORDER BY col2 ASC, col1 DESC col2 컬럼 오름차순 후, col1 컬럼 내림차순 정렬 ORDER BY 1, 2 SELECT 절에 명시한 첫 번째와 두 번쨰 컬럼을 순서대로 오름차순 정렬 2021. 10. 12.
[SQL] 조건에 맞는 데이터 조회하기 1. 조건 연산자 - WHERE 절의 조건식에 사용하는 연산자 조건연산자 기능 = 두 값이 같을 때 참 !=, 두 값이 다를 때 참 > 왼쪽 값이 오른쪽 값보다 클 때 참 = 왼쪽 값이 오른쪽 값보다 크거나 같을 때 참 와 < 연산자를 사용해야한다. 2021. 10. 12.
[SQL] SELECT 문의 기본 구문 SELECT 구문 select column1, column2, ... from 테이블명 where 조건 order by 정렬 순서; 1. SELECT 절 - 테이블에서 선택할 컬럼이나 표현식을 명시 - cf) 표현식? 하나 이상의 값, 연산자, SQL 함수가 결합된 식 - ex) '1+1' 또는 'column1 _ column2' - 컬럼명 대신 '*'를 명시하면 테이블에 있는 전체 컬럼을 선택하는 것 2. FROM 절 - 조회하고자 하는 테이블 명시 - 여러개의 테이블을 가져올 때는 테이블을 콤마로 구분 3. WHERE 절 - 테이블의 데이터 중 특정 조건에 맞는 데이터를 가져오고자 할 때 그 조건을 기술 - 생략가능하지만 생략하면 해당 테이블의 모든 데이터를 가져오게 된다. 4. ORDER BY 절 .. 2021. 10. 11.