본문 바로가기
[기초통계학] 확률론 1. 수학적 확률 - 일정한 조건 아래 동일한 실험을 지속적으로 N회 반복했을 때, 사건 A가 n번 발생할 확률 P(A) = n(A)/N - 확률은 0~1의 값을 가진다. - 모든 사건에 대한 확률의 합은 1이다. - E: 사건, i: 시행 횟수, P: 확률 2. 통계적 확률 - 반복적인 실행을 n번 해서 사건 A가 일어난 횟수를 r이라 했을 때, n을 충분히 크게 한다면 상대도수로 나타나는 r/n은 일정한 확률값 p로 근사하게 된다. 이때 p를 사건 A가 발생할 통계적확률 또는 경험적 확률이라고 한다. 3. 확률의 덧셈법칙 P(A∪B) = P(A) + P(B) - P(A∩B) 4. 조건부 확률 - 조건부 확률: 사건 A가 먼저 발생하고 이어서 B가 발생하는 사건 P(B|A) = P(A∩B) / P(A).. 2021. 10. 10.
[기초통계학] 확률과 통계(목차) 목차 1. 확률과 의사결정 1) 확률론 https://haseulx-x.tistory.com/14 2) 확률변수와 확률함수 https://haseulx-x.tistory.com/15 2. 확률변수의 평균과 분산 1) 확률변수의 평균 https://haseulx-x.tistory.com/16 2) 확률변수의 분산과 표준편차 https://haseulx-x.tistory.com/17 3) 확률변수에서 평균과 분산(표준편차)의 성질 https://haseulx-x.tistory.com/18 2021. 10. 10.
[R] dplyr 라이브러리를 이용한 데이터 가공 * 실습에서 사용한 gapminder 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 샘플과 속성의 추출 1) select 함수 사용 - 열을 지정할 때 $ 기호나 " " 없이 열 이름 그대로 사용할 수 있다. 2) filter 함수 사용 - 조건식을 사용한다는 점에서 베이스 R과 비슷하지만, 함수 내에서 인덱싱을 위해 데이터 프레임의 이름을 매번 입력하지 않아도 된다. 2. 행/ 열 단위의 연산 - group_by 함수를 사용해 데이터 프레임에 포함된 범주형 속성을 활용해 전체 데이터를 그룹으로 분류한다. - 보통 summarize 함수를 같이 사용해 통계 지표를 산출한다. 3. %>% 연산자를 사용한 연속 처리 - 파이프 연산자는 앞의 명령어를 처리한 결과를 다음 명령어로 전달하는 역할.. 2021. 10. 10.
[R] 베이스 R을 이용한 데이터 가공 * 실습에서 사용한 gapminder 데이터. * 아래의 실습은 Colab에서 진행하였습니다. 1. 샘플과 속성의 추출 - 데이터 프레임에서 샘플은 행, 속성은 열로 표현된다. - 실습) 캘리포니아의 1990년도 이후의 기대수명과 인구 추출 2. 행/ 열 단위의 연산 - apply 함수를 이용 apply(데이터, margin, 함수) - margin은 1이면 행, 2면 열 - 실습) 캘리포니아의 기대수명과 인구의 평균 연산. 2021. 10. 10.
[R] 데이터 가공(목차) 목차 1. 베이스 R을 이용한 데이터 가공 https://haseulx-x.tistory.com/11 2. dplyr 라이브러리를 이용한 데이터 가공 https://haseulx-x.tistory.com/12 3. 데이터 가공의 실제 1) 방대한 데이터 요약 https://haseulx-x.tistory.com/19 2) 모델링을 위한 가공 https://haseulx-x.tistory.com/29 3) 데이터 구조 변경 https://haseulx-x.tistory.com/30 2021. 10. 10.
[R] 이상값 처리 이상값이란? 다른 관측값과 멀리 떨어진 관측값. 이상값 처리방법 이상값으로 판단하기 어려운 경우 - boxplot을 활용하기 2021. 10. 10.
[R] 결측값 처리 결측값이란? 통계에서 누락된 데이터 또는 데이터 수집 단계에서 변수에 값이 저장되지 않아 발생하는 값. 결측값 처리방법 1. is.na 함수 사용- NA인 데이터가 있으면 T, 없으면 F로 나타낸다. 2. na.omit 함수 사용- NA가 포함된 행을 지운다. 3. 함수의 속성 이용- na.rm = T로 하여 함수 수행 시, NA를 제거한다. 2021. 10. 10.
[R] 사용자 정의 함수 사용자 정의 함수 - 라이브러리 함수 외에 사용자가 원하는 기능을 직접 구현한 함수 1 2 3 4 함수명 = function (전달인자1, 전달인자2, ...) { 함수 동작 시 수행할 코드 return(반환값) } 2021. 10. 10.
[R] 반복문 1. repeat - 블록 안의 문장을 계속 반복한다. 2. while - 조건식이 참일 때 블록 안의 문장을 수행한다. 3. for 문 - 데이터의 각 요소를 변수에 할당하면서 각각에 대해 블록 안의 문장을 수행한다. * 위의 실습은 Colab에서 진행하였습니다. 2021. 10. 10.