데이터분석 기록

본문 바로가기

[Database] RDBMS 연산, 키(슈퍼키, 후보키, 기본키, 대체키, 외래키), 식별관계와 비식별관계 1. 연산의 종류 (1) select - 조건에 맞는 레코드를 선택 - ex) select * from student where 40 2022. 3. 17.

[Database] RDBMS의 기본구조 (테이블, 외래키, 정규화) 1. DBMS 란? - Database Management System (데이터베이스 관리 시스템) - 통상적으로 DB로 줄여서 표현함 2. 데이터베이스(Database) 란? - 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합 3. 관계형(Relational) DBMS 란? - Relation(관계) 란? : 동일한 구조로 이루어진 튜플(레코드)의 집합 - 테이블기반(Table based)으로 데이터 저장하는 시스템: 테이블, 컬럼, 레코드, ... - 여러 개의 테이블로 나누고 각 테이블 간의 관계를 정의하는 방식의 DBMS의 한 종류 (각 테이블 간의 관계는 외래키라는 공통컬럼을 가짐) 4. RDBMS 란? (1) DBMS - 데이터를 CRUD(Create, Retriev.. 2022. 3. 17.

[Database] 데이터의 종류 (정형, 반정형, 비정형) 1. 정형데이터 (Structured Data) : 구조가 있는 형태의 데이터 - 스키마에 따른 데이터 저장, 자유도 낮음 - ex) RDBMS, XML 형태의 데이터 2. 반정형데이터 (Semi-Structured Data) - 명확한 스키마가 없음, 어느 정도의 자유도 허용 - 데이터마다 완전히 동일한 구조를 따를 필요는 없음 - ex) 주로 NoSQL, JSON 형태의 데이터 - JSON - 키: 값으로 구성, 배열 [ ], 오브젝트 { } - 중첩 가능 - 어떤 형태의 자료구조도 표현 가능 - Schema-less 3. 비정형데이터 (Unstructured Data) - 구조가 사실상 없음 (형식이 없음) - 비디오, 오디오 등의 멀티미디어 데이터 - ex) 일반 텍스트나 웹자료 등 - 웹 검색이.. 2022. 3. 17.

R 오류 해결법 <In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : EOF within quoted string> 이러한 오류가 발생하게 되면 UTF-8 인코딩 된 csv 파일이 제대로 읽히지 않게 된다. Sys.setlocale(category = "LC_CTYPE", locale = "C") # 강제로 언어를 삭제 이 코드를 사용하면 오류가 해결된다. 대신 파일을 불러온 후 Sys.setlocale("LC_ALL","Korean") # 언어를 한글로 재설정해준다. 2021. 12. 17.

R <RHINO 설치방법> 위의 폴더를 다운 받고 R 라이브러리 폴더에 넣는다. (R 라이브러리 경로는 .libPath() 함수를 입력해서 찾을 수 있다.) 설치가 완료되면 1. library(RHINO) 2. initRhino() 를 입력한다. 2021. 12. 13.

R <KoNLP 설치 방법> R 버전이 높아지면서 KoNLP가 설치가 까다로워졌다. 유튜브, 교수님께서 알려주신 방법 다 안됐는데 밑의 방법으로 KoNLP가 설치 되었다.. (아래 코드를 한줄 한줄 입력하시면 됩니다.) 1. install.packages("multilinguer") 2. multilinguer::install_jdk() 3. install.packages("KoNLP", repos = c("https://forkonlp.r-universe.dev", "https://cloud.r-project.org"), INSTALL_opts = c("--no-multiarch") ) 2021. 12. 12.

R 오류 해결법 <윈도우즈 폰트데이터베이스에서 찾을 수 없는 폰트페밀리입니다> R에서 윈도우즈 폰트데이터베이스에서 찾을 수 없는 폰트페밀리입니다 오류날 때 1. install.packages("extrafont") 2. library(extrafont) 3. font_import(paths=NULL, recursive = TRUE, prompt=TRUE, pattern=NULL) 4. 뜨는 질문에 y 입력 - 30분 정도 소요됨 2021. 12. 12.

[R] 랜덤 포리스트 1. 랜덤 포리스트 랜덤 포리스트: 여러 개의 결정 트리를 결합하여 성능을 향상하는 앙상블 기법 (랜덤 포리스트는 포리스트에 나무가 많다는 데 착안하여 생긴 이름이다. 여러 개의 결정 트리를 만들 때 난수를 사용하기 때문에 랜덤이라는 단어가 붙어 있다.) 요소 분류기: 앙상블 기법에서의 각각의 분류기 약한 분류기: 성능이 그리 뛰어나지 않은 분류기 2. 랜덤 포리스트의 원리 - 앙상블 기법은 요소 분류기로 약한 분류기를 주로 사용한다. - 때로는 일부러 기본 성능을 약간 넘는 아주 낮은 성능을 지닌 분류기를 만들기도 한다. - 이때 요소 분류기가 서로 독립적일수록 결합 성능이 좋아지기 때문에 요소 분류기를 만들 때 난수를 사용하여 독립성을 확보한다. - 결정 트리에서는 루트 노드의 질문을 만들 때 여러 .. 2021. 12. 2.

[R] 결정 트리의 해석 1. summary 함수로 결정 트리 해석하기 - summary 함수를 사용하면 결정 트리의 내용을 보다 상세하게 알 수 있다. - variable importance 행은 설명 변수의 중요성을 순서대로 보여준다. - P(node)는 이 노드에 도달할 확률 2. 결정 트리 시각화하기 (rpart.plot 라이브러리 사용) library(rpart.plot) rpart.plot(r, type = 4) 3. 결정 트리의 장점과 단점 ① 장점 - 결정 트리의 예측 결과는 해석이 가능하다. - 예측 과정이 매우 빠르다. - 여러 개의 결정 트리를 결합하면 높은 성능의 예측기를 만들 수 있다. - 결측값을 가진 샘플을 처리할 수 있다. - 범주형 변수를 그대로 사용할 수 있다. ② 단점: 성능이 낮다. -> 높은.. 2021. 12. 1.

이전 1 2 3 4 5 ··· 7 다음

티스토리툴바