빅데이터/데이터분석

[빅데이터] 데이터 분석 개요

iemxl 2024. 2. 20. 22:59

데이터 분석(data analysis)이란?

: 유용한 정보를 발굴하고 결론적인 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정

 

* 대기업은 데이터웨어하우스(DW)와 데이터마트(DM)를 통해 분석 데이터를 가져와서 사용

* 또는 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와서 활용

 

정형 데이터란?

- 미리 정의된 구조 또는 모형을 따르는 데이터

- DB와 DW에 저장

 

비정형 데이터란?

- 정의된 구조가 없이 정형화되지 않은 데이터

- ex. 동영상 파일, 오디오 파일, 사진, 보거서, 메일 본문 등

- 데이터 구조가 없어 비정형 데이터 자체만으로는 내용에 대한 질의 처리를 할 수 없다

 

* 공간분석(GIS) : 공간적 차원과 관련된 속성들을 시각화하는 분석 (ex. 지도 등)

* 탐색적 자료 분석(EDA) : 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로 구조적 관계를 알아내기 위한 기법들의 통칭, 다양한 차원과 값을 조합해가며 도출 (ex. violinplot, 상관관계 등)

* 통계분석 : 일정한 체계에 따라 숫자와 표, 그림의 형태로 표현

 

데이터마이닝이란?

: 결과를 예측하기 위해 대량의 데이터 세트에서 이상점과 패턴 및 상관 관계를 찾아내는 프로세스

: 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법

> 데이터 베이스에서의 지식탐색, 기계학습, 패턴인식

> 데이터 마이닝에서의 성능 평가 : 정확도, 정밀도, 디텍트 레이트, 리프트 등