데이터 분석(data analysis)이란?
: 유용한 정보를 발굴하고 결론적인 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정
* 대기업은 데이터웨어하우스(DW)와 데이터마트(DM)를 통해 분석 데이터를 가져와서 사용
* 또는 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와서 활용
정형 데이터란?
- 미리 정의된 구조 또는 모형을 따르는 데이터
- DB와 DW에 저장
비정형 데이터란?
- 정의된 구조가 없이 정형화되지 않은 데이터
- ex. 동영상 파일, 오디오 파일, 사진, 보거서, 메일 본문 등
- 데이터 구조가 없어 비정형 데이터 자체만으로는 내용에 대한 질의 처리를 할 수 없다
* 공간분석(GIS) : 공간적 차원과 관련된 속성들을 시각화하는 분석 (ex. 지도 등)
* 탐색적 자료 분석(EDA) : 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로 구조적 관계를 알아내기 위한 기법들의 통칭, 다양한 차원과 값을 조합해가며 도출 (ex. violinplot, 상관관계 등)
* 통계분석 : 일정한 체계에 따라 숫자와 표, 그림의 형태로 표현
데이터마이닝이란?
: 결과를 예측하기 위해 대량의 데이터 세트에서 이상점과 패턴 및 상관 관계를 찾아내는 프로세스
: 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법
> 데이터 베이스에서의 지식탐색, 기계학습, 패턴인식
> 데이터 마이닝에서의 성능 평가 : 정확도, 정밀도, 디텍트 레이트, 리프트 등
'빅데이터 > 데이터분석' 카테고리의 다른 글
| #데이터분석 #코딩테스트 #pandas 많이 나오는 함수 (1) | 2024.05.03 |
|---|