빅데이터 등장 배경
디지털 기술 발전에 따른 대규모 데이터 생성
- 데이터 생성 규모(Volume)확대
- 생성주기(Velocity)가 짧아짐
- 기존 수치 위주에서 문자, 이미지, 영상 등 다양한 형태(Variety)로 발생
빅데이터의 정의
- 명확히 합의된 정의가 없음 - 데이터 수집, 저장, 관리, 분석을 처리하는 통상의 용량을 넘어서는 Dataset 규모로, 그 정의는 주관적이며 앞으로도 기술발전에 따라 정의는 변화될 것이다. - 가장 많이 쓰이는 정의 3V + Value - 엑셀로 처리하기에 적합하지 않는 데이터 - SPSS, SAS와 같은 통계 패키지 등에 적합한 자료의 의미
3V + Value
빅데이터의 분류 및 처리과정
데이터 마이닝(Data Mining)
- 데이터베이스 내에서 어떠한 방법에 의해 관심 있는 지식을 찾아내는 과정 - 대용량의 데이터 속에서 유용한 정보를 발견하는 과정이며 이러한 기술을 의미 - 데이터 베이스 마케팅 분야 - 순차패턴, 유사성을 활용
- 정의 - 복잡한 통계적인 분석이나 모형구축 기법을 통해 대용량의 데이터 내에 이전에는 알려지지 않았던 패턴이나 규칙 등을 탐색하고 모형화 하여 유용한 지식을 추출하는 일련의 과정 - 통계적 관점 : 대용량의 데이터에 대한 탐색적 데이터 분석(Exploratory Data Analysis)
빅데이터 환경의 특징
구분 | 기존 | 빅데이터 환경 |
---|---|---|
데이터 | 정형화된 수치자료 중심 | -비정형의 다양한 데이터 - 문자 데이터 - 영상 데이터 - 위치 데이터 |
하드웨어 | 고가의 저장장치 데이터베이스 데이터웨어하우스 |
- 클라우드 컴퓨팅 등 비용 효율적인 장비 활용 가능 |
소프트웨어/분석 방법 | 관계형 데이터베이스 통계패키지 데이터마이닝 머신러닝 |
- 오픈소스 형태의 무료 소프트웨어 - Hadoop, NoSQL - 오픈소스 통계솔루션® - 텍스트 마이닝 - 온라인 버즈 분석 -감성 분석 |