빅데이터(Big Data)의 이해

빅데이터 등장 배경

빅데이터등장배경

디지털 기술 발전에 따른 대규모 데이터 생성

  • 데이터 생성 규모(Volume)확대
  • 생성주기(Velocity)가 짧아짐
  • 기존 수치 위주에서 문자, 이미지, 영상 등 다양한 형태(Variety)로 발생

빅데이터의 정의

  • 명확히 합의된 정의가 없음 - 데이터 수집, 저장, 관리, 분석을 처리하는 통상의 용량을 넘어서는 Dataset 규모로, 그 정의는 주관적이며 앞으로도 기술발전에 따라 정의는 변화될 것이다. - 가장 많이 쓰이는 정의 3V + Value - 엑셀로 처리하기에 적합하지 않는 데이터 - SPSS, SAS와 같은 통계 패키지 등에 적합한 자료의 의미

3V + Value

3V+Value

빅데이터의 분류 및 처리과정

처리과정

데이터 마이닝(Data Mining)

  • 데이터베이스 내에서 어떠한 방법에 의해 관심 있는 지식을 찾아내는 과정 - 대용량의 데이터 속에서 유용한 정보를 발견하는 과정이며 이러한 기술을 의미 - 데이터 베이스 마케팅 분야 - 순차패턴, 유사성을 활용
  • 정의 - 복잡한 통계적인 분석이나 모형구축 기법을 통해 대용량의 데이터 내에 이전에는 알려지지 않았던 패턴이나 규칙 등을 탐색하고 모형화 하여 유용한 지식을 추출하는 일련의 과정 - 통계적 관점 : 대용량의 데이터에 대한 탐색적 데이터 분석(Exploratory Data Analysis)
    데이터마이닝

빅데이터 환경의 특징

구분 기존 빅데이터 환경
데이터 정형화된 수치자료 중심 -비정형의 다양한 데이터
- 문자 데이터
- 영상 데이터
- 위치 데이터
하드웨어 고가의 저장장치
데이터베이스
데이터웨어하우스
- 클라우드 컴퓨팅 등 비용 효율적인 장비 활용 가능
소프트웨어/분석 방법 관계형 데이터베이스
통계패키지
데이터마이닝
머신러닝
- 오픈소스 형태의 무료 소프트웨어
- Hadoop, NoSQL
- 오픈소스 통계솔루션®
- 텍스트 마이닝
- 온라인 버즈 분석
-감성 분석

일반데이터와 빅데이터의 차이

차이

빅데이터 IT 핵심 기술

기술

빅데이터(Big Data) 분석의 중요성

데이터로부터 얼마나 많은 부가가치를 얻을 수 있나?

  • 과학 기술 경쟁이 치열
  • 침단 과학기술이 사용자의 요구를 충족시켰을때 부가가치 창출(아마존 마케팅, 애플 등)
  • 미래 사용자의 필요 예측이 매우 중요

기술분야에서 앞으로 중시될 세가지 영역

  1. 데이터 마이닝, 기계학습, 인공지능, 자연어처리
  2. Business Intelligence, 경쟁정보전략
  3. 분석, 통계

빅데이터의 시대적 변화

o 1990년대 중반 ~ 2000년대 중반
  • 고객정보
  • 유통사 상품 구매정보
  • 상품/서비스 구매정보
  • 교통정보
  • 리서치 정보
o 2000년대 중반 ~ 2010년대 중반
  • Data의 통합 관리를 통한 소비자의 입체적 이해
o 2010년대 중반 이후
  • 고객정보
  • 모바일
  • SNS
  • 이종 데이터 간의 결합
  • Cloud Computing
  • 데이터 마켓의 출현

빅데이터 활용 개념도

빅데이터활용개념도

빅데이터 산업 분류

빅데이터산업분류

빅데이터 활용사례

  • 공공빅데이터
  • 구글트렌드

빅데이터 활용 프로세스

  1. 데이터수집 및 관리
    • 정형데이터 - 고객수 - 판매량 - 키워드빈도
    • 비정형데이터 - 로그 - SNS 텍스트 - 사진
  2. 데이터분석
    • 기초통계분석 - 집계 - 통계치 - 회귀분석
    • 데이터마이닝/기계학습/AI/딥러닝 - 군집,연관 - 시계열, 추천 - 텍스트마이닝 - 커뮤니티분석
  3. 데이터활용
    • 시각화
    • 신제품전략
    • 마케팅전략
    • 니즈발견
    • 리스크경감

데이터분석에 필요한 기술들

  1. Mathematics Expertise
    • 통계
    • 선형대수
    • 미분/적분
  2. Business/Strategy Acumen
    • 도메인 지식/경험
    • 문제 영역
  3. Technology, Hacking Skills
    • 컴퓨터 프로그래밍
    • 데이터베이스
    • 인프라 시스템

빅데이터 인프라 : 하둡

  • 하둡은 오픈소스 분산처리 기술
  • 하둡 분산 파일 시스템 HDFS(Hadoop Distributed File System)
  • 간단한 서버들을 이용하여 가상화된 HDFS을 구성하고 여기에 존재하는 거대한 데이터를 간편하게 다루는 MapReduce 프레임워크를 구현하여 제공

빅데이터 관련 이슈

  1. 개인정보 이슈
  2. 인력양성
  3. 빅데이터의 지도화
  4. 자료의 품질관리 중요성
  5. 수학 및 통계, IT, 언어학, 비즈니스 등의 다양한 영역의 융합교육 필요
  6. 인프라 또는 IT기술 뿐만 아니라, 분석과 시각화 및 해석의 중요성 부각
  7. 장기적인 관점에서의 데이터 분석 및 관리 필요
API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×