데이터로부터 얼마나 많은 부가가치를 얻을 수 있나?
- 과학 기술 경쟁이 치열
- 침단 과학기술이 사용자의 요구를 충족시켰을때 부가가치 창출(아마존 마케팅, 애플 등)
- 미래 사용자의 필요 예측이 매우 중요
기술분야에서 앞으로 중시될 세가지 영역
- 데이터 마이닝, 기계학습, 인공지능, 자연어처리
- Business Intelligence, 경쟁정보전략
- 분석, 통계
빅데이터의 시대적 변화
o 1990년대 중반 ~ 2000년대 중반
- 고객정보
- 유통사 상품 구매정보
- 상품/서비스 구매정보
- 교통정보
- 리서치 정보
o 2000년대 중반 ~ 2010년대 중반
- Data의 통합 관리를 통한 소비자의 입체적 이해
o 2010년대 중반 이후
- 고객정보
- 모바일
- SNS
- 이종 데이터 간의 결합
- Cloud Computing
- 데이터 마켓의 출현
빅데이터 활용 개념도
빅데이터 산업 분류
빅데이터 활용사례
- 공공빅데이터
- 구글트렌드
빅데이터 활용 프로세스
- 데이터수집 및 관리
- 정형데이터 - 고객수 - 판매량 - 키워드빈도
- 비정형데이터 - 로그 - SNS 텍스트 - 사진
- 데이터분석
- 기초통계분석 - 집계 - 통계치 - 회귀분석
- 데이터마이닝/기계학습/AI/딥러닝 - 군집,연관 - 시계열, 추천 - 텍스트마이닝 - 커뮤니티분석
- 데이터활용
- 시각화
- 신제품전략
- 마케팅전략
- 니즈발견
- 리스크경감
데이터분석에 필요한 기술들
- Mathematics Expertise
- 통계
- 선형대수
- 미분/적분
- Business/Strategy Acumen
- 도메인 지식/경험
- 문제 영역
- Technology, Hacking Skills
- 컴퓨터 프로그래밍
- 데이터베이스
- 인프라 시스템
빅데이터 인프라 : 하둡
- 하둡은 오픈소스 분산처리 기술
- 하둡 분산 파일 시스템 HDFS(Hadoop Distributed File System)
- 간단한 서버들을 이용하여 가상화된 HDFS을 구성하고 여기에 존재하는 거대한 데이터를 간편하게 다루는 MapReduce 프레임워크를 구현하여 제공
빅데이터 관련 이슈
- 개인정보 이슈
- 인력양성
- 빅데이터의 지도화
- 자료의 품질관리 중요성
- 수학 및 통계, IT, 언어학, 비즈니스 등의 다양한 영역의 융합교육 필요
- 인프라 또는 IT기술 뿐만 아니라, 분석과 시각화 및 해석의 중요성 부각
- 장기적인 관점에서의 데이터 분석 및 관리 필요