데이터전환 - 핵심정리

데이터전환

1. 초기데이터 구축

  • 기존 운영 시스템의 이해를 바탕으로 구축 범위를 명확하게 하여 구축
  • 초기 데이터 구축 절차
    1. 구축 전략 수집
    2. 초기 데이터 구축 대상 파악
    3. 초기 데이터 구축 범위
    4. 초기 데이터 구축 시 세부 고려사항

2. ETL

  • 다양한 소스시스템으로 부터 필요한 데이터를 추출(Extraction)하여 새로 개발할 정보시스템에서 운영 가능하도록 변환(Transformation) 작업을 거쳐 타깃 시스템으로 전송 및 로딩(Loading)하는 일련의 과정을 뜻함

3. 파일 처리 기술

  • 자료 구조 이론에서 파일처리 기술은 많은 양의 자료를 각종 매체에 저장하는 기법
  • 종류
    • 순차파일
    • 색인 순차파일
    • 가상 기억 접근방식 파일
    • 직접파일

데이터전환 - 파일처리기술

데이터전환

1. 파일 처리 기술 개념

  • 자료 구조 이론에서 파일처리 기술은 많은 양의 자료를 각종 매체에 저장하는 기법
  • 파일을 하드디스크에 저장할 때 기억공간을 효율적으로 사용하고 필요한 자료의 탐색을 쉽게 하기 위해 파일을 효율적으로 처리하는 기술
  • 종류
    • 순차파일
    • 색인 순차파일
    • 가상 기억 접근방식 파일
    • 직접파일

파일 처리 기술 종류

1. Sequential File 순차파일

  • 입력되는 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식
  • 급여 관리 등과 같이 변동 사항이 크지 않고 기간별로 일괄처리를 주로 하는 경우 적합
  • 주로 순차 접근이 가능한 자기 테이프에 사용
  • 장점
    • 기록 밀도가 높아 기억공간을 효율적으로 사용
    • 매체 변환이 쉬워 어떠한 매체에도 적용 가능
    • 레코드를 기록할 때 사용한 키 순서대로 레코드를 처리하는 경우, 다른 편성법보다 처리속도가 빠름
  • 단점
    • 파일에 새로운 레코드를 삽입-삭제하는 경우 파일 전체를 복사해야하므로 시간이 많이 소요됨
    • 데이터 검색 시 처음부터 순차적으로 검색하기 때문에 검색 효율이 낮음

2. Indexed Sequential File 색인 순차 파일

  • 순차 처리와 랜덤 처리가 모두 가능하도록 레코드들을 키 값 순으로 정렬시켜 기록하고 레코드의 키 항목만을 모은 색인을 구성하여 편성하는 방식
  • ISAM; Index Sequential Access Method 방법이라고도 함
  • 레코드를 참조할 때 색인을 탐색한 후 색인이 가리키는 포인터를 사용하여 직접참조
  • 자기 디스크에 많이 사용되며, 자기 테이프에는 사용 불가
  • 장점
    • 순차 처리와 랜덤 처리가 모드 가능하므로 목적에 따라 융통성 있게 처리 가능
    • 효율적인 검색이 가능하고 레코드의 삽입, 삭제, 갱신이 용이함
  • 단점
    • 색인 구역과 오버플로 구역을 구성하기 위한 추가 기억 공간이 필요함
    • 파일이 정렬되어 있어야 하므로 추가, 삭제가 많으면 효율이 떨어짐
    • 색인을 이용한 액세스를 하기 때문에 액세스 시간이 랜덤 편서 파일보다 느림

3. VSAM; Virtual Storage Access Method 가상 기억 접근 방식 파일

  • 동적 인덱스 방법을 이용한 색인 순차 파일
  • 데이터 레코드가 저장되는 부분인 제어 구간, 몇 개의 제어 구간을 모아 놓은 제어 구역, 제어 구역에 대한 인덱스를 저장한 순차 세트, 순차 세트의 상위 인덱스의 인덱스 세트로 구성
  • 레코드를 삭제하면 그 공간을 재사용 가능
  • 제어 구간에 가변 길이 레코드를 쉽게 수용 가능

4. Direct File 직접 파일

  • 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장공간에 기록하는 것으로, 랜덤파일, DAM파일이라고 함
  • 레코드에 특정 기준으로 키가 할당되며, 해시 함수를 이용하여 이 키에 대한 보조기억장치의 물리적 상대 레코드 주소를 계산한 후 해당하는 주소에 레코드를 저장
  • 임의 접근이 가능한 자기 디스크나 자기 드럼에서 사용
  • 데이터의 입출력이 빈번히 발생하는 곳에 응용
  • 장점
    • DSAD의 물리적 주소를 통하여 파일의 각 레코드에 직접 접근하거나 기록할 수 있으며, 접근 및 기록 순서에는 제약이 없음
    • 접근 시간이 빠르고 레코드의 삽입, 삭제, 갱신이 용이
    • 어떤 레코드라도 평균 접근시간 내에 검색가능
  • 단점
    • 레코드의 주소 변환 과정이 필요하며, 이 과정으로 인해 시간이 소요됨
    • 기억공간의 효율이 저하될 수 있음
    • 기억장치의 물리적 구조에 대한 지식이 필요하고 복잡함
    • 충돌이 발생할 염려가 있으므로, 기억 공간의 확보가 필요

데이터전환 - ETL

데이터전환

ETL; Extraction, Transformation, Load 프로세스

  • 특수한 엔진에서 진행되며 종종 변환 중인 데이터가 준비 테이블에서 임시로 보유되었다가 대상에 로드 됨
  • 일반적으로 발생하는 데이터변환에는 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 작업
  • 종종 시간 절약을 위해 데이터의 추출이 완료될 때 까지 기다리지 않고 데이터가 추출 되는 동안 이미 수신된 데이터가 변환되면서 로드 준비가 진행되고 준비된 데이터에 대한 로드 프로세스가 시작되는 방식으로 3가지 ETL 단계가 동시에 진행됨

ETL 프로세스별 방법

  • 추출 Extraction
    • JDBC, ODBC 기술의 이용
    • Flat File 생성
    • CDC; Change Data Capture
  • 변환 Transformation
    • 재구성, 정제, 변환, 데이터필드 검사, Rule 적용
    • 데이터 통합 및 정제가 과도히 요구되는 경우, ETL작업의 80%는 변환과정에서 발생
  • 로드 Load
    • DBMS 고유 기능
    • Utility(Append, Delete/Insert, Update)이용
API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×