데이터전환 - 핵심정리

데이터전환

1. 데이터 정제

  • 데이터 정제 항목을 정제 시점에 따라 전환 테스트 전, 중, 최종전환 3단계로 구분하여 데이터 정제 작업을 수행

2. 데이터 품질 분석

  • 데이터 품질 관리는 기관이나 조직 내외부의 정보시스템 및 DB사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선활동
  • 원천 데이터와 전환된 목적 데이터베이스의 품질 분석
  • 원천 데이터와 전환 데이터의 정합성 검증 항목

3. 오류 데이터 측정

  • 데이터 중 정상 데이터와 오류 데이터를 정량적으로 측정
  • 오류 목록의 내용을 확인하고 오류 해결 방안을 참조하여 원천 데이터의 정제를 요청할 것인지, 아니면 전환 프로그램을 수정할 것인지 데이터 정제 여부를 결정

데이터전환 - 오류데이터측정

데이터전환

정상 데이터와 오류 데이터 정량적 측정

1. 정상 데이터의 건수를 정량적으로 측정

  • 전환 대상 범위의 데이터를 업무 영역별, 테이블별로 세분화하여 정상 데이터의 수량을 정확히 측정하고 기록

2. 오류 데이터의 유형과 건수를 정량적으로 측정

  • 원천 데이터의 정합성 기준을 근거로 업무별로 오류 위치와 유형을 파악하고 그 수량을 정확히 측정하여 기록

3. 원천 데이터 오류 관리 목록 예시

오류관리목록

오류 원인 파악 및 정제 여부 결정

1. 발견된 데이터 오류를 분석하고 원인 파악

  • 해결방안
    • 오류의 내용과 원인을 분서갛여 해결 가능한 오류는 향후 처리 방침을 기술하고, 해결 불가한 오류는 고객과 협의한 내용을 기술
  • 심각도
      • 더 이상 데이터 이행을 진행할 수 없게 만드는 오류
      • 데이터 이행 전반에 영향을 미치는 오류
      • 데이터 이행의 흐름에는 영향을 미치지 않는 오류이나 상황에 맞지 않는 용도 및 배치 오류
  • 상태
    • Open
      • 오류가 보고되었지만 아직 분석되지 않은 상태
    • Assigned
      • 영향 분석 및 수정을 위해 오류를 개발자에게 할당한 상태
    • Fixed
      • 개발자가 오류를 수정한 상태
    • Closed
      • 오류가 수정되었는지 확인하고 재테스트 시 오류가 발견되지 않은 상태
    • Deferred
      • 오류 우선 순위가 낮게 분류되었기 때문에 오류 수정을 연기한 상태
    • Classified
      • 보고된 오류가 프로젝트 팀에 의해 오류가 아니라고 판단한 상태

2. 원천 데이터와 전환 프로그램의 정제 필요 여부 결정

  • 파악된 오류 원인을 기반으로 해결방안 협의
  • 무시해야하는 오류가 아닌 경우에는 원천 데이터의 정제를 통해 해결해야할 것인지, 전환 프로그램을 수정할 것인지 결정

데이터전환 - 데이터품질분석

데이터전환

원천 데이터 품질 분석의 개념

  • 원천 데이터의 품질이 보장되지 않으면 전환 후의 데이터도 정확하지 않으며, 전환 후의 데이터 정합성 검증 시 오류가 발생할 때 그 원인을 찾기도 어려움
  • 따라서 전환 전에 원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있으며, 이전에 미처 발견하지 못한 데이터의 오류도 찾아낼 수 있음

원천 데이터 품질 검증을 위한 대표적인 정합성 항목

  • 필수 항목의 데이터가 모두 존재하는가?
  • 데이터의 유형이 정확하게 관리되고 있는가?
  • 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?
  • 금액의 경우 유효한 값의 범위인가?
  • 계좌 번호 등이 정해진 법칙에 따른 번호인가?
  • 영업점이 실제로 존재하는 영업점인가?
  • 코드 값이 정해진 범위에 속하는가?
  • 개설 일자, 해지 일자 등 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?
  • 업무 규칙에 위배되는 잘못된 정보가 존재하는가?
  • 잔액의 총합이 회계정보와 동일한가?
  • 보고서 값과 실제 데이터 값이 일치하는가?

목적 데이터 품질 분석

  • 원천 데이터와 목적 데이터베이스 속성(Column)간 대응 관계는 1:1대응보다 N:M대응 관계가 더 많기 때문에 양자 간의 대응 관계를 정확히 표현하기 위해서는 데이터 레이아웃을 정확하게 파악하고 품질 검증 진행

목적 데이터베이스 전환 데이터 검증 고려 사항

  • 현재 업무에서 사용하는 보고서나 통계용 정보를 사전에 조사하여 검증에 필요한 내용을 선정하고, 현재의 원장을 바탕으로 검증용 정보 도출
  • 전환 데이터 검증은 데이터 전환 팀 인원 뿐만 아니라, 현업 인원도 함께 검증을 수행함으로써 검증의 정확성을 높이고 시간을 단축시키는 것이 중요함

전환 데이터의 대표적인 정합성 검증 항목

  • 과목별 좌수 및 잔액
  • 특정 기준으로 분류된 좌수 및 잔액
  • 보고서 항목 또는 통계 수치
  • 계좌 및 고객을 Sampling하여 해당 사항을 모두 검증
  • 특수 관계가 있는 고객을 추출하여 관련된 데이터가 정확한지 검증

데이터전환 - 핵심정리

데이터전환

1. 데이터 전환 수행 계획

  • 데이터 전환 절차는 전환 계획 및 요건정의, 전환 설계, 전환 개발, 전환 테스트 및 검증으로 구분할 수 있음
  • 데이터 전환 수행 계획 작성을 위해서는 데이터 전환 범위, 전환 일정, 전환 절차를 명확히 해야 함
  • 데이터 전환 계획서의 주요 항목
    • 데이터 전환 개요, 데이터 전환 대상 및 범위
    • 데이터 전환 환경구성, 데이터 전환 조직 및 역할
    • 데이터 전환 일정, 데이터 전환 방안
    • 데이너 정비 방안, 비상계획

2. 체크리스트

  • 전환 프로그램의 에러, 시간의 제약, 업무 프로세스의 변경, 빈번한 데이터 요건 변경, 하드웨어 장애 등의 위험요소에 최대한 대응하기 위해 체크리스트 작성
  • 체크리스트 기재항목
    • 데이터 전환 수행자가 수행할 작업의 상세 항목
    • 작업 내용
    • 예정 시작/종료 시각
    • 작업 담당자 기재

3. 데이터 검증

  • 원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정
  • 검증 방법에 따른 분류
    • 로그 검증
    • 기본 항목 검증
    • 응용 프로그램 검증
    • 응용 데이터 검증
    • 값 검증
  • 데이터 단계에 따른 분류
    • 추출
    • 전환
    • DB 적재
    • DB 적재 후
    • 전환 완료 후

데이터전환 - 데이터정제

데이터전환

  • 원천 데이터와 전환된 목적 데이터베이스 데이터의 품질을 분석하여 정상 데이터와 오류 데이터를 정량적으로 측정
  • 발견된 오류를 분석하여 오류의 원인을 파악하고 원천 데이터와 응용 프로그램의 정제 필요 여부를 결정
  • 정제가 필요한 원천 데이터와 오류를 생성하는 원천 프로그램을 수정하기 위한 데이터 정제요청서를 작성
  • 정제된 원천 데이터를 확이하여 데이터 정제 수행 결과를 검증하고, 데이터 정제보고서를 작성
  • 데이터 품질 분석 -> 오류 데이터 측정 -> 오류 데이터 정제

단계별 데이터 정제 방안

1. 1단계 전환 테스트 전

  • 정합성 마비
    • 데이터 상호 간의 정합성이 유지될 수 있도록 데이터 보관
    • 조건
      • 업무 규칙을 적용한 정당한 값 또는 데이터 선별
  • 불필요한 데이터 필드
    • 사용하는 데이터의 경우 매핑을 수행
    • 사용하지 않을 경우에는 해당 테이블 삭제
  • 손실된 데이터
    • 손실된 데이터를 정당한 값으로 복원
    • 조건
      • 손실된 데이터의 정당한 값을 알아야 함
  • 맞지 않는 타입
    • 정당한 타입의 데이터로 수정
    • 조건
      • 해당 데이터를 정당한 타입의 필드로 이전
  • 오류 데이터
    • 오류 데이터를 정당한 데이터로 변경
    • 불필요한 데이터를 삭제 또는 초기화
    • 조건
      • 정당한 데이터의 기준 정의

2. 2단계 전환 테스트 시

  • 전환 테스트 결과 발견된 오류 데이터
    • 사전에 업무 규칙을 적용하여 정의한 정당한 데이터 값으로 정비
    • 동일한 타입으로 전환
    • 1단계 정제 대상 항목의 정제 내용과 동일하게 정제
    • 조건
      • 테스트 결과를 이용하여 정제 조건 결정
      • 테스트 수행 과정에서 정제 대상 리스트 제시

3. 3단계 최종 전환

  • 최종 전환 과정에서 정제
    • 매핑 정의서에 작성된 전환 규칙을 이용하여 전환 프로그램에 해당 내용 추가하여 프로그램 수행 시 정제
    • 조건
      • 테스트 결과를 이용하여 정제 조건 결정
      • 사전에 매핑 과정에서 정제 대상 및 정제 조건을 명확하게 제시

데이터전환 - 체크리스트

데이터전환

체크리스트 개념

  • 전환 프로그램의 에러, 시간의 제약, 업무 프로세스의 변경, 빈번한 데이터 요건 변경, 하드웨어 장애 등의 위험요소에 최대한 대응하기 위해 체크리스트 작성
  • 체크리스트 기재항목
    • 데이터 전환 수행자가 수행할 작업의 상세 항목
    • 작업 내용
    • 예정 시작/종료 시각
    • 작업 담당자 기재

데이터 전환 체크리스트 예시

체크리스트

  • 작업프로세스는 포함 안됨

데이터전환 - 데이터검증

데이터전환

데이터 검증 개념

  • 원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정
  • 데이터 전환 검증은 검증 방법과 검증 단계에 따라 분류됨

데이터 검증 분류

1. 데이터 검증 방법에 따른 분류

  • 검증 방법에 따라 로그 검증, 기본항목 검증, 응용 프로그램 검증, 응용 데이터 검증, 값 검증으로 분류
  • 로그 검증
    • 데이터 전환 과정에서 작성하는 추출, 전환, 적재 로그를 검증
  • 기본 항목 검증
    • 로그 검증 외에 별도로 요청된 검증 항목에 대해 검증
  • 응용 프로그램 검증
    • 응용 프로그램을 통한 데이터 전환의 정합성을 검증
  • 응용 데이터 검증
    • 사전에 정의된 업무 규칙을 기준으로 데이터 전환의 정합성을 검증
  • 값 검증
    • 숫자 항목의 합계 검증, 코드 데이터의 범위 검증, 속성 변에 따른 값 검증을 수행
  • 정합성은 아님

2. 데이터 단계에 따른 분류

  • 원천 데이터를 추출하는 시점부터 전환 시점, DB 적재 시점, DB 적재 후 시점, 전환 완료 후 시점별로 목적과 검증 방법을 달리하여 데이터 전화의 정합성을 검증
    데이터 검증 분류

데이터전환 - 데이터전환수행계획

데이터전환

  • 데이터 전환 수행 계획서의 모의 전환 일정에 따라 모의 데이터 전환 차수별 데이터 전환 계획서와 본 데이터 전환 계획서를 작성
  • 데이터 전환 수행자가 수행할 작업 항목, 작업 내용, 예정 시작/종료 시각, 작업 담당자를 포함하는 상세 체크리스트를 작성
  • 작성된 데이터 전환 계획서와 체크리스트에 따라 데이터 변환 프로그램들을 실행하고 정상 동작 여부 모니터링 및 전환 결과 검증
  • 데이터 전환 관정과 데이터 검증 결과를 분석하여 데이터 전환 결과 보고서를 작성

데이터 전환 절차

  • 요구사항 분석 단계(전환 계획 및 요건정의)
  • 설계 단계(전환 설계)
  • 구현 단계(전환 개발)
  • 테스트 단계(전환 테스트 및 검증)
  • 세부적으로 22가지 상세 단계
    데이터전환절차

데이터 전환 수행 계획

1. 데이터 전환 범위 선정

  • 전환 대상의 상세 내용, 데이터 형식, 대상 건수 파악
  • 필요에 따라서는 전환 제외 대상 기록

2. 데이터 전환 일정 선정

  • 팀별 업무를 분장하여 팀별 역할과 납기를 기록
  • 전환 차수의 결정은 통합 계획 및 테스트 계획에 의해 결정

3. 데이터 전환 절차

  • 현행(As-Is) 시스템에서 목표(To-Be)시스템으로 데이터 전환을 위한 단계를 구분하고 각 단계별 작업 내용과 사용되는 도구를 별도로 기록
  • 원천 데이터베이스의 데이터는 백업하여 스테이징 데이터베이스로 복구 한 후 정비 및 변환 작업을 수행하며 이는 원천 데이터베이스의 손상과 변형을 막기 위한 방법
  • 데이터 전환이 완료된 후 검증단계에서는 스테이징 데이터베이스가 아닌 원천 데이터베이스와 비교하여 데이터 오류를 확인

4. 데이터 전환 계획서 작성

  • 계획 -> 수행 > 결과

  • 데이터 전환 개요

    • 데이터 전환 목표
      • 간결하고 명확하게
    • 주요 성공 요인
    • 전체 조건 및 제약사항
  • 데이터 전환 대상 및 범위

    • 데이터 전환 대상
    • 데이터 전환 범위
  • 데이터 전환 환경 구성

    • 원천시스템 구성도
    • 목적 시스템 구성도
    • 전환 단계별 DISK 사용량
  • 데이터 전환 조직 및 역할

    • 데이터 전환 조직도
    • 조직별 역할
    • 업무 분담 계획
      • 검증할 작업자와 작업자별 역할은 최대한 상세히 정리
  • 데이터 전환 일정

    • 데이터 전환 및 검증 작업별 상세한 일정
  • 데이터 전환 방안

    • 사전 준비
    • 데이터 전환 설계
    • 프로그램 개발 및 테스트
    • 데이터 전환 리허설
    • 데이터 전환
  • 데이터 정비 방안

    • 데이터 정비 대상 및 방법
    • 데이터 정비 일정 및 조직
  • 비상계획

    • 데이터 전환 당일 구성될 종합상황실 및 의사소통 체계
  • 데이터 복구 계획

    • 데이터 전환 과정 오류 발생 또는 실패 시 백업 및 복구 방안 수립
  • 데이터 전환 개발단계

    • 전환 개발환경 구축
    • 전환 프로그램 개발
    • 검증 프로그램 개발

데이터전환 - 핵심정리

데이터전환

1. 초기데이터 구축

  • 기존 운영 시스템의 이해를 바탕으로 구축 범위를 명확하게 하여 구축
  • 초기 데이터 구축 절차
    1. 구축 전략 수집
    2. 초기 데이터 구축 대상 파악
    3. 초기 데이터 구축 범위
    4. 초기 데이터 구축 시 세부 고려사항

2. ETL

  • 다양한 소스시스템으로 부터 필요한 데이터를 추출(Extraction)하여 새로 개발할 정보시스템에서 운영 가능하도록 변환(Transformation) 작업을 거쳐 타깃 시스템으로 전송 및 로딩(Loading)하는 일련의 과정을 뜻함

3. 파일 처리 기술

  • 자료 구조 이론에서 파일처리 기술은 많은 양의 자료를 각종 매체에 저장하는 기법
  • 종류
    • 순차파일
    • 색인 순차파일
    • 가상 기억 접근방식 파일
    • 직접파일

데이터전환 - 파일처리기술

데이터전환

1. 파일 처리 기술 개념

  • 자료 구조 이론에서 파일처리 기술은 많은 양의 자료를 각종 매체에 저장하는 기법
  • 파일을 하드디스크에 저장할 때 기억공간을 효율적으로 사용하고 필요한 자료의 탐색을 쉽게 하기 위해 파일을 효율적으로 처리하는 기술
  • 종류
    • 순차파일
    • 색인 순차파일
    • 가상 기억 접근방식 파일
    • 직접파일

파일 처리 기술 종류

1. Sequential File 순차파일

  • 입력되는 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식
  • 급여 관리 등과 같이 변동 사항이 크지 않고 기간별로 일괄처리를 주로 하는 경우 적합
  • 주로 순차 접근이 가능한 자기 테이프에 사용
  • 장점
    • 기록 밀도가 높아 기억공간을 효율적으로 사용
    • 매체 변환이 쉬워 어떠한 매체에도 적용 가능
    • 레코드를 기록할 때 사용한 키 순서대로 레코드를 처리하는 경우, 다른 편성법보다 처리속도가 빠름
  • 단점
    • 파일에 새로운 레코드를 삽입-삭제하는 경우 파일 전체를 복사해야하므로 시간이 많이 소요됨
    • 데이터 검색 시 처음부터 순차적으로 검색하기 때문에 검색 효율이 낮음

2. Indexed Sequential File 색인 순차 파일

  • 순차 처리와 랜덤 처리가 모두 가능하도록 레코드들을 키 값 순으로 정렬시켜 기록하고 레코드의 키 항목만을 모은 색인을 구성하여 편성하는 방식
  • ISAM; Index Sequential Access Method 방법이라고도 함
  • 레코드를 참조할 때 색인을 탐색한 후 색인이 가리키는 포인터를 사용하여 직접참조
  • 자기 디스크에 많이 사용되며, 자기 테이프에는 사용 불가
  • 장점
    • 순차 처리와 랜덤 처리가 모드 가능하므로 목적에 따라 융통성 있게 처리 가능
    • 효율적인 검색이 가능하고 레코드의 삽입, 삭제, 갱신이 용이함
  • 단점
    • 색인 구역과 오버플로 구역을 구성하기 위한 추가 기억 공간이 필요함
    • 파일이 정렬되어 있어야 하므로 추가, 삭제가 많으면 효율이 떨어짐
    • 색인을 이용한 액세스를 하기 때문에 액세스 시간이 랜덤 편서 파일보다 느림

3. VSAM; Virtual Storage Access Method 가상 기억 접근 방식 파일

  • 동적 인덱스 방법을 이용한 색인 순차 파일
  • 데이터 레코드가 저장되는 부분인 제어 구간, 몇 개의 제어 구간을 모아 놓은 제어 구역, 제어 구역에 대한 인덱스를 저장한 순차 세트, 순차 세트의 상위 인덱스의 인덱스 세트로 구성
  • 레코드를 삭제하면 그 공간을 재사용 가능
  • 제어 구간에 가변 길이 레코드를 쉽게 수용 가능

4. Direct File 직접 파일

  • 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장공간에 기록하는 것으로, 랜덤파일, DAM파일이라고 함
  • 레코드에 특정 기준으로 키가 할당되며, 해시 함수를 이용하여 이 키에 대한 보조기억장치의 물리적 상대 레코드 주소를 계산한 후 해당하는 주소에 레코드를 저장
  • 임의 접근이 가능한 자기 디스크나 자기 드럼에서 사용
  • 데이터의 입출력이 빈번히 발생하는 곳에 응용
  • 장점
    • DSAD의 물리적 주소를 통하여 파일의 각 레코드에 직접 접근하거나 기록할 수 있으며, 접근 및 기록 순서에는 제약이 없음
    • 접근 시간이 빠르고 레코드의 삽입, 삭제, 갱신이 용이
    • 어떤 레코드라도 평균 접근시간 내에 검색가능
  • 단점
    • 레코드의 주소 변환 과정이 필요하며, 이 과정으로 인해 시간이 소요됨
    • 기억공간의 효율이 저하될 수 있음
    • 기억장치의 물리적 구조에 대한 지식이 필요하고 복잡함
    • 충돌이 발생할 염려가 있으므로, 기억 공간의 확보가 필요
API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×