데이터전환 - 데이터품질분석

데이터전환

원천 데이터 품질 분석의 개념

  • 원천 데이터의 품질이 보장되지 않으면 전환 후의 데이터도 정확하지 않으며, 전환 후의 데이터 정합성 검증 시 오류가 발생할 때 그 원인을 찾기도 어려움
  • 따라서 전환 전에 원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있으며, 이전에 미처 발견하지 못한 데이터의 오류도 찾아낼 수 있음

원천 데이터 품질 검증을 위한 대표적인 정합성 항목

  • 필수 항목의 데이터가 모두 존재하는가?
  • 데이터의 유형이 정확하게 관리되고 있는가?
  • 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?
  • 금액의 경우 유효한 값의 범위인가?
  • 계좌 번호 등이 정해진 법칙에 따른 번호인가?
  • 영업점이 실제로 존재하는 영업점인가?
  • 코드 값이 정해진 범위에 속하는가?
  • 개설 일자, 해지 일자 등 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?
  • 업무 규칙에 위배되는 잘못된 정보가 존재하는가?
  • 잔액의 총합이 회계정보와 동일한가?
  • 보고서 값과 실제 데이터 값이 일치하는가?

목적 데이터 품질 분석

  • 원천 데이터와 목적 데이터베이스 속성(Column)간 대응 관계는 1:1대응보다 N:M대응 관계가 더 많기 때문에 양자 간의 대응 관계를 정확히 표현하기 위해서는 데이터 레이아웃을 정확하게 파악하고 품질 검증 진행

목적 데이터베이스 전환 데이터 검증 고려 사항

  • 현재 업무에서 사용하는 보고서나 통계용 정보를 사전에 조사하여 검증에 필요한 내용을 선정하고, 현재의 원장을 바탕으로 검증용 정보 도출
  • 전환 데이터 검증은 데이터 전환 팀 인원 뿐만 아니라, 현업 인원도 함께 검증을 수행함으로써 검증의 정확성을 높이고 시간을 단축시키는 것이 중요함

전환 데이터의 대표적인 정합성 검증 항목

  • 과목별 좌수 및 잔액
  • 특정 기준으로 분류된 좌수 및 잔액
  • 보고서 항목 또는 통계 수치
  • 계좌 및 고객을 Sampling하여 해당 사항을 모두 검증
  • 특수 관계가 있는 고객을 추출하여 관련된 데이터가 정확한지 검증

데이터전환 - 핵심정리

데이터전환

1. 데이터 전환 수행 계획

  • 데이터 전환 절차는 전환 계획 및 요건정의, 전환 설계, 전환 개발, 전환 테스트 및 검증으로 구분할 수 있음
  • 데이터 전환 수행 계획 작성을 위해서는 데이터 전환 범위, 전환 일정, 전환 절차를 명확히 해야 함
  • 데이터 전환 계획서의 주요 항목
    • 데이터 전환 개요, 데이터 전환 대상 및 범위
    • 데이터 전환 환경구성, 데이터 전환 조직 및 역할
    • 데이터 전환 일정, 데이터 전환 방안
    • 데이너 정비 방안, 비상계획

2. 체크리스트

  • 전환 프로그램의 에러, 시간의 제약, 업무 프로세스의 변경, 빈번한 데이터 요건 변경, 하드웨어 장애 등의 위험요소에 최대한 대응하기 위해 체크리스트 작성
  • 체크리스트 기재항목
    • 데이터 전환 수행자가 수행할 작업의 상세 항목
    • 작업 내용
    • 예정 시작/종료 시각
    • 작업 담당자 기재

3. 데이터 검증

  • 원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정
  • 검증 방법에 따른 분류
    • 로그 검증
    • 기본 항목 검증
    • 응용 프로그램 검증
    • 응용 데이터 검증
    • 값 검증
  • 데이터 단계에 따른 분류
    • 추출
    • 전환
    • DB 적재
    • DB 적재 후
    • 전환 완료 후

데이터전환 - 데이터정제

데이터전환

  • 원천 데이터와 전환된 목적 데이터베이스 데이터의 품질을 분석하여 정상 데이터와 오류 데이터를 정량적으로 측정
  • 발견된 오류를 분석하여 오류의 원인을 파악하고 원천 데이터와 응용 프로그램의 정제 필요 여부를 결정
  • 정제가 필요한 원천 데이터와 오류를 생성하는 원천 프로그램을 수정하기 위한 데이터 정제요청서를 작성
  • 정제된 원천 데이터를 확이하여 데이터 정제 수행 결과를 검증하고, 데이터 정제보고서를 작성
  • 데이터 품질 분석 -> 오류 데이터 측정 -> 오류 데이터 정제

단계별 데이터 정제 방안

1. 1단계 전환 테스트 전

  • 정합성 마비
    • 데이터 상호 간의 정합성이 유지될 수 있도록 데이터 보관
    • 조건
      • 업무 규칙을 적용한 정당한 값 또는 데이터 선별
  • 불필요한 데이터 필드
    • 사용하는 데이터의 경우 매핑을 수행
    • 사용하지 않을 경우에는 해당 테이블 삭제
  • 손실된 데이터
    • 손실된 데이터를 정당한 값으로 복원
    • 조건
      • 손실된 데이터의 정당한 값을 알아야 함
  • 맞지 않는 타입
    • 정당한 타입의 데이터로 수정
    • 조건
      • 해당 데이터를 정당한 타입의 필드로 이전
  • 오류 데이터
    • 오류 데이터를 정당한 데이터로 변경
    • 불필요한 데이터를 삭제 또는 초기화
    • 조건
      • 정당한 데이터의 기준 정의

2. 2단계 전환 테스트 시

  • 전환 테스트 결과 발견된 오류 데이터
    • 사전에 업무 규칙을 적용하여 정의한 정당한 데이터 값으로 정비
    • 동일한 타입으로 전환
    • 1단계 정제 대상 항목의 정제 내용과 동일하게 정제
    • 조건
      • 테스트 결과를 이용하여 정제 조건 결정
      • 테스트 수행 과정에서 정제 대상 리스트 제시

3. 3단계 최종 전환

  • 최종 전환 과정에서 정제
    • 매핑 정의서에 작성된 전환 규칙을 이용하여 전환 프로그램에 해당 내용 추가하여 프로그램 수행 시 정제
    • 조건
      • 테스트 결과를 이용하여 정제 조건 결정
      • 사전에 매핑 과정에서 정제 대상 및 정제 조건을 명확하게 제시
API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×