데이터가치연구소 공식 블로그

데이터 표준이란 무엇인가요?

이 글에서는 데이터 표준을 구성하는 항목을 다룹니다.
데이터 표준이 왜 필요한지 궁금하시다면 다음 글이 도움이 될 것입니다.
참고 글: 데이터 표준화를 꼭 해야만 하는 이유

데이터 표준을 구성하는 항목

데이터 표준은 크게 4개 항목으로 구성합니다.


용어, 단어, 도메인 관계

단어, 용어, 도메인을 도식화하면 항목 간의 관계를 알 수 있습니다.

용어 단어 도메인 관계 예시

위의 관계를 보시면 ‘단어’는 ‘용어’를 구성하는 의미가 가장 작은 단위입니다.
고객동거가족수‘는 ‘고객’ + ‘동거’ + ‘가족’ + ‘수’라는 4개의 단어로 구성되었습니다.
특히 ‘수’라는 단어는 용어의 특정을 드러내는데, 이를 ‘분류어’라 합니다.
참고 글: 용어(속성/칼럼)의 분류어란 무엇인가요?

‘수’와 같은 분류어는 용어의 도메인으로 등록합니다.
도메인이 무엇인지는 아래의 참고 글에서 자세히 설명합니다.
간략하게 도메인을 정의하면 도메인은 용어가 담을 수 있는 값의 유형과 범위입니다.
즉, 속성이 담는 값이 숫자인지, 문자인지, 날짜인지를 지정합니다.
그리고 숫자나 문자라면 얼마나 많은 값을 담을 것인지도 지정합니다.
도메인의 ‘값의 유형과 범위’를 데이터 타입과 길이라 합니다.
참고 글: 도메인이란 무엇인가요?


속성 – 칼럼 관계

표준 메타와 같이 표준을 관리하는 자동화 도구를 활용하면 용어, 단어, 도메인의 관계를 자동으로 관리합니다.
즉, 실제 칼럼으로 사용되는 물리명을 사용자가 지정할 필요가 없습니다.

속성 칼럼 관계 예시

표준 메타에서 ‘고객동거가족수’를 입력하면 그에 해당하는 ‘CUST_COHA_FAML_CNT’ 칼럼명을 생성합니다.

실제 테이블을 생성할 때는 칼럼데이터 타입&길이가 필요합니다.
칼럼명에 데이터 타입&길이까지 지정하면 최종적으로 아래와 같이 속성, 칼럼, 도메인 관계가 결정됩니다.

속성 칼럼 도메인 관계 예시

속성 코드 관계

값의 종류가 이미 정해져 있거나 특정 패턴을 가진 값의 모음을 ‘코드‘라 합니다.
참고 글: 코드란 무엇인가요?

아래의 예시처럼 ‘용도지역지구구분코드’는 ‘UAA000’, ‘UAA100’, ‘UAA999’, ‘UAZ000’이라는 미리 정해진 값을 가집니다.
이러한 미리 정해진 값을 ‘코드값‘이라 합니다.
코드값은 임의로 지정한 값이므로 의미 없는 문자인 경우가 많습니다.
이러한 코드값이 무엇인지 설명한 값을 ‘코드값명‘이라 합니다.

속성 코드 관계 예시

실제로 코드를 사용하는 것은 테이블의 칼럼입니다.
즉, 칼럼에 해당 코드값이 저장되는 것입니다.


단어, 용어, 도메인, 코드는 서로 밀접한 관련이 있습니다.
각각의 요소를 잘 설계하여 관리하고 관계를 잘 정의하는 일은 많은 경험과 지식이 요구됩니다.
하지만 그만한 가치가 있습니다.
잘 정의된 데이터 표준은 좋은 데이터의 품질을 보장하기 때문입니다.

author avatar
데이터가치연구소 데이터가치플래너
『공공기관 표준화 전문』 대표 컨설턴트 허 상 철 |
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments