데이터가치연구소 공식 블로그

공공데이터 표준화 프로젝트- 최소 인원으로 수행해야 하는 이유

표준화 프로젝트를 획하는 분이라면 가장 먼저 고민하는 것이 ‘몇 명이 필요한가?’ 일 것입니다.
인원수에 따라 기간과 비용이 결정되기 때문이지요.
그런데 무조건 많은 인원이 정답일까요?

6개의 표준화 프로젝트를 수행하면서 내린 결론은 ‘적을수록 좋다!‘ 입니다.
물론 인원이 적은 만큼 기간은 충분해야 합니다.


적을수록 좋은 이유

6개의 프로젝트 중에서 3개는 2명의 인원으로 수행했고 절반은 10명 이상의 인원으로 수행하였습니다.
당연히 10명 이상이 참여한 프로젝트는 기간이 길고, 대상이 많은 대규모 프로젝트였습니다.

기업 입장에서는 많은 인원이 참여하여 짧은 기간에 끝내기를 바랍니다.
그러나 표준화 프로젝트를 수행하는 절차*를 생각해 보면 병목 현상*이 발생하는 것을 알게 됩니다.
* “20만 개 칼럼을 표준화한 방법론 공개” 글에서 표준화 절차를 설명하였습니다.
* 병목(bottleneck) 현상 – 병의 목 부분을 가리키는 용어로서 병의 목 부분에 너무 많은 것이 통과하려고 할 때 막혀서 나가지 못하는 현상

아래의 절차 중 진한 회색(단어 결정, 용어 표준화, 도메인 결정) 부분이 병목이 발생하는 지점입니다.

표준화 방법론
  • 단어 결정

해당 작업은 용어를 구성하는 단어집을 만드는 과정입니다.
단어에 등록할 후보를 비교하면서 최종적으로 사용할 단어를 결정합니다.

예를 들면, ‘등록’, ‘입력’, ‘저장’ 후보 단어가 있을 때, 다음의 3가지 결정을 내릴 수 있을 것입니다.

  1. ‘등록’, ‘입력’, ‘저장’ 모두 표준 단어로 등록합니다.
  2. ‘등록’, ‘입력’은 표준 단어로 등록하고, ‘저장’은 ‘입력’의 동의어*로 등록합니다.
  3. ‘등록’만 표준 단어로 등록하고, 나머지는 ‘등록’의 동의어*로 등록합니다.
    * 동의어에 관해서는 “동음이의어, 이음동의어, 한 글자 단어, 금칙어, 동의어/유사어 관리노하우” 글을 참고할 수 있습니다.

이처럼 단어를 결정하는 작업은 여러 사람이 결정하는 작업이 아닙니다.
한 사람의 표준 전문가가 수행하는 작업입니다.

  • 용어 표준화

용어 표준화 작업은 조금 더 상세하게 표현하였습니다.
용어를 등록하다 보면 새로운 단어가 필요한 경우가 있습니다.
이때 새로운 단어를 등록하고 새로운 단어로 속성명을 보완합니다.

예를 들어, ‘고객가족수’라는 용어를 등록하려고 하니 ‘가족’이라는 단어가 없습니다.
그래서 ‘가족’이라는 단어를 새로 등록하려고 합니다.
이때, ‘가족’을 등록하는 것이 적절한지 판단합니다.
적절한 경우 ‘가족’을 등록하지만, 적절하지 않다면, 다른 단어를 등록하거나, 기존의 단어를 사용합니다.
해당 작업은 앞의 ‘단어 결정’처럼 한 사람의 표준 전문가가 수행하는 것이 좋습니다.

이러한 작업을 절차적으로 수행합니다.
즉, 여러 사람이 수행하는 방식이 아니라는 것입니다.

도메인을 결정할 때는 하나의 용어만으로 판단하기 어렵습니다.
예를 들어, ‘결제반려사유’라는 용어에 도메인을 결정하려 한다면 해당 용어를 사용하는 전체 칼럼을 확인해야 합니다.
가장 큰 자릿수를 알아야 하기 때문입니다.
만약, ‘사유 VARCHAR(300)’ 도메인을 결정하였는데, 500자리 칼럼이 발견되었다면 자릿수를 조정해야 합니다.
이러한 조정하는 작업을 줄이기 위해 전체 칼럼을 비교하여 도메인을 결정합니다.
전체 칼럼을 비교하여 확인하는 작업은 당연히 여러 사람이 할 수 없습니다.


많은 사람이 투입되면, 많은 일을 하고, 빨리 끝냅니다.
맞는 말이기도 하고, 틀린 말이기도 합니다.

표준화 프로젝트에서는 무엇이 맞을까요?
품질을 고려하지 않는다면 맞는 말입니다.
그러나 품질을 고려한다면요?

제대로 된 표준화 품질을 원한다면 소수의 표준 전문가면 충분합니다!

AI를 활용하여 표준화를 자동으로 수행하는 방법은 다음 글을 참고하시기 바랍니다.
참고 글: AI 데이터 표준화 자동화 서비스 – S코파일럿

author avatar
데이터가치연구소 데이터가치플래너
『공공기관 표준화 전문』 대표 컨설턴트 허 상 철 |
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments