데이터 표준화를 요청하는 고객사가 많습니다.
고객사는 단기간에 많은 양의 표준화를 수행하고 싶어 합니다.
물론 많은 양은 테이블 기준입니다.
사실 비용 때문이지요.
그러면 한 사람이 한 달에 몇 개 테이블을 표준화할 수 있을까요?
요즘은 AI가 대세이나 인간이 수행한다는 조건으로 생각해 보겠습니다.
한 명의 데이터 표준 전문가는 한 달에 몇 개의 테이블을 표준화할 수 있을까요?
제가 산출한 개수는 ‘128개’입니다.
테이블 수 128개가 어떠한 근거로 산출되었는지 산술적으로 접근해 보겠습니다.
계산에 필요한 항목은 다음과 같습니다.
- 속성 한 개 당 소요되는 시간(분)
- 한 시간당 속성 수
- 테이블 당 평균 칼럼 수
항목의 순서대로 접근해 보겠습니다.
1. 속성 한 개 당 소요되는 시간(분) – 3분
속성 한 개를 표준화하는 데 필요한 작업은 무엇이 있을까요?
기본적으로 단어 정의, 속성 내용 정의, 도메인 정의가 필요합니다.
물론 매번 단어를 정의해야 하거나 도메인을 정의해야 하는 것은 아닙니다.
기존에 정의된 단어, 도메인을 활용할 수 있다면 그만큼 시간을 절약됩니다.
그래서 평균적인 시간으로 따져보았을 때 3분으로 계산하겠습니다.
3분이요? 물론 너무 짧습니다.
그런데 매 속성마다 3분이 아니라 평균적으로 3분이라는 것입니다.
마치 시험 문제에서 문제마다 풀어내는 시간은 다르지만 평균적으로 1-2분 안에 풀어야 하는 상황과 유사합니다.
그러므로 어떤 속성은 짧은 시간이 걸리지만 일부 속성은 조금 더 고민합니다.
평균적으로 3분 정도라면 무난하게 목표한 수치를 달성할 수 있을 것입니다.
2. 한 시간당 속성 수 – 20개
표준화하는데 속성 한 개당 3분 정도가 소요된다면 이제 그 기준값으로 계산을 해보겠습니다.
60분(1시간) / 3분 계산식으로 60분에 표준화할 수 있는 속성수는 20개로 산출됩니다.
1시간에 20개 속성을 할 수 있다면 하루 8시간 기준으로 계산해 보면 160개입니다.
그러면 1주일(5일 기준)은 800개, 1개월(4주 기준)은 3,200개입니다.
정리해 보면 다음과 같습니다.
- 1시간 단위 속성 수 – 20개
- 1일 단위 속성 수 – 160개
- 1주일 단위 속성 수 – 800개
- 1개월 단위 속성 수 – 3,200개
3. 테이블 당 평균 칼럼 수 – 25개
마지막 항목은 테이블 당 평균 칼럼 수입니다.
물론 테이블마다 칼럼이 몇 개인 것도 있고 많은 것은 수백 개인 경우도 여러 사이트에서 경험해 보았습니다.
특히 중요도가 높은 테이블의 경우에는 보통 수백 개의 칼럼을 가지고 있습니다.
그러나 모든 테이블의 칼럼 개수가 많은 것은 아니므로 경험적으로 ’25’라는 숫자를 도출하였습니다.
이 숫자는 여러 사이트에서 ‘총 칼럼 수 / 총 테이블 수’의 수식으로 나온 값의 근사치입니다.
이제 위 항목에서 산출된 값으로 다음의 질문에 답해 보겠습니다.
- 한 명의 데이터 표준 전문가가 한 달에 수행할 수 있는 테이블 수는?
- 3,200 / 25 = 1개월 단위 속성 수 / 테이블 당 평균 칼럼 수
- 128개 입니다.
- 3,200 / 25 = 1개월 단위 속성 수 / 테이블 당 평균 칼럼 수
그런데 실제 데이터 표준화 프로젝트를 수행하면 사실 ‘128’이라는 수치보다는 훨씬 더 많은 양을 수행합니다.
그 이유는 다음 글에서 살펴보겠습니다.
다음 글: 공공데이터 표준화 프로젝트 공수 산정 팁
AI를 활용하여 표준화를 자동으로 수행하는 방법은 다음 글을 참고하시기 바랍니다.
참고 글: AI 데이터 표준화 자동화 서비스 – S코파일럿