데이터 표준 – 정답이 있을까?
어떻게 생각하시나요?
데이터 표준은 ‘정답’이 있을까요?
만약 ‘정답’이 존재한다면 우리는 데이터 표준을 고민할 이유가 없겠지요.
‘정답’을 외우면 되니까요.
그러나 데이터 표준은 사람마다, 기업마다 다릅니다.
어떤 사람은 한 글자 단어를 표준으로 허용하지만 어떤 사람은 허용하지 않습니다.
그러면 한 글자 단어는 써야 할까요? 아니면 쓰지 말아야 할까요?
한 글자 단어 예시 – 수(數), 고(高), 저(低), 유(有), 무(無), 상(上), 하(下)
한 글자 단어를 허용한다면 어떤 문제를 예상할 수 있을까요?
위의 예시에서 ‘낮다’는 의미의 ‘저’를 표준 단어로 허용했다고 가정하겠습니다.
‘저’를 활용한 용어는 많습니다.
‘저(低)’를 활용한 용어 예시 – 저+효율, 저+평가, 저+지대, 저+성능, 저+품질, ···
위의 예시는 모두 ‘낮다’는 의미에서 사용된 ‘저’를 포함한 용어입니다.
그런데 아래와 같은 용어를 만든다면 어떨까요?
저장소 – ‘쌓는다’는 의미의 ‘저(貯)를 사용한 용어 예시
‘저장소’는 무언가를 쌓는 또는 저장하는 위치를 의미합니다.
그러므로 ‘저(低)+장소’처럼 파싱*한다면 엉뚱한 용어가 태어납니다.
* 파싱(parsing)은 용어를 의미를 가진 최소 단위로 분해하는 과정을 말합니다.
이처럼 한 글자 단어를 허용했을 때는 위와 같이 엉뚱한 용어를 만들 수 있습니다.
그러면 한 글자 단어는 단점만 있을까요?
아닙니다.
한 글자 단어를 사용했을 때의 장점도 많습니다.
위의 ‘저(低)’를 활용한 용어 예시를 다시 보시지요.
저+효율, 저+평가, 저+지대, 저+성능, 저+품질, ···
위의 용어들은 상식적으로 반대 용어가 존재합니다.
고+효율, 고+평가, 고+지대, 고+성능, 고+품질, ···
만약 한 글자 단어를 허용하지 않는다면 ‘저(低)’를 사용한 용어, ‘고(高)’를 사용한 용어를 각각 만들어야 합니다.
그러나 한 글자 단어를 허용한다면 ‘저(低)’와 ‘고(高)’를 조립해서 만들면 되므로 용어의 개수가 많이 줄어듭니다.
표준에는 정답이 없습니다.
한 글자 단어를 허용해야 하는 경우가 있습니다.
그 반대의 경우도 물론 있습니다.
얻을 수 있는 이득이 가장 큰 결정이 바로 ‘정답’ 입니다.
데이터 표준에 대한 생각이 서로 다른 이유
가끔 표준에 대해 다른 컨설턴트와 토론합니다.
‘정보’를 분류어로 허용해도 되는지,
‘구분’, ‘분류’, ‘유형’을 어떻게 구별하는지,
년, 연, 율, 률 – 어떻게 표준을 정해야 하는지,
이러한 논의할 재료는 얼마든지 많습니다.
이러한 토론이 가능한 이유는 무엇일까요?
표준에는 정답이 없기 때문입니다.
데이터 표준화 프로젝트마다 결과가 다른 이유도 이 때문입니다.
서로 다른 생각을 가진 컨설턴트가 표준화를 수행하니까요.
표현의 자유를 억압하는 ‘데이터 표준’
데이터가치연구소가 추구하는 데이터 표준은 무엇일까요?
이에 관해서는 결론 부분에서 이야기하겠습니다.
여러 고객사의 DA 담당자를 만나보면 추구하는 바가 다양합니다.
어떤 DA 담당자는 단어, 용어, 분류어를 최소한으로 관리하려고 합니다.
그러다보니 어색한 용어들이 생겨납니다.
‘정보’를 분류어로 허용하지 않아 생겨난 어색한 용어 예시 – 고객취향+내용
참고 글: 정보 분류어로 고객사 DA 담당자와 논쟁한 경험
위의 예시처럼 ‘고객의 취향을 관리하는 속성’을 ‘고객취향내용’이라는 어색한 용어로 만듭니다.
데이터 표준은 업무를 수행하는 데 도움이 되어야 합니다.
어색한 용어를 만들고 있다면 생각을 해보아야 합니다.
지금의 데이터 표준은 적절한가?
용어는 사람이 보기에 자연스럽고 어색하지 않아야 합니다.
억지스러운 용어를 만들어야 한다면, 데이터 표준은 ‘표현의 자유’를 억압하는 것입니다.
신경써야 하는 표준 대상은?
혹시 100m를 몇 초에 달릴 수 있나요?
학생 때는 15초 정도에 달렸지만, 중년인 지금은요? 글쎄요 ㅎㅎ
뜬금없이 100m 달리기요???
네, 중요성에 관해 이야기하기 위해서입니다.
100m는 누구나 최선을 다해 뜁니다.
그런데 42.195km 즉, 마라톤을 뛴다면 어떨까요?
100m처럼 전력질주로 42.195km를 달릴 사람이 있을까요?
아마 몇 분도 안 돼서 금세 지칠 것입니다.
기업의 표준화 프로젝트를 수행하면 데이터의 규모를 알 수 있습니다.
경험했던 기업의 테이블 수는 수천 개에서 수만 개까지 다양했습니다.
테이블 수가 그 정도라면 칼럼은 몇 개나 될까요?
참고 글: ‘한 사람이 한 달 동안 표준화할 수 있는 테이블 수’
윗글에서 테이블 한 개에 평균 25개 정도의 칼럼을 가진다고 했습니다.
대충 산술적으로 계산해봐도 수만 개에서 수십만 개에 달합니다.
기업에 DA 조직이 있더라도 소수 인력으로 운영하는 것이 현실입니다.
적은 경우는 한 명, 많더라도 3~4명입니다.
몇 명의 인력이 수십만 개의 표준을 관리한다는 것은 현실적으로 어렵습니다.
그래서 수십만 개의 표준 용어를 들여다보면 문제는 항상 있습니다.
파싱이 잘못된 경우, 중복 용어* 등 실수를 발견할 수 있습니다.
* 의미가 같은 데 용어가 달라 중복된 경우를 말함
DA 담당자는 이러한 현실을 인정해야 합니다.
수십만 개의 표준에 실수가 없다는 것은 이상적인 바람입니다.
물론 앞으로 AI의 도움을 받는다면 개선이 될 것입니다.
하지만 아직은 사람이 표준을 관리합니다.
그러므로 완벽한 표준을 추구하기보다는 현실적인 방안을 찾는 것을 권장합니다.
그러면 현실적인 방안은 무엇일까요?
앞서 마라톤의 예를 들었습니다.
마라톤을 완주하려면 힘의 배분을 잘해야 합니다.
언제 전력으로 달려야 할지 잘 결정해야 합니다.
데이터 표준도 마라톤처럼 접근해야 합니다.
전체를 완벽하게 하는 것은 현실적이지 않습니다.
그보다는 완벽하게 접근할 대상을 선별하십시오.
그러면 중심이 잘 잡힌 데이터 표준을 구축할 수 있습니다.
중요한 대상이란 무엇입니까?
귀사의 업무에서 근간이 되는 중요한 대상을 말합니다.
고객, 상품, 계약 등 비즈니스의 핵심이 되는 영역에서 주요 속성이 있습니다.
고객ID, 상품번호, 계약번호, …
이러한 키워드들은 매우 예민하게 관리해야 합니다.
‘고객ID’를 예로 생각해 보겠습니다.
어떤 사람은 ‘고객’ + ‘ID’로 만들어 사용합니다.
또 다른 사람은 ‘고객ID’로 만들어서 사용합니다.
그러면 ‘고객ID’에 대한 칼럼은 어떻게 만들어지나요?
‘고객’ + ‘ID’는 ‘CUST_ID’로, ‘고객ID’는 ‘CUSTID’로 만들어지겠지요.
이처럼 정말 중요한 키워드들은 완벽하게 관리해야 합니다.
데이터 표준 – 사람을 위한 것이어야 한다.
이제 결론입니다.
파란색을 표현하는 한국말이 참 다양합니다.
푸르딩딩, 푸르스름, 퍼런
푸르딩딩, 푸르스름, 퍼런 – 말을 하다 보면 어울리는 느낌이 있습니다.
하늘이 푸르딩딩하다.
해 뜨기 전 하늘이 푸르스름하다.
퍼런 멍이 들었다.
이처럼 어울리는 느낌을 ‘어감’이라 할 수 있습니다.
용어를 만들다보면 입에 딱 달라붙는 ‘어감’ 이란 것이 있습니다.
앞서 ‘취향내용’보다는 ‘취향정보’가 입에 붙는 것처럼요.
데이터 표준을 최소한으로 유지하기 위해 ‘어감’을 무시하면 어떨까요?
표준을 지키기 위해 어색한 용어를 만들어야 합니다.
어색한 용어를 업무적으로 사용해야 한다면 이러한 표준은 누구를 위한 것일까요?
데이터 표준이란 정말 중요한 것은 최소한으로, 정확하게 관리해야 합니다.
하지만 덜 중요한 것들에 대해서는 ‘어감’을 무시하지 않는 선에서 유연해야 하지 않을까요?
이러한 데이터 표준이 바로 사람을 위한 표준이라 생각합니다.
사람을 위한 표준 – 데이터가치연구소가 추구하는 철학입니다!