-
코트라 공공기관 1,500개 테이블 – 데이터 표준화 3주 소요
데이터가치연구소는 2025년 공공데이터 품질관리 수준진단·평가를 위해 코트라(대한무역투자진흥공사) 기관의 7개 시스템 – 1천5백여 개 테이블, 3만여 개 칼럼 데이터 표준화를 수행하였습니다. 이 정도 규모의 대상을 표준화하려면 최소 2명의 컨설턴트가 3개월 정도 수행합니다. 그러나 애드밸류어 – AI 표준화 솔루션을 사용하여 단 3주 만에 1명의 컨설턴트가 표준화를 수행하였습니다. 표준화를 수행한 방식에서도 기존의 방식과 큰 차이가 있습니다. 속성 표준화…
-
DB표준 구축 – AI 활용으로 손쉽게 해결하기
공공기관은 세 가지 표준을 고려해야 합니다. 데이터 표준에 대한 설명은 다음 글을 참고하시기 바랍니다. – 데이터 표준이란 무엇인가요? 각각의 표준은 다음과 같은 특징을 갖습니다. 공통 표준, 기관 표준, DB 표준의 관계는 아래의 계층 구조로 표현할 수 있습니다. 상위의 표준을 우선적으로 적용해야 한다는 것입니다. 만약, 상위의 표준과 일치하지 않는 경우는 매핑표가 필요한데 이를…
-
AI 데이터 표준화 솔루션 ‘애드밸류어’
AI의 등장으로 산업의 여러 분야는 변화하고 있습니다.데이터 표준화 분야에도 AI는 혁신을 가져왔습니다.대량의 데이터 표준화를 자동화하는 서비스가 공개되었기 때문입니다! ChatGPT 그동안 데이터 표준화 분야는 자동화하기 어려운 기술적인 한계가 있었습니다.로직으로는 문맥을 이해하고 표준 용어를 도출하는 것이 어렵기 때문입니다.하지만, 2022년 겨울에 ChatGPT가 출시되면서 이 문제를 해결할 가능성이 열렸습니다! 데이터 표준화 vs. 문맥 이해 데이터 표준화는…
-
공공데이터 표준화 프로젝트- 최소 인원으로 수행해야 하는 이유
표준화 프로젝트를 획하는 분이라면 가장 먼저 고민하는 것이 ‘몇 명이 필요한가?’ 일 것입니다.인원수에 따라 기간과 비용이 결정되기 때문이지요.그런데 무조건 많은 인원이 정답일까요? 6개의 표준화 프로젝트를 수행하면서 내린 결론은 ‘적을수록 좋다!‘ 입니다.물론 인원이 적은 만큼 기간은 충분해야 합니다. 적을수록 좋은 이유 6개의 프로젝트 중에서 3개는 2명의 인원으로 수행했고 절반은 10명 이상의 인원으로 수행하였습니다.당연히 10명 이상이 참여한…
-
데이터 표준이란 무엇인가요?
이 글에서는 데이터 표준을 구성하는 항목을 다룹니다.데이터 표준이 왜 필요한지 궁금하시다면 다음 글이 도움이 될 것입니다.참고 글: 데이터 표준화를 꼭 해야만 하는 이유 데이터 표준을 구성하는 항목 데이터 표준은 크게 4개 항목으로 구성합니다. 용어, 단어, 도메인 관계 단어, 용어, 도메인을 도식화하면 항목 간의 관계를 알 수 있습니다. 위의 관계를 보시면 ‘단어’는 ‘용어’를 구성하는 의미가 가장…
-
동음이의어, 이음동의어, 한 글자 단어,금칙어, 동의어/유사어 관리 팁
용어는 단어의 조합으로 구성합니다. 표준 메타는 파싱*이라는 과정을 거쳐 용어를 가장 작은 ‘단어’ 단위로 분리합니다.* 파싱(parsing)은 용어를 의미를 가진 최소 단위로 분해하는 과정을 말합니다.이 과정을 거쳐 나온 결과가 칼럼이 됩니다.위의 예시를 보시면 칼럼은 각 단어의 물리명을 합친 것입니다.용어에서 사용된 단어가 잘 준비되었다면 위의 예시처럼 정상적인 칼럼을 만들어 냅니다. 단어가 잘 준비되지 않으면 다음과 같이 파싱을…
-
코드란 무엇인가요?
오래전 이야기입니다.동료 컨설턴트와 ‘코드’에 관해 토론하였습니다.지금처럼 저장 공간이 충분한 시대에 과연 ‘코드’가 필요한가? 여러분은 어떻게 생각하시나요?10, 20, 30, ···이와 같은 코드가 지금도 필요한가요? 당시 제 생각은 ‘필요없다’ 였습니다.코드를 사용하는 대신 ‘값’을 쓰자는 것이지요.‘구매’, ‘발송’, ‘취소’, ···이유는요?저장 공간은 충분하니까요 ㅎㅎ 그로부터 한참의 시간이 흘렀습니다.지금도 ‘코드’가 정말 필요한지 다시 생각해 보았습니다.지금의 결론은요?‘필요하다’ 입니다!생각이 바뀐 이유가 궁금하신가요?‘코드’가 무엇인지…
-
도메인이란 무엇인가요?
도메인을 한마디로 정의하면 ‘영역’이라 할 수 있습니다.즉, 전체가 아닌 부분을 가리킵니다. 도메인 = 전체를 구성하는 한 영역 ‘영역’이라는 의미를 염두에 둔다면 ‘도메인’이라는 단어를 들었을 때 의미가 쉽게 와 닿을 것입니다. 도메인의 역할 데이터 표준에서 도메인은 어떤 역할을 할까요?‘용어(속성/칼럼)의 분류어란 무엇인가요?‘ 글에서 용어의 분류어가 도메인으로 등록한다고 하였습니다.용어의 분류어를 보면 어떤 값이 들어가는지 예상할 수 있습니다. 위…
-
엔터티(테이블)의 분류어란 무엇인가요?
엔터티* 분류어는 데이터 표준을 수립할 때 항상 고민하는 대상입니다.* 엔터티(Entity) – 논리 데이터 모델에서 사용하는 용어로 테이블을 말합니다.‘데이터 표준은 사람을 위한 도구입니다.‘ 글에서 설명한 바와 같이 표준은 기업마다 다릅니다.그러므로 엔터티 분류어도 기업의 특성을 고려하여 정의합니다.이 글에서는 보편적으로 사용하는 분류어를 다룹니다. ‘용어(속성/칼럼)의 분류어란 무엇인가요?‘ 글에서 분류어는 ‘용어를 구성하는 가장 마지막 단어’라고 정의하였습니다.위의 정의에서 ‘용어’를 ‘엔터티’로 바꾸면…
-
데이터 표준은 사람을 위한 도구입니다.
데이터 표준 – 정답이 있을까? 어떻게 생각하시나요?데이터 표준은 ‘정답’이 있을까요?만약 ‘정답’이 존재한다면 우리는 데이터 표준을 고민할 이유가 없겠지요.‘정답’을 외우면 되니까요.그러나 데이터 표준은 사람마다, 기업마다 다릅니다.어떤 사람은 한 글자 단어를 표준으로 허용하지만 어떤 사람은 허용하지 않습니다.그러면 한 글자 단어는 써야 할까요? 아니면 쓰지 말아야 할까요? 한 글자 단어 예시 – 수(數), 고(高), 저(低), 유(有), 무(無), 상(上),…

