데이터가치연구소 공식 블로그

데이터 표준화

  • 용어(속성/칼럼)의 분류어란 무엇인가요?

    용어를 구성하는 가장 마지막 단어를 ‘분류어’라고 합니다.몇 가지 예시로 설명하겠습니다. 위의 예시에서 오렌지 색깔의 단어들이 보이시나요?‘수’, ‘일자’, ‘사유’ 처럼 용어의 끝에 사용된 단어들이 바로 ‘분류어’입니다.분류어는 용어가 담는 내용의 특징을 드러냅니다. ‘몇 명’, ‘언제’, ‘이유’ 각각 어떤 특징을 나타내나요? 이처럼 분류어를 보면 용어에 무엇이 담기는지 예상할 수 있습니다. 분류어가 단어이다 보니 이런 궁금증이 생깁니다. ‘모든 단어가…

    더 보기

  • 성공적인 공공데이터 표준화 프로젝트 위해 확인해야 할 사항

    데이터 표준화 프로젝트를 하면 세 가지 장점이 있다고 설명했습니다.참고 글: 데이터 표준화를 꼭 해야만 하는 이유 표준화 프로젝트는 수천에서 수억까지 큰 비용이 투자되는 프로젝트입니다.이러한 프로젝트에서 좋은 결과를 얻으려면 다음의 조건을 점검해야 합니다. 위의 4가지 항목에서 모두 ‘예’라는 대답을 하셨다면 귀사의 표준화 프로젝트는 성공할 수 있습니다! 하나씩 구체적으로 설명하겠습니다. 테이블/칼럼의 코멘트는 ‘표준화 방법론‘ 글에서 단어나 용어의…

    더 보기

  • 데이터 표준화를 꼭 해야만 하는 이유

    데이터 표준화 프로젝트를 수행하다 보면 데이터 표준화 교육을 요청하는 경우가 많습니다.아마도 데이터 표준이 정말 필요한 것인지 공감대를 갖기 위한 것이겠지요.그러면 데이터 표준화, 정말 필요한가요? 결론부터 말씀드리면 ‘필요하다’ 입니다. 그 이유를 다음의 세 가지 관점에서 설명하겠습니다.​ 데이터 표준이 있으면 개발 생산성이 올라간다고요???네, 맞습니다!데이터 표준이 있으면 개발 생산성이 올라갑니다.많은 분들이 오해하는 부분입니다.데이터 표준을 지키느라 개발이 늦어진다고 생각하기…

    더 보기

  • 20만 개 칼럼을 표준화한 방법론 공개

    대량의 대상을 수행하려면 전체적인 관점에서 접근해야 합니다.그러므로 전체를 아우르는 틀을 갖춘 상태에서 표준화를 수행합니다. 아래는 데이터 표준화 프로젝트 수행 시 설계했던 리파지토리 테이블입니다. 리파지토리 (*리파지토리: 대상의 테이블 정보를 담는 저장소) 소량의 테이블은 정밀한 방법론이 없어도 괜찮습니다.한 땀 한 땀 정성스럽게 단어/용어/도메인/코드를 정의하면 되니까요. ​대량의 대상을 수행하려면 하나씩 수행하는 방법으로는 비용과 물량을 감당하기 어렵습니다.그래서 대량의 대상은…

    더 보기

  • 공공데이터 표준화 프로젝트 공수 산정 팁

    6개 기업에서 표준화 프로젝트를 수행한 경험으로 해당 주제를 다루려고 합니다.6개의 프로젝트 중 3개는 2명의 인원으로 진행하였고 나머지는 10명 이상의 인원으로 대규모로 진행하였습니다.이러한 경험으로 한 달에 몇 개 정도의 테이블을 수행할 수 있는지를 설명합니다. 앞서 포스팅한 “한 사람이 한 달 동안 표준화할 수 있는 테이블 수“에서는 한 사람이 한 달에 수행할 수 있는 테이블 수를 128개로…

    더 보기

  • 한 사람이 한 달 동안 표준화할 수 있는 테이블 수

    데이터 표준화를 요청하는 고객사가 많습니다.고객사는 단기간에 많은 양의 표준화를 수행하고 싶어 합니다.물론 많은 양은 테이블 기준입니다.사실 비용 때문이지요.그러면 한 사람이 한 달에 몇 개 테이블을 표준화할 수 있을까요?요즘은 AI가 대세이나 인간이 수행한다는 조건으로 생각해 보겠습니다.한 명의 데이터 표준 전문가는 한 달에 몇 개의 테이블을 표준화할 수 있을까요? 제가 산출한 개수는 ‘128개’입니다. ​테이블 수 128개가 어떠한…

    더 보기