AI의 등장으로 산업의 여러 분야는 변화하고 있습니다.
데이터 표준화 분야에도 AI는 혁신을 가져왔습니다.
대량의 데이터 표준화를 자동화하는 서비스가 공개되었기 때문입니다!
ChatGPT
그동안 데이터 표준화 분야는 자동화하기 어려운 기술적인 한계가 있었습니다.
로직으로는 문맥을 이해하고 표준 용어를 도출하는 것이 어렵기 때문입니다.
하지만, 2022년 겨울에 ChatGPT가 출시되면서 이 문제를 해결할 가능성이 열렸습니다!
데이터 표준화 vs. 문맥 이해
데이터 표준화는 쉽게 말해 칼럼의 용도와 의미를 이해하여 적합한 명칭을 부여하는 작업입니다.
그래서 단순·반복적인 작업으로 보이나 기계적으로 접근할 수 없습니다.
예를 들어, 칠레에서 만들어진 와인을 의미하는 ‘칠레산 와인’을 생각해 보겠습니다.
‘칠레산 와인’에서 ‘산(産)’은 ‘~에서 만들어진’의 의미입니다.
이렇게 의미를 이해했을 때 ‘Chilean wine’으로 바꿀 수 있습니다.
만약, ‘산’을 기계적으로 바꾼다면 어떨까요?
높이 솟은 ‘산(山)’을 의미하는 ‘Mountain’으로 바뀌는 일도 충분히 일어날 수 있습니다!
그러므로 데이터 표준화는 문맥을 이해한 후에 변환을 해야 하므로 사람이 개입할 수밖에 없습니다.
데이터 표준화 + AI
ChatGPT의 등장으로 인간만이 할 수 있었던문맥을 이해하는 일을 AI가대신할 수 있게 되었습니다.
이것이 의미하는 바는 무엇일까요?
드디어, 대량 작업이 가능해진 것입니다!
문맥을 이해하여 적합한 명칭을 부여하는 일을 이제는 AI가 더 많이, 더 빨리, 더 잘 해냅니다.

AI를 활용하여 생산성 “10배” 향상, 비용은 “10배” 절감
이전 글에서 데이터 표준화를 한 명의 컨설턴트가 수행했을 때 한 달에 500개로 산정하였습니다.
참고 글: 공공데이터 표준화 프로젝트 공수 산정 팁
만약, AI를 활용한다면 한 달에 몇 개 정도나 가능할까요?
테이블 당 30개 정도의 칼럼을 가졌다고 가정했을 때, 500개의 테이블은 대략 15,000개의 칼럼을 가집니다.
15,000개의 칼럼에 대해 표준화를 한 사람이 수행한다면 20일 정도 걸립니다.
하지만, AI를 사용했을 때는 어떨까요?
AI 표준화 자동화 서비스인 S·코파일럿을 사용하여 1,000개 칼럼(컬럼)을 표준화 해보았습니다.
1,000개 칼럼(컬럼)을 표준화하는 데 대략 1시간 정도 걸렸습니다.
산술적으로 계산해 보면 1일 8시간 기준으로 최소 8,000개를 표준화할 수 있습니다.
그러므로 15,000개를 처리하는데 걸리는 시간은 2일입니다.
생산성은 20일에서 2일로 비약적으로 단축됩니다!
그리고, 비용도 그만큼 절약됩니다.
칼럼 코멘트 작성과 표준화
칼럼 표준화를 수행하는 경우 보통 다음의 두 가지 절차로 진행합니다.
- 기존의 코멘트를 참고하여 적절한 속성명을 작성
- 속성에 대한 정의 작성

이러한 작업이 수십 개 정도라면 무리 없이 수행할 수 있습니다.
그러나 보통 한 시스템에는 수백 개에서 수천 개의 테이블이 있습니다.
테이블이 가진 칼럼의 수는 테이블 당 30개 정도로 어림잡아도 그 수는 수천 개에서 수만 개가 되기도 합니다.
이제는 사람이 아무리 집중을 해도 그 양에 압도당하게 됩니다.
AI의 힘을 빌릴 때가 된 것입니다.
아래의 사진은 S·코파일럿을 사용하여 위의 사진의 대상을 표준화한 결과입니다.
속성명, 속성설명을 상식선에서 작성하고 칼럼의 개선사항까지 도출합니다.
데이터 표준화 작업에 AI를 도입하는 것은 마치 계산기를 쓰다가 엑셀(Excel)로 바꾸는 것만큼 혁명적인 변화입니다.

아래는 AI를 활용하여 테이블 표준화를 수행한 결과입니다.

아래는 AI를 활용하여 도메인 표준화를 수행한 결과입니다.

사람은 더 중요한 일을 해야 합니다!
‘결품수량’, ‘도서명’, ‘배치번호’ 처럼 작명을 하는 일은 전문적인 지식이 필요하지 않습니다.
이에 대한 설명을 적는 일도 국어를 잘하는 사회 초년생이라면 누구나 할 수 있습니다.
시스템에 존재하는 모든 테이블과 칼럼을 사람이 직접 표준화하고 설명을 적을 필요는 없습니다.
이러한 일들을 이제는 AI에게 맡길 때입니다!
사람은 더 중요한 일을 해야 합니다.
어떠한 테이블, 칼럼들은 매우 중요하고 복잡하기에 분명 사람이 개입해야 합니다.
AI가 아무리 문맥을 이해한다고 하여도 AI는 일반적인 추론으로 답을 하기 때문입니다.
하지만, 이러한 특별한 대상은 소수입니다.
대다수의 테이블, 칼럼은 AI의 일반적인 추론만으로도 충분히 훌륭한 결과를 얻을 수 있습니다.
앞으로 데이터 표준화 분야에서 AI는 사람이 해왔던 많은 양의 일반적인 일들을 할 것입니다.
이제 사람은 더 중요한 일을 하고 AI가 한 일들을 검토하는 것이 주된 역할입니다.

데이터가치연구소는 최근 AI를 활용하여 표준화를 자동으로 수행하는 S·코파일럿 서비스를 출시하였습니다.
출시를 기념하여 “1,000개” 칼럼 표준화를 무상으로 지원하는 이벤트를 한시적으로 진행합니다.
대표 컨설턴트가 직접 수행하기에 데이터 관련 고민도 함께 해소하는 시간이 될 것입니다.