데이터가치연구소 공식 블로그

동음이의어, 이음동의어, 한 글자 단어,금칙어, 동의어/유사어 관리 팁

용어는 단어의 조합으로 구성합니다.

용어 구성 예시

표준 메타는 파싱*이라는 과정을 거쳐 용어를 가장 작은 ‘단어’ 단위로 분리합니다.
* 파싱(parsing)은 용어를 의미를 가진 최소 단위로 분해하는 과정을 말합니다.
이 과정을 거쳐 나온 결과가 칼럼이 됩니다.
위의 예시를 보시면 칼럼은 각 단어의 물리명을 합친 것입니다.
용어에서 사용된 단어가 잘 준비되었다면 위의 예시처럼 정상적인 칼럼을 만들어 냅니다.

단어가 잘 준비되지 않으면 다음과 같이 파싱을 실패합니다.

파싱 실패

위의 예시는 ‘고객동거가족수’의 파싱이 실패한 사례입니다.
‘고객동거가족수’를 구성하는 단어 중 ‘동거’가 없어서 파싱이 실패하였습니다.

정상적으로 파싱하기 위해 주의해야 할 5가지를 설명하겠습니다.


5가지 고려 사항

  1. 동음이의어
  2. 이음동의어
  3. 한글자 단어
  4. 금칙어
  5. 동의어/유사어

  • 동음이의어 (同音異義語 )

소리는 같은데 뜻이 다른 단어입니다.​

‘가구’라는 단어의 예를 들어 보겠습니다.

  1. 장롱이나 책장 따위의 물건을 의미하는 가구(家具)
  2. 함께 거주하는 집단을 의미하는 가구(家口)

위의 가구는 한자어로 구분이 가능하지만 순우리말인 ‘다리’는 어떤가요?

  1. 두 시설을 연결해 주는 시설을 의미하는 다리
  2. 사람이나 동물의 몸통 아래에 붙어 있는 신체 부분을 의미하는 다리

​이와 같은 단어는 기업이나 기관의 업무에서 주로 사용하는 것만 표준으로 등록합니다.
쇼핑몰처럼 물건을 파는 업종에서 ‘가구’를 단어로 등록한다면 ‘장롱이나 책장 따위의 물건을 의미하는 가구(家具)‘를 표준으로 등록하겠지요.
건강보험공단이라면요?
‘함께 거주하는 집단을 의미하는 가구(家口)‘를 표준으로 등록할 것입니다.
이렇게 동음이의어는 주의하여 등록해야 합니다.

  • 이음동의어 (異音同義語)

소리는 다르지만, 뜻이 같은 단어입니다.​

대비(對比), 비교(比較), 대조(對照) – 모두 둘 사이의 차이를 찾아내는 것을 의미합니다.
여러분이 DA 담당자라면 이 단어 모두 표준으로 등록하시겠습니까?
이에 대해서는 찬반이 서로 다를 수 있습니다.
그 이유는 ‘데이터 표준은 사람을 위한 도구입니다.‘ 글이 도움이 될 것입니다.
만약, 이 단어를 모두 표준으로 허용하면 비슷한 의미의 용어들이 계속 생겨납니다.

​그렇다고 이 단어 중 ‘대조’ 하나만 표준으로 허용하면 어떨까요?
‘전년 대조 상승 폭’처럼 어색한 용어들이 생겨납니다.
마땅히 이 용어는 ‘전년 대비 상승 폭’ 이 어울립니다.

​무조건 다 허용하는 것, 하나만 허용하는 것 – 때로는 맞을 수 있고 때로는 틀릴 수 있습니다.
이러한 판단을 하는 것이 DA 담당자의 역할입니다.

  • 한 글자 단어

단어를 설계하는 데 ‘한 글자 단어’를 주의해야 하는 이유는 무엇일까요?
말장난 같지만 한 글자만으로 ‘의미‘를 갖기 때문입니다.

한 글자 단어 예시
수(數), 전(前), 후(後), 상(上), 하(下), 고(高), 저(低), 유(有), 무(無), 시(時), ···

단어는 용어를 구성하는 데 사용되는 ‘재료‘입니다.
용어는 속성이 됩니다.

앞서 용어를 단어로 쪼개는 과정을 ‘파싱(Parsing)‘이라고 설명하였습니다.
파싱은 보유한 표준 단어로 수행합니다.
문제는 파싱이라는 과정이 항상 100점은 아니라는 것입니다.
파싱이라는 과정이 보유한 단어로 분석하기 때문입니다.
만약 ‘고객동거가족수’를 파싱하는 데 ‘가족‘이라는 단어가 없다면 파싱은 다음과 같이 수행됩니다.

파싱 실패

이것은 파싱이 실패한 것입니다.
그런데 문제는 파싱이 실패한 것이 아니라 파싱이 잘못된 것입니다.
언제 파싱이 잘못될 수 있을까요?
만약, ‘한 글자 단어’로 ‘가(可)‘와 ‘족(足)‘을 가지고 있었다면 파싱은 다음과 같이 수행되었을 것입니다.

파싱 오류

‘가족(家族)’을 ‘가(可)’와 ‘족(足)’으로 파싱을 잘못한 것입니다.
이러한 파싱 오류는 파싱 실패보다 더 안 좋습니다.
파싱이 실패하면 등록 자체가 안되기 때문에 사람이 인지합니다.
하지만 파싱 오류는요???
네, 사람이 유심히 확인하지 않으면 알지 못합니다.
그대로 엉뚱한 용어가 생성되는 것이지요.
그리고 엉뚱한 용어는 엉뚱한 칼럼이 됩니다.
‘한 글자 단어’ 때문에 발생할 수 있는 문제입니다.
그래서 대부분의 기업에서 ‘한 글자 단어‘를 되도록 허용하지 않습니다.
물론, 아예 막는 것은 아닙니다.
‘한 글자 단어’를 아예 쓰지 못하게 하면 그만큼 많은 용어를 만들어야 합니다.
그래서 필요한 경우에 한하여 ‘한 글자 단어’를 허용합니다.

‘한 글자 단어’에 대한 장단점은 아래의 글을 참고하시기 바랍니다.
참고 글: 데이터 표준은 사람을 위한 도구입니다.


여러분이 DA 담당자라면 아래의 내용을 유의하시기 바랍니다.

  • 금칙어 (禁飭語)

앞서 단어 설계의 핵심은 잘못된 사용을 막는 것이라고 하였습니다.
잘못된 사용을 막기 위해 쓰지 말아야 할 단어를 관리합니다.
쓰지 말아야 하는 단어란 무엇일까요?
앞의 ‘한 글자 단어’에서 ‘가(可)’와 ‘족(足)’ 때문에 파싱 오류가 자주 발생한다면 ‘가(可)’와 ‘족(足)’을 금칙어로 지정할 수 있습니다.
이처럼 파싱 오류를 발생시키는 대상은 금칙어로 관리합니다.​

파싱 오류 때문은 아니지만 쓰지 않기로 결정한 대상도 금칙어로 관리합니다.
예를 들어, 회사의 명칭이 ‘금성’에서 ‘LG’로 변경되었다면, 과거 명칭인 ‘금성’을 금칙어로 등록합니다.​

금칙어를 잘 관리한다면 파싱 오류를 막을 수 있습니다.
파싱 오류가 줄어들면 그만큼 잘못된 칼럼도 줄어듭니다.

  • 동의어(同義語)/유사어(類似語)

동의어와 유사어는 의미가 비슷한 단어입니다.
앞의 이음동의어와 같습니다.
다만 동의어와 유사어를 별도로 설명하는 이유는 관리하는 관점에서 설명하기 위해서입니다.​

의미는 유사한데 발음이 다른 단어는 많습니다.
예를 들면 다음과 같은 대상입니다.

‘집’과 ‘주택’, ‘증가’와 ‘상승’, ‘전달’과 ‘전송’, ‘검토’와 ‘검사’, ···

어감을 위해서 모두 허용할 수 있습니다.
그러나 어감도 큰 차이가 없고 유사한 용어가 많이 생겨날 수 있다면 어떨까요?
이때는 적절한 대상만 허용하고 나머지는 ‘동의어‘ 또는 ‘유사어‘로 관리합니다.
이렇게 사용하기로 선택한 단어를 ‘대표단어‘라고 합니다.

대표단어

여기서 한 가지 팁을 드리겠습니다.
실수를 일으키는 대상을 동의어로 관리하는 것입니다.

올바른 대상 vs 틀린 대상

위의 대상은 자주 헷갈리는 대상을 모아 보았습니다.
틀린 단어를 올바른 단어의 동의어로 관리하는 것이 팁입니다!
‘아키텍처’를 등록한다면 ‘아키텍쳐’를 동의어로 등록하는 것이지요.
그러면 누군가 ‘아키텍쳐’로 잘못 입력해도 ‘아키텍처’로 추천을 하게 되어 실수를 막을 수 있습니다.
특히, ‘OK캐쉬백’*은 상표명입니다.
* Cash 의 표준 표기법은 ‘캐시’입니다.
상표명은 표준어와 상관없이 등록된 상표명을 그대로 사용해야 합니다.
누군가 ‘OK캐시백’으로 등록하려 할 수 있겠지요?
이때 ‘OK캐시백’이 동의어로 등록되어 있다면 ‘OK캐쉬백’을 추천합니다.
이처럼 동의어는 오타가 발생할 만한 대상을 관리하는 데도 아주 유용합니다.

동의어 오타 관리

아무리 표준을 관리하는 메타 시스템이 있더라도 좋은 품질을 추구한다는 것은 결코 쉬운 일이 아닙니다.
데이터 표준은 굉장히 집요한 집착이 필요한 업무입니다.
깊게 생각하고, 조금 더 신경 쓴 데이터 표준이 더 나은 품질을 만듭니다!

author avatar
데이터가치연구소 데이터가치플래너
『공공기관 표준화 전문』 대표 컨설턴트 허 상 철 |
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments