단어 중의성 해소 기법은 문맥에서 중의성을 갖는 단어가 어떤 의미로 사용되었는가를 식별하여 단어가 갖는 중의성을 해소한다. 이 연구에서는 중의성 해소 방안으로 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 학습데이터로 분류기를 구축하고 ...
단어 중의성 해소 기법은 문맥에서 중의성을 갖는 단어가 어떤 의미로 사용되었는가를 식별하여 단어가 갖는 중의성을 해소한다. 이 연구에서는 중의성 해소 방안으로 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 학습데이터로 분류기를 구축하고, 의미를 분류하는 단어 중의성 해소 모형을 제시하고자 하였다.
실험문헌으로 국내 3개 주요 일간지(조선일보, 동아일보, 한겨레)의 2004년 신문기사 전체를 선정하였으며, 이들 기사로부터 중의성 해소 대상 단어 9개를 선정하였다. 신문기사를 형태소 분석한 후, 자동 태깅과 의미 분류의 성능 평가를 위해 9개 중의성 해소 대상 단어에 대해 수작업으로 의미를 태깅하였다.
단어 중의성 해소 실험은 크게 실험문헌에 나타난 중의성 단어에 대해 의미를 자동으로 태깅하는 단계와 자동 태깅된 학습문맥을 이용하여 분류기를 구축하고 의미 분류를 수행하는 단계로 나누어 수행하였다.
자동 태깅 기법은 문맥에서 중의성 단어가 사전에서 추출한 핵심 단어와 공기하면 이 핵심 단어가 추출된 의미로 자동 태깅하는 사전 추출 정보 기반 방법과, 중의성 단어와 핵심 단어 사이에 공통된 연어가 많이 존재하면 핵심 단어가 추출된 의미로 자동 태깅하는 연어 공기 기반 방법을 적용하였다. 그리고 의미 분류기로는 나이브 베이즈 분류기를 이용하였다.
실험 결과 발견한 사실은 다음과 같다.
첫째, 사전에서 추출한 정보원의 유형에 따라 자동 태깅의 성능이 차이를 보였다. 뜻풀이 출현 명사, 관련어, 용례 추출 연어, 파생어, 한자 순으로 더 많은 수의 자동 태깅된 학습문맥을 제공하지만, 정확도 측면에서는 한자, 파생어, 용례 추출 연어, 관련어, 뜻풀이 출현 명사 순으로 더 좋은 자동 태깅 성능을 보였다.
둘째, 사전에서 추출한 핵심 단어에 대해 자주 사용되는 고빈도 단어의 경우 주제적 특성이 없으므로 자질 축소를 하였다. 그 결과 실험문헌의 문헌빈도만 이용한 자질 축소 방법보다 사전의 뜻풀이를 문헌으로 간주하고 산출한 문헌빈도를 같이 적용한 축소 방법이 9.54% 더 높은 성능을 가져왔다.
셋째, 단일 자질 축소 보다 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 정확도로 더 좋은 성능을 보여 주었다. 연어 공기 기반 방법의 경우 공기 연어의 출현빈도 순으로 상위 N(10, 30, 50, 100, 전체)개로 유형을 나누어 성능의 차이를 분석하여, 상위 30개의 공기된 연어를 자동 태깅에 사용한 유형이 56.33%의 정확도로 가장 좋은 성능을 보여 주었다. 따라서 두 방법의 최고 성능을 비교하면, 연어 공기 기반 방법보다 사전 추출 정보 기반 방법이 24.37% 향상된 성능을 가져왔다.
넷째, 복수 자질 축소를 이용한 사전 추출 정보 기반 방법의 자동 태깅을 이용한 의미 분류는 68.11%의 정확도를 보였으며, 연어 공기 기반 방법의 자동 태깅을 이용한 의미 분류는 62.09%의 정확도를 보였다. 사전 추출 정보 기반 방법을 적용한 분류기가 9.7% 더 향상된 성능을 보였는데, 이는 사전 추출 정보 기반 방법이 자동 태깅한 학습문맥의 자질이 더 우수하기 때문인 것으로 보인다.
다섯째, 두 가지 자동 태깅 방법의 결과에 대해 데이터 결합을 수행하였는데, 이 방법의 성능은 복수 자질 축소를 이용한 사전 추출 정보 기반 방법에 비해 8.59%가 향상된 76.09%를 보였다. 또한 데이터 결합의 자동 태깅 결과를 이용한 의미 분류는 정확도가 76.16%로, 사전 추출 정보 기반 방법과 연어 공기 기반 방법에 비해 각각 11.82%, 22.66%로 성능이 향상되었다.
이상의 실험 결과를 통해 사전만을 이용하여 중의성을 해소할 경우 단일 모형에서는 복수의 자질 축소 기준을 적용한 사전 추출 정보 기반 방법이 연어 공기 기반 방법 보다 더 좋은 성능을 보였으며, 단일 방법과 이들을 결합한 모형 중에서는 결합 모형이 더 좋은 성능을 보였다.