보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011613&local_id=10013868

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011613&local_id=10013868

사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구 | 2005 년 신청요강 다운로드

| 이용구(연세대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	H00004
선정년도	2005 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2007년 05월 10일
연차구분	결과보고
결과보고년도	2007년

연구결과보고서

초록
단어 중의성 해소 기법은 문맥에서 중의성을 갖는 단어가 어떤 의미로 사용되었는가를 식별하여 단어가 갖는 중의성을 해소한다. 이 연구에서는 중의성 해소 방안으로 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 학습데이터로 분류기를 구축하고 ...

단어 중의성 해소 기법은 문맥에서 중의성을 갖는 단어가 어떤 의미로 사용되었는가를 식별하여 단어가 갖는 중의성을 해소한다. 이 연구에서는 중의성 해소 방안으로 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 학습데이터로 분류기를 구축하고, 의미를 분류하는 단어 중의성 해소 모형을 제시하고자 하였다.
실험문헌으로 국내 3개 주요 일간지(조선일보, 동아일보, 한겨레)의 2004년 신문기사 전체를 선정하였으며, 이들 기사로부터 중의성 해소 대상 단어 9개를 선정하였다. 신문기사를 형태소 분석한 후, 자동 태깅과 의미 분류의 성능 평가를 위해 9개 중의성 해소 대상 단어에 대해 수작업으로 의미를 태깅하였다.
단어 중의성 해소 실험은 크게 실험문헌에 나타난 중의성 단어에 대해 의미를 자동으로 태깅하는 단계와 자동 태깅된 학습문맥을 이용하여 분류기를 구축하고 의미 분류를 수행하는 단계로 나누어 수행하였다.
자동 태깅 기법은 문맥에서 중의성 단어가 사전에서 추출한 핵심 단어와 공기하면 이 핵심 단어가 추출된 의미로 자동 태깅하는 사전 추출 정보 기반 방법과, 중의성 단어와 핵심 단어 사이에 공통된 연어가 많이 존재하면 핵심 단어가 추출된 의미로 자동 태깅하는 연어 공기 기반 방법을 적용하였다. 그리고 의미 분류기로는 나이브 베이즈 분류기를 이용하였다.
실험 결과 발견한 사실은 다음과 같다.
첫째, 사전에서 추출한 정보원의 유형에 따라 자동 태깅의 성능이 차이를 보였다. 뜻풀이 출현 명사, 관련어, 용례 추출 연어, 파생어, 한자 순으로 더 많은 수의 자동 태깅된 학습문맥을 제공하지만, 정확도 측면에서는 한자, 파생어, 용례 추출 연어, 관련어, 뜻풀이 출현 명사 순으로 더 좋은 자동 태깅 성능을 보였다.
둘째, 사전에서 추출한 핵심 단어에 대해 자주 사용되는 고빈도 단어의 경우 주제적 특성이 없으므로 자질 축소를 하였다. 그 결과 실험문헌의 문헌빈도만 이용한 자질 축소 방법보다 사전의 뜻풀이를 문헌으로 간주하고 산출한 문헌빈도를 같이 적용한 축소 방법이 9.54% 더 높은 성능을 가져왔다.
셋째, 단일 자질 축소 보다 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 정확도로 더 좋은 성능을 보여 주었다. 연어 공기 기반 방법의 경우 공기 연어의 출현빈도 순으로 상위 N(10, 30, 50, 100, 전체)개로 유형을 나누어 성능의 차이를 분석하여, 상위 30개의 공기된 연어를 자동 태깅에 사용한 유형이 56.33%의 정확도로 가장 좋은 성능을 보여 주었다. 따라서 두 방법의 최고 성능을 비교하면, 연어 공기 기반 방법보다 사전 추출 정보 기반 방법이 24.37% 향상된 성능을 가져왔다.
넷째, 복수 자질 축소를 이용한 사전 추출 정보 기반 방법의 자동 태깅을 이용한 의미 분류는 68.11%의 정확도를 보였으며, 연어 공기 기반 방법의 자동 태깅을 이용한 의미 분류는 62.09%의 정확도를 보였다. 사전 추출 정보 기반 방법을 적용한 분류기가 9.7% 더 향상된 성능을 보였는데, 이는 사전 추출 정보 기반 방법이 자동 태깅한 학습문맥의 자질이 더 우수하기 때문인 것으로 보인다.
다섯째, 두 가지 자동 태깅 방법의 결과에 대해 데이터 결합을 수행하였는데, 이 방법의 성능은 복수 자질 축소를 이용한 사전 추출 정보 기반 방법에 비해 8.59%가 향상된 76.09%를 보였다. 또한 데이터 결합의 자동 태깅 결과를 이용한 의미 분류는 정확도가 76.16%로, 사전 추출 정보 기반 방법과 연어 공기 기반 방법에 비해 각각 11.82%, 22.66%로 성능이 향상되었다.
이상의 실험 결과를 통해 사전만을 이용하여 중의성을 해소할 경우 단일 모형에서는 복수의 자질 축소 기준을 적용한 사전 추출 정보 기반 방법이 연어 공기 기반 방법 보다 더 좋은 성능을 보였으며, 단일 방법과 이들을 결합한 모형 중에서는 결합 모형이 더 좋은 성능을 보였다.

연구결과 및 활용방안
새로운 단어 중의성 모형을 개발하였다. 특히 기존의 단어 중의성 해소 모형이 대규모의 언어자원, 특히 말뭉치를 필요로 하나, 한국어 환경에서는 많은 비용과 비용이 소요되는 것을 기존에 쉽게 이용할 수 있는 전자사전을 이용함으로 대규모의 언어자원을 대체하는 효 ...

새로운 단어 중의성 모형을 개발하였다. 특히 기존의 단어 중의성 해소 모형이 대규모의 언어자원, 특히 말뭉치를 필요로 하나, 한국어 환경에서는 많은 비용과 비용이 소요되는 것을 기존에 쉽게 이용할 수 있는 전자사전을 이용함으로 대규모의 언어자원을 대체하는 효과를 가져왔다.
연구결과는 다음과 같다.
첫째, 사전에서 추출한 정보원의 유형에 따라 자동 태깅의 성능 차이를 보였다. 뜻풀이 출현 단어, 관련어, 연어, 파생어, 한자 순으로 더 많은 수의 학습문맥을 제공하여 중의성 단어에 대한 의미 식별력이 컸으며, 정확도 측면에서는 한자, 파생어, 연어, 관련어, 뜻풀이 출현 단어 순으로 더 좋은 자동 태깅 성능을 보였다.
둘째, 표제어의 뜻풀이를 기술할 때 자주 사용되는 고빈도 단어의 경우 주제적 특성이 없으므로, 이들을 그대로 자동 태깅에 이용할 경우 오류를 가져올 확률이 높다. 따라서 사전에서 추출한 핵심 단어에 대해 자질 축소를 한 결과, 실험문헌의 문헌빈도만 이용한 자질 축소 방법 보다 사전의 뜻풀이를 문헌으로 간주한 문헌빈도를 같이 적용한 축소 방법의 태깅 정확도가 9.54% 향상된 성능을 가져왔다.
셋째, 연어 공기 기반 방법의 경우 공기 연어의 출현빈도 순으로 상위 N(10, 30, 50, 100, All)개로 유형을 나누어 성능의 차이를 분석하였다. 상위 30개의 공기된 연어를 자동 태깅에 사용한 유형의 태깅 정확도가 56.33%로 가장 좋은 성능을 보여 주었다. 따라서 자동 태깅을 위한 두 중의성 해소 모형의 성능을 비교하면, 복수 자질 축소 방법을 적용한 사전 추출 정보 기반 방법의 태깅 정확도가 70.06%로, 연어 공기 기반 방법의 56.33%보다 24.37% 향상된 성능을 가져왔다.
넷째, 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 통해 자동 태깅한 학습문맥을 이용하여 분류기를 구축하고 중의성 단어에 대해 의미 분류를 수행한 결과, 복수 자질 축소에 기반한 사전 추출 정보 기반 방법의 분류기는 68.11%의 분류 정확도를 보였으며, 다른 분류기는 62.09%의 분류 정확도를 보여 사전 추출 정보 기반 방법을 적용한 분류기가 9.7% 향상된 의미 분류 성능을 나타냈다. 이는 사전 추출 정보 기반 방법에서 자동 태깅한 학습문맥의 자질이 더 우수하기 때문인 것으로 보인다.
다섯째, 사전 추출 정보 기반 방법과 연어 공기 기반 방법의 자동 태깅 결과를 결합한 모형이 단일 모형보다 더 좋은 성능을 가져왔다. 결합 모형의 태깅 성능은 복수 자질 축소를 이용한 사전 추출 정보 기반 방법의 70.06%에 비해 8.59% 향상된 76.09% 태깅 정확도를 보였다. 또한 결합된 자동 태깅 결과를 학습문맥으로 이용한 의미 분류 성능은 76.16%의 분류 정확도로 사전 추출 정보 기반 방법의 68.11%, 연어 공기 기반 방법의 62.09%에 비해 각각 11.82%, 22.66%의 성능 향상이 되었다.
이 연구에서는 의미 태깅된 언어자원의 제약으로 사전만을 이용하여 중의성을 해소할 경우 단일 모형에서는 복수의 자질 축소 기준을 적용한 사전 추출 정보 기반 방법을 이용하여 중의성 단어의 의미를 분류하는 방법이 가장 좋은 성능을 보인 것으로 나타났다. 그리고 단일 모형과 이들의 결과를 결합한 모형 중에서는 결합 모형이 더 좋은 성능을 보였다. 중의성 해소 성능은 태깅 정확도가 높아질수록 분류 정확도가 높아지는 경향을 보이지만 두 정확도에 정비례하여 증가하지 않는 것을 알 수 있는데, 이는 자동 태깅 방법이 양질의 자질 집합을 형성하느냐 그렇지 않느냐의 문제로 보인다.

활용할 수있는 분야는 다양하다.
특히 정보검색과 자연언어 처리에서 중의성 해소는 중요한 기법이 되는데 이러한 부분에서 많은 활용이 될 것으로 사료된다.

색인어
단어 중의성 해소, 단어 의미 식별, 자동 태깅, 의미 분류, 사전 추출 정보 기반 방법, 연어 공기 기반 방법

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 복합학 > 문헌정보학 > 정보검색 > 검색모형/기법

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.