Search
Search

연구성과물 검색 타이틀 이미지

HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011613&local_id=10013868
사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구
Reports NRF is supported by Research Projects( 사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구 | 2005 Year 신청요강 다운로드 PDF다운로드 | 이용구(연세대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
사업별 신청요강보기
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number H00004
Year(selected) 2005 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2007년 05월 10일
Year type 결과보고
Year(final report) 2007년
Research result report
  • Abstract
  • 단어 중의성 해소 기법은 문맥에서 중의성을 갖는 단어가 어떤 의미로 사용되었는가를 식별하여 단어가 갖는 중의성을 해소한다. 이 연구에서는 중의성 해소 방안으로 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 학습데이터로 분류기를 구축하고, 의미를 분류하는 단어 중의성 해소 모형을 제시하고자 하였다.
    실험문헌으로 국내 3개 주요 일간지(조선일보, 동아일보, 한겨레)의 2004년 신문기사 전체를 선정하였으며, 이들 기사로부터 중의성 해소 대상 단어 9개를 선정하였다. 신문기사를 형태소 분석한 후, 자동 태깅과 의미 분류의 성능 평가를 위해 9개 중의성 해소 대상 단어에 대해 수작업으로 의미를 태깅하였다.
    단어 중의성 해소 실험은 크게 실험문헌에 나타난 중의성 단어에 대해 의미를 자동으로 태깅하는 단계와 자동 태깅된 학습문맥을 이용하여 분류기를 구축하고 의미 분류를 수행하는 단계로 나누어 수행하였다.
    자동 태깅 기법은 문맥에서 중의성 단어가 사전에서 추출한 핵심 단어와 공기하면 이 핵심 단어가 추출된 의미로 자동 태깅하는 사전 추출 정보 기반 방법과, 중의성 단어와 핵심 단어 사이에 공통된 연어가 많이 존재하면 핵심 단어가 추출된 의미로 자동 태깅하는 연어 공기 기반 방법을 적용하였다. 그리고 의미 분류기로는 나이브 베이즈 분류기를 이용하였다.
    실험 결과 발견한 사실은 다음과 같다.
    첫째, 사전에서 추출한 정보원의 유형에 따라 자동 태깅의 성능이 차이를 보였다. 뜻풀이 출현 명사, 관련어, 용례 추출 연어, 파생어, 한자 순으로 더 많은 수의 자동 태깅된 학습문맥을 제공하지만, 정확도 측면에서는 한자, 파생어, 용례 추출 연어, 관련어, 뜻풀이 출현 명사 순으로 더 좋은 자동 태깅 성능을 보였다.
    둘째, 사전에서 추출한 핵심 단어에 대해 자주 사용되는 고빈도 단어의 경우 주제적 특성이 없으므로 자질 축소를 하였다. 그 결과 실험문헌의 문헌빈도만 이용한 자질 축소 방법보다 사전의 뜻풀이를 문헌으로 간주하고 산출한 문헌빈도를 같이 적용한 축소 방법이 9.54% 더 높은 성능을 가져왔다.
    셋째, 단일 자질 축소 보다 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 정확도로 더 좋은 성능을 보여 주었다. 연어 공기 기반 방법의 경우 공기 연어의 출현빈도 순으로 상위 N(10, 30, 50, 100, 전체)개로 유형을 나누어 성능의 차이를 분석하여, 상위 30개의 공기된 연어를 자동 태깅에 사용한 유형이 56.33%의 정확도로 가장 좋은 성능을 보여 주었다. 따라서 두 방법의 최고 성능을 비교하면, 연어 공기 기반 방법보다 사전 추출 정보 기반 방법이 24.37% 향상된 성능을 가져왔다.
    넷째, 복수 자질 축소를 이용한 사전 추출 정보 기반 방법의 자동 태깅을 이용한 의미 분류는 68.11%의 정확도를 보였으며, 연어 공기 기반 방법의 자동 태깅을 이용한 의미 분류는 62.09%의 정확도를 보였다. 사전 추출 정보 기반 방법을 적용한 분류기가 9.7% 더 향상된 성능을 보였는데, 이는 사전 추출 정보 기반 방법이 자동 태깅한 학습문맥의 자질이 더 우수하기 때문인 것으로 보인다.
    다섯째, 두 가지 자동 태깅 방법의 결과에 대해 데이터 결합을 수행하였는데, 이 방법의 성능은 복수 자질 축소를 이용한 사전 추출 정보 기반 방법에 비해 8.59%가 향상된 76.09%를 보였다. 또한 데이터 결합의 자동 태깅 결과를 이용한 의미 분류는 정확도가 76.16%로, 사전 추출 정보 기반 방법과 연어 공기 기반 방법에 비해 각각 11.82%, 22.66%로 성능이 향상되었다.
    이상의 실험 결과를 통해 사전만을 이용하여 중의성을 해소할 경우 단일 모형에서는 복수의 자질 축소 기준을 적용한 사전 추출 정보 기반 방법이 연어 공기 기반 방법 보다 더 좋은 성능을 보였으며, 단일 방법과 이들을 결합한 모형 중에서는 결합 모형이 더 좋은 성능을 보였다.
  • Research result and Utilization method
  • 새로운 단어 중의성 모형을 개발하였다. 특히 기존의 단어 중의성 해소 모형이 대규모의 언어자원, 특히 말뭉치를 필요로 하나, 한국어 환경에서는 많은 비용과 비용이 소요되는 것을 기존에 쉽게 이용할 수 있는 전자사전을 이용함으로 대규모의 언어자원을 대체하는 효과를 가져왔다.
    연구결과는 다음과 같다.
    첫째, 사전에서 추출한 정보원의 유형에 따라 자동 태깅의 성능 차이를 보였다. 뜻풀이 출현 단어, 관련어, 연어, 파생어, 한자 순으로 더 많은 수의 학습문맥을 제공하여 중의성 단어에 대한 의미 식별력이 컸으며, 정확도 측면에서는 한자, 파생어, 연어, 관련어, 뜻풀이 출현 단어 순으로 더 좋은 자동 태깅 성능을 보였다.
    둘째, 표제어의 뜻풀이를 기술할 때 자주 사용되는 고빈도 단어의 경우 주제적 특성이 없으므로, 이들을 그대로 자동 태깅에 이용할 경우 오류를 가져올 확률이 높다. 따라서 사전에서 추출한 핵심 단어에 대해 자질 축소를 한 결과, 실험문헌의 문헌빈도만 이용한 자질 축소 방법 보다 사전의 뜻풀이를 문헌으로 간주한 문헌빈도를 같이 적용한 축소 방법의 태깅 정확도가 9.54% 향상된 성능을 가져왔다.
    셋째, 연어 공기 기반 방법의 경우 공기 연어의 출현빈도 순으로 상위 N(10, 30, 50, 100, All)개로 유형을 나누어 성능의 차이를 분석하였다. 상위 30개의 공기된 연어를 자동 태깅에 사용한 유형의 태깅 정확도가 56.33%로 가장 좋은 성능을 보여 주었다. 따라서 자동 태깅을 위한 두 중의성 해소 모형의 성능을 비교하면, 복수 자질 축소 방법을 적용한 사전 추출 정보 기반 방법의 태깅 정확도가 70.06%로, 연어 공기 기반 방법의 56.33%보다 24.37% 향상된 성능을 가져왔다.
    넷째, 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 통해 자동 태깅한 학습문맥을 이용하여 분류기를 구축하고 중의성 단어에 대해 의미 분류를 수행한 결과, 복수 자질 축소에 기반한 사전 추출 정보 기반 방법의 분류기는 68.11%의 분류 정확도를 보였으며, 다른 분류기는 62.09%의 분류 정확도를 보여 사전 추출 정보 기반 방법을 적용한 분류기가 9.7% 향상된 의미 분류 성능을 나타냈다. 이는 사전 추출 정보 기반 방법에서 자동 태깅한 학습문맥의 자질이 더 우수하기 때문인 것으로 보인다.
    다섯째, 사전 추출 정보 기반 방법과 연어 공기 기반 방법의 자동 태깅 결과를 결합한 모형이 단일 모형보다 더 좋은 성능을 가져왔다. 결합 모형의 태깅 성능은 복수 자질 축소를 이용한 사전 추출 정보 기반 방법의 70.06%에 비해 8.59% 향상된 76.09% 태깅 정확도를 보였다. 또한 결합된 자동 태깅 결과를 학습문맥으로 이용한 의미 분류 성능은 76.16%의 분류 정확도로 사전 추출 정보 기반 방법의 68.11%, 연어 공기 기반 방법의 62.09%에 비해 각각 11.82%, 22.66%의 성능 향상이 되었다.
    이 연구에서는 의미 태깅된 언어자원의 제약으로 사전만을 이용하여 중의성을 해소할 경우 단일 모형에서는 복수의 자질 축소 기준을 적용한 사전 추출 정보 기반 방법을 이용하여 중의성 단어의 의미를 분류하는 방법이 가장 좋은 성능을 보인 것으로 나타났다. 그리고 단일 모형과 이들의 결과를 결합한 모형 중에서는 결합 모형이 더 좋은 성능을 보였다. 중의성 해소 성능은 태깅 정확도가 높아질수록 분류 정확도가 높아지는 경향을 보이지만 두 정확도에 정비례하여 증가하지 않는 것을 알 수 있는데, 이는 자동 태깅 방법이 양질의 자질 집합을 형성하느냐 그렇지 않느냐의 문제로 보인다.

    활용할 수있는 분야는 다양하다.
    특히 정보검색과 자연언어 처리에서 중의성 해소는 중요한 기법이 되는데 이러한 부분에서 많은 활용이 될 것으로 사료된다.
  • Index terms
  • 단어 중의성 해소, 단어 의미 식별, 자동 태깅, 의미 분류, 사전 추출 정보 기반 방법, 연어 공기 기반 방법
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력
트위터 페이스북
NRF Daejeon
(34113) 201, Gajeong-ro, Yuseong-gu, Daejeon, Korea
Tel: 82-42-869-6114 / Fax: 82-42-869-6777
NRF Seoul
(06792) 25, Heonreung-ro, Seocho-gu, Seoul, Korea
Tel: 82-2-3460-5500 / Fax: 82-2-3460-5759
KRM Help Center
Tel : 042-710-4360
E-mail : krmcenter@nrf.re.kr / Fax : 042-861-4380