보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10012243&local_id=10013609

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10012243&local_id=10013609

어휘 의미 중의성 해소: 직관 설문조사 및 코퍼스를 바탕으로 한 중의성 해소 알고리즘

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 어휘 의미 중의성 해소: 직관 설문조사 및 코퍼스를 바탕으로 한 중의성 해소 알고리즘 | 2005 년 신청요강 다운로드

| 최재웅(고려대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00275
선정년도	2005 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2007년 01월 31일
연차구분	결과보고
결과보고년도	2007년

결과보고시 연구요약문

국문
본 논문은 의미 중의성 해소에 대한 화자의 직관의 계산 모형에 대한 연구로, Harris (1964)의 ‘분포가설’에 근거하여 핵심어와 공기하는 어휘들에 대한 분포적 정규성을 포착하는 언어 직관의 계산 모형을 제안한다. 이를 위해 분포적 정규성에 대한 화자의 처리 계산 모 ...

본 논문은 의미 중의성 해소에 대한 화자의 직관의 계산 모형에 대한 연구로, Harris (1964)의 ‘분포가설’에 근거하여 핵심어와 공기하는 어휘들에 대한 분포적 정규성을 포착하는 언어 직관의 계산 모형을 제안한다. 이를 위해 분포적 정규성에 대한 화자의 처리 계산 모형을 파악하기 위하여 심리언어학적 실험을 실시하고 그 결과를 분석한다. 계산 모형으로는 논리 모형, 확률 모형, 그리고 확률 추론 모형의 세 가지 모형이 설정되었다. 실험은 두 가지로 구성되었다. 첫 번째는 100만 어절 코퍼스에서 추출된 문장을 화자 직관으로 의미를 식별하는 실험이었다. 이 실험에서는 응답간 일치도가 98%로 나왔다. 두 번째 실험은, 제한된 환경에서 실험자의 반응을 관찰하기 위한 것으로, 분열문이라는 환경을 통해 핵심어와 공기어사이의 의미 관계를 살펴보았다. 또한 100만 어절 코퍼스에서 관찰된 수치와 실험에서 관찰된 관찰치사이의 상관성을 피어슨의 상관계수로 측정하였다. 그러한 측정 결과 실제 코퍼스에서 관찰되는 현상은 논리 모형과 상관성이 있었고, 제한된 환경에서 실시한 결과는 확률 모형과 상관성이 있었다. 이 실험결과는 논리 모형이 우선적으로 의미 분류에 관여하나, 만약 논리 모형이 적용되지 않을 경우 확률 모형이 관여함을 보여 준다. 아울러 의미 결정 모형의 관점에서는 논리 모형이 정확하게 직관모형을 예측할 수 있었고, 확률 추론 모형도 직관모형을 근사치에 가깝게 예측할 수 있었다.

영문
According to Harris'(1966) distributional hypothesis, understanding the meaning of a word is thought to be dependent on its context. Under this hypothesis about human language ability, this paper proposes a computational model for native speaker's la ...

According to Harris'(1966) distributional hypothesis, understanding the meaning of a word is thought to be dependent on its context. Under this hypothesis about human language ability, this paper proposes a computational model for native speaker's language processing mechanism concerning word sense disambiguation, based on two sets of experiments. Among the three computational models discussed in this paper, namely, the logic model, the probabilistic model, and the probabilistic inference model, the experiment shows that the logic model is first applied for semantic disambiguation of the key word. Next, if the logic model fails to apply, then the probabilistic model becomes most relevant. The three models were also compared with the test results in terms of Pearson correlation coefficient value. It turns out that the logic model best explains the human decision behaviour on the ambiguous words, and the probabilistic inference model comes next. The experiment consists of two parts; one involves 50 sentences extracted from 1 million graphic-word corpus, and the result shows the agreement rate among native speakers is at 98% in terms of word sense disambiguation. The other part of the experiment, which was designed to exclude the logic model effect, is composed of 50 cleft sentences.

연구결과보고서

초록
본 논문은 의미 중의성 해소에 대한 화자의 직관의 계산 모형에 대한 연구로, Harris (1964)의 ‘분포가설’에 근거하여 핵심어와 공기하는 어휘들에 대한 분포적 정규성을 포착하는 언어 직관의 계산 모형을 제안한다. 이를 위해 분포적 정규성에 대한 화자의 처리 계산 모 ...

본 논문은 의미 중의성 해소에 대한 화자의 직관의 계산 모형에 대한 연구로, Harris (1964)의 ‘분포가설’에 근거하여 핵심어와 공기하는 어휘들에 대한 분포적 정규성을 포착하는 언어 직관의 계산 모형을 제안한다. 이를 위해 분포적 정규성에 대한 화자의 처리 계산 모형을 파악하기 위하여 심리언어학적 실험을 실시하고 그 결과를 분석한다. 계산 모형으로는 논리 모형, 확률 모형, 그리고 확률 추론 모형의 세 가지 모형이 설정되었다. 실험은 두 가지로 구성되었다. 첫 번째는 100만 어절 코퍼스에서 추출된 문장을 화자 직관으로 의미를 식별하는 실험이었다. 이 실험에서는 응답간 일치도가 98%로 나왔다. 두 번째 실험은, 제한된 환경에서 실험자의 반응을 관찰하기 위한 것으로, 분열문이라는 환경을 통해 핵심어와 공기어사이의 의미 관계를 살펴보았다. 또한 100만 어절 코퍼스에서 관찰된 수치와 실험에서 관찰된 관찰치사이의 상관성을 피어슨의 상관계수로 측정하였다. 그러한 측정 결과 실제 코퍼스에서 관찰되는 현상은 논리 모형과 상관성이 있었고, 제한된 환경에서 실시한 결과는 확률 모형과 상관성이 있었다. 이 실험결과는 논리 모형이 우선적으로 의미 분류에 관여하나, 만약 논리 모형이 적용되지 않을 경우 확률 모형이 관여함을 보여 준다. 아울러 의미 결정 모형의 관점에서는 논리 모형이 정확하게 직관모형을 예측할 수 있었고, 확률 추론 모형도 직관모형을 근사치에 가깝게 예측할 수 있었다.

연구결과 및 활용방안
본 연구 결과는 일차적으로 자연언어처리의 제일 난제라 할 수 있는 중의성 해소에 기여할 수 있고, 아울러, 언어학적 연구방법론의 발전에 기여할 수 있다고 본다. 직관에 대한 연구를 출발점으로 통계적 방법을 연결시키는 방식은 성찰을 주 방법론으로 택하는 전통적 ...

본 연구 결과는 일차적으로 자연언어처리의 제일 난제라 할 수 있는 중의성 해소에 기여할 수 있고, 아울러, 언어학적 연구방법론의 발전에 기여할 수 있다고 본다. 직관에 대한 연구를 출발점으로 통계적 방법을 연결시키는 방식은 성찰을 주 방법론으로 택하는 전통적 언어학 연구에다가 대규모 자료를 통한 통계적 기법을 방법론으로 취하는 최근의 전산언어학적 연구 방법론을 서로 상보하는 방식으로, 양쪽 분야 모두에 기여할 수 있다고 본다.
의미 중의성 해소는 언어처리에서 빠질 수 없는 기본 기술이다. 이 작업은 마지막 단계의 완성물을 만드는 작업은 아니지만, 중간단계의 작업으로 언어처리 전반에 걸쳐서 응용의 효과가 높은 측면을 갖는다. 특히 기계번역과 정보검색 영역에 필요한 기여를 할 수 있을 것으로 기대된다.
본 연구에서의 연구 결과는 화자 직관에 대한 심리적 모형에 대한 연구로서, 실제 자연언어처리에서 활용되는 여러 기법을 바탕으로한 모형을 제시하고 있다. 이러한 심리적 모형이 실제 자연언어처리에서 보다 효율적인 중의성 해소 시스템 개발하는데도 직접 활용되거나 아니면 참고가 될 수 있을 것으로 본다.

색인어
의미 중의성 해소, 언어 직관 실험, 부울 논리 모형, 최대우도추정치 모형, 베이지안 확률 모형, 코퍼스

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 전산언어학
2순위 : 인문학 > 언어학 > 의미론(언어학)
3순위 : 인문학 > 언어학 > 코퍼스

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.