보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011625&local_id=10018536

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011625&local_id=10018536

한국어 명사 연결 구성의 효율적인 처리를 위한 통사․의미적 언어 자원 구축

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 한국어 명사 연결 구성의 효율적인 처리를 위한 통사&#8228;의미적 언어 자원 구축 | 2005 년 신청요강 다운로드

| 고승희(한국외국어대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00028
선정년도	2005 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2008년 07월 28일
연차구분	결과보고
결과보고년도	2008년

연구결과보고서

초록
본 연구는 한국어 문서의 자동 색인 및 정보 처리 시스템에서 가장 중요한 문제의 하나로 지적되고 있는 명사 연결형 구성에 대한 통사․의미적인 연구를 통해 실제 시스템에서 활용될 수 있는 효율적이고 체계적인 언어 자원을 구축하는 것을 목적으로 하였다.
2장 ...

본 연구는 한국어 문서의 자동 색인 및 정보 처리 시스템에서 가장 중요한 문제의 하나로 지적되고 있는 명사 연결형 구성에 대한 통사․의미적인 연구를 통해 실제 시스템에서 활용될 수 있는 효율적이고 체계적인 언어 자원을 구축하는 것을 목적으로 하였다.
2장에서는 합성 명사와 복합 명사구에 대한 국어학적 관점과 전산학적 관점에서의 기존 연구들을 살펴봄으로써 본 연구의 방향과 어휘 분류 기준을 설정하였다. 기존 연구들이 대부분 명사 연결 구성을 합성 명사와 명사구로 분리하여 다루고 있지만, 본 연구에서는 실제 대량의 언어 데이터베이스를 대상으로 합성 명사와 명사구를 명확하게 판별하기란 매우 어렵다고 판단하고 합성 명사와 명사구를 아울러 하나의 명사 연결 구성에 대한 언어 자원을 구축하려 하였다. 또한 기존 전산학적 관점의 연구들이 연구 과정에서 언어 데이터베이스를 오류를 담고 있는 기존 사전을 그대로 사용하거나 언어 현상을 규칙이나 통계의 방식에 의존하여 명사 연결 구성 어휘들을 처리하고 있기 때문에 형태소 분석과정에서 오류 발생률이 여전히 높다. 본 연구는 언어 처리시 규칙으로 처리할 수 없는 언어 현상들에 대한 처리와 문서에 있음에도 불구하고 형태소 분석의 오류로 인해 정보를 제공받지 못하는 문제를 보완하기 위해 복합어휘를 구성하는 명사 연결 구성 사전을 구축과 함께 명사 연결 구성과 동일한 의미의 명사구를 정보 검색이나 색인 과정에서 동일한 정보로 인식 가능하도록 하기 위해 부분 문법의 방법을 활용한 방법론을 제안하였다.
3장에서는 연구 대상 어휘의 어휘부 구성을 살펴보고 통사-의미적 분석을 위한 어휘 개별적 분석을 시도하였다. 본 논문에서는 기존 연구들에서의 어휘 분류 방식과 달리 언어 처리 과정의 효율성을 고려하여 ‘통사적 대응 구조를 갖지 않는 어휘’와 ‘통사적 대응 구조를 갖는 어휘’로 전체 어휘를 분류하였다. 예를 들면 ‘밤낮’과 같이 의미 전성이 일어나거나 ‘구조개(굴과 조개)’와 같이 음운 변화가 발생된 경우, ‘청량 음료’나 ‘국립 극장’과 같이 통사적 유형화가 불가능하거나 ‘고무 나무’, ‘관계 논리학’ 등과 같이 풀어진 구 형태로 사용될 가능성이 적은 전문 용어류를 ‘통사적 대응 구조를 갖지 않는 어휘’로 분류하였다. 나머지 어휘들은 ‘통사적 대응 구조를 갖는 어휘’로 분류하고 선행 명사와 후행 명사의 의미 관계 분석 및 의미 관계가 반영된 표층 구문 구조로 표현하는 통사적 유형화를 시도하였다.
4장에서는 의미 관계 분석과 통사적 유형화를 위한 데이터베이스를 의미 영역별로 활용 가능하도록 개별 명사의 의미 속성을 이용하여 어휘 분류 작업을 하였다. 기존 연구들을 참고하여 대분류, 중분류 단위로 어휘를 분류하고, 중분류 단위의 단말은 어휘의 개념에 따라 다시 소분류하였다. 소분류 단위의 개념 범주 설정은 후행 명사의 의미가 유사하면 결합 가능한 선행 명사의 유형도 유사할 것이라는 가정에서 분류하였다. 또한 개념 범주의 설정으로 동일 범주 내에서 선행 명사와 후행 명사의 결합 성향에 대한 분석을 시도하였다. 그러나 두 명사 간의 결합은 명사들 간에 결합 가능한 의미 속성의 제약과 같은, 어떤 특정 몇 가지의 규칙만으로는 설명할 수 없음을 확인 할 수 있었다. 그러므로 동일한 개념 범주 내에 속한 유사한 의미의 어휘라 할지라도 선행 명사에 대한 결합 성향은 어휘마다 다르게 나타나기 때문에 경험적 관찰을 통한 어휘 개별적 검증이 필요하다.
5장에서는 앞서 분석된 언어 자원에 대한 정보 구조를 살펴보고, 이를 시스템에 적용 가능하도록 사전의 형태로 구축하였다. 사전과 더불어 부분 문법을 활용함으로써 명사 연결 구성과 동일 의미의 명사구가 동일 정보로 인식될 수 있음을 제안하였다. 그러나 부분 문법 그래프(LGG)의 구축은 많은 시간이 요구되는 작업이므로 본 연구에서는 비교적 언어 사용의 패턴이 한정적인 경제 영역에 포함되는 어휘들을 선별하여 부분 문법 그래프를 구축해 보고, 구축된 사전과 부분 문법 그래프를 이용하여 다음 장에서 명사 연결 구성의 인식과 함께 동일한 의미의 명사구를 동일 정보로 인식 가능한지에 대한 실험을 진행하였다.
6장에서는 구축된 명사 연결 구성 사전과 LGG를 적용하여 두 가지의 실험을 진행하였다. 첫 번째는 동일한 코퍼스를 대상으로 명사 연결 구성 사전을 적용하기 이전과 적용한 후의 명사 연결 구성의 인식 및 처리에 대해 Unitex를 이용하여 구현해 봄으로써 비교해 보았다. 두 번째는 구축된 LGG를 적용한 후 특정 어휘 부류를 대상으로 코퍼스 내에서 명사 연결 구성과 확장된 형태의 명사구를 동일하게 인식 가능한지, 그리고 [BANKRUPT]과 같은 개념 범주 단위로도 정보 색인 및 추출이 가능한지를 실험해 보았다.

연구결과 및 활용방안
실질적인 데이터베이스 분석을 통해 구축된 DECOC-NC-NN 사전을 활용하여 텍스트 분석을 실험한 결과 색인과 관련된 기존 연구 방법론에서는 하나의 의미 단위로 인식하지 못했던 띄어 쓴 형태의 명사 연결 구성을 한 단위의 복합 어휘로 인식 가능하였다. 이렇게 인식된 ...

실질적인 데이터베이스 분석을 통해 구축된 DECOC-NC-NN 사전을 활용하여 텍스트 분석을 실험한 결과 색인과 관련된 기존 연구 방법론에서는 하나의 의미 단위로 인식하지 못했던 띄어 쓴 형태의 명사 연결 구성을 한 단위의 복합 어휘로 인식 가능하였다. 이렇게 인식된 복합 어휘들은 단순 명사들에 비해 문서 내에서 색인어로서의 활용 가능성이 더욱 높을 것이다. 또한 명사 연결 구성 어휘를 구성하는 두 명사 간의 예상되는 표층적인 통사 구조를 LGG의 형태로 미리 정교하게 구축하고 이를 LGG의 변수 처리의 방식을 활용하여 동일 정보임을 표기할 수 있다. 이는 키워드 매칭 방식에서 나타나는 정보 과잉의 문제와 검색어와 검색 대상 문서 내의 다른 어휘 형태로 인해 발생될 수 있는 정보 누락의 문제를 보완할 수 있을 뿐 아니라 유사 어휘에 대한 정보 추출도 가능하였다. 이외에도 구축된 명사 연결 구성 사전과 LGG의 구축은 두 명사 간의 의미 관계를 기반으로 하며, 복합 어휘의 개별 어휘에 대한 의미 정보를 담고 있기 때문에 기존 방법으로는 제어하기 어려운 의미를 활용한 중의성 제어에 활용 가능할 것으로 예상된다. 이외에도 기계 번역 시스템이나 외국인을 위한 다국어 검색 엔진 시스템에서도 활용 가능할 것이다. 서로 다른 언어를 사용하는 외국인 사용자들은 자신의 언어 환경과 동일한 방식으로 외국어를 받아들이게 된다. 그러므로 한국어를 습득하고자 하는 외국인 학습자들에게 명사 연결 구성 어휘의 형성을 이해시키고 나아가 새로운 한국어 명사 연결 구성 어휘를 보다 능률적으로 습득할 수 있게 할 것이다. 또한 목표 언어의 명사 연결 구성 어휘와의 비교․연구를 통해 자동 번역 시스템이나 다국어 검색 시스템에 활용 가능한 명사 연결 구성 사전의 구축 및 언어 정보를 구축함으로써 목표 언어로의 대응되는 어휘 선별을 과정에서 발생되는 많은 오류들을 줄일 수 있을 것이다.

색인어
명사 연결 구성, 복합 명사, 통사-의미적 언어 자원, 언어 데이터베이스 구축, 한국어 전자 사전, 부분 문법, 부분 문법 그래프(LGG), Local Grammar, Unitex

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 전산언어학

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.