보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10016295&local_id=10017311

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10016295&local_id=10017311

세종전자사전과 미크로코스모스 온톨로지를 결합한 한국어 어휘 자원 구축

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 세종전자사전과 미크로코스모스 온톨로지를 결합한 한국어 어휘 자원 구축 | 2007 년 | 신효필(서울대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00350
선정년도	2007 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2009년 05월 24일
연차구분	결과보고
결과보고년도	2009년

결과보고시 연구요약문

국문
본 연구는 세종전자사전의 17,152 체언과 1,500여 기본 동사의 의미를 미크로코스모스(Mikrokosmos) 온톨로지와 사상시키고 논항 정보와 격 정보를 결합한 한국어 어휘 자원의 구축을 목표로 하였다. 연구의 진행과정은 다음과 같이 요약될 수 있다.

(1) 세종전자사전 ...

본 연구는 세종전자사전의 17,152 체언과 1,500여 기본 동사의 의미를 미크로코스모스(Mikrokosmos) 온톨로지와 사상시키고 논항 정보와 격 정보를 결합한 한국어 어휘 자원의 구축을 목표로 하였다. 연구의 진행과정은 다음과 같이 요약될 수 있다.

(1) 세종전자사전에서 의미부류가 명시된 17,152여 어휘와 용언 1,500여 어휘를 추출
(2) 의미부류와 온톨로지 개념 대조
(3) 일치된 의미부류와 그렇지 않은 부류 구분
(4) 일치된 의미부류의 재검토 및 자동 사상
(5) 불일치한 의미부류 어휘들을 미크로코스모스 온톨로지로의 사상
(6) 의미부류와 개념 대조/저작도구/브라우저 개발
(7) 한국어 어휘 자원의 데이터베이스화

본 연구에 의해 총 38,0004 sense가 미크로코스모스로 사상되었고, 이를 살펴볼 수 있는 브라우저가 제작되었다. 전체 연구 결과는 부록에 수록되어 있다.

영문
This research aimed at the construction of Korean lexical resources by mapping 17,152 noun senses and 1,500 predicates of the Sejong Electronic dictionary onto the mikrokosmos ontology. The procedure can be summarized as follows:

(1) Extracting 17, ...

This research aimed at the construction of Korean lexical resources by mapping 17,152 noun senses and 1,500 predicates of the Sejong Electronic dictionary onto the mikrokosmos ontology. The procedure can be summarized as follows:

(1) Extracting 17,152 noun senses and 1,500 predicates from the Sejong Electronic dictionary.
(2) Comparison between sematic classes of the Sejong Electronic Dictionary and concepts of the Mikrokosmos ontology.
(3) Separating matched classes from unmatched ones.
(4) mapping words from matched classes onto the ontology.
(5) mapping words from unmatched classes onto the ontology.
(6) Developing browsers for the work and search.
(7) Construction a database for Korean lexical resources.

Total 38,004 senses were mapped to the Mikrokosmos ontology concepts, and the browsers for the resources were also developed. All the final lexical items are enlisted in the report.

연구결과보고서

초록
현재 자연언어처리(Natural Language Processing)의 근간이 되는 언어 자원으로 어휘망에 관한 연구와 실제 작업이 활발히 이루어지고 있다. 영어 워드넷(wordnet)을 근간으로 하여 유로워드넷 등의 작업이 이루어지고 한국어에서도 영어 워드넷을 참조한 한국어 어휘 의 ...

현재 자연언어처리(Natural Language Processing)의 근간이 되는 언어 자원으로 어휘망에 관한 연구와 실제 작업이 활발히 이루어지고 있다. 영어 워드넷(wordnet)을 근간으로 하여 유로워드넷 등의 작업이 이루어지고 한국어에서도 영어 워드넷을 참조한 한국어 어휘 의미망 작업이 이루어지고 있다. 이런 어휘 의미망 작업은 동의(synonymy), 반의(antonymy), 상위(hypernymy), 하위(hyponymy), 전체(holonymy), 부분(meronymy), 함의(entailment), 인과(causal relation), 파생(derivation) 등을 포괄하는 다양한 어휘 의미 관계뿐만 아니라 단어의 형태, 통사 (논항, 하위범주화) 정보 등까지 포함하는 어휘 지식 베이스(knowledge base)를 지향하고 있다. 기존의 대부분의 한국어 어휘 의미망 작업은 워드넷의 synset 기반의 유의어 사전(thesaurus) 기능에서 나타나는 부분, 하위, 함의 등의 관계와 이 synset 사이의 의미-개념적(semantic-conceptual) 관계 그리고 별도로 온톨로지에서 오는 개념 관계들도 포함하여 한국어 어휘들을 기술하려고 한다. 온톨로지 기반의 개념 관계를 도입하는 것은 워드넷의 소위 ‘tennis problem'을 해결하려는 것이다. 워드넷에서 ‘racket, ball, net'는 ’court game'과 연결되지 못하는데 이는 워드넷이 어떤 주제에 대해 어휘들의 소속관계를 체계화하지 못하기 때문이다. 이런 점을 반영하여 한국어 어휘망 연구는 워드넷을 근간으로 하고 온톨로지 기반의 개념 관계까지 포함하여 어휘의 모든 정보를 의미망으로 체계화하려는 소위 어휘 지식베이스적(knowledge base) 성격을 띄게 된다. 그러나 이런 체계로 기술하는 것은 어휘 의미망이 원래 지향하는 바와도 다르며 이런 다양한 관계들을 어휘마다 개별적으로 기술하는 것도 용이하지 않다. 어휘 의미망 작업은 대량의 어휘를 다양한 관계로 연결해야 하기 때문에 기존의 자료를 얼마나 자동적으로 어휘 의미망 구조로 전환하느냐하는 문제도 중요하다. 현재 어휘 의미망 작업은 기존의 사전에서 유의, 반의 등의 관계를 자동 추출하여 이용하고 있다. 그러나 이런 작업은 근간이 되는 사전 기술의 전적으로 의존하게 되어 사전에서 세분되어 기술되지 못하나 실제 자료에서 많이 나타나는 다의적인 속성을 포착하지 못할 뿐 아니라 사전이 지니고 있는 문제점 또한 그대로 물려받게 된다. 본 연구에서는 기존의 어휘 의미망 작업과 다른 관점에서 어휘를 구조화하는 방법을 취한다. 개념체계와 어휘부를 분리시키고 기존의 어휘 의미망에서 체계화된 관계들은 개념 체계를 근간으로 하여 어휘부(lexicon)에 기술한다. 이때 개념이란 어휘 의미망에서 단지 어떤 대상의 의미적인 속성을 대표하는 단순한 명칭이 아니라 이 개념을 이루고 있는 다양한 관계들이 프레임으로 표시되어 있는 구조체이다. 이는 기존의 어휘 의미망 연구에서 어휘들 사이의 관계를 개별 어휘의 속성으로 기술한 것과 달리 개념이 이런 관계를 갖고 있고 이 개념과 가장 밀접하게 부합하는 어휘가 이 속성을 물려받아 어휘부에 그 관계들이 구체적으로 기술됨을 의미한다. 개념체계는 소위 말하는 온톨로지가 되며 이 온톨로지에서 다양한 속성은 슬롯(slot)에 의해 표현된다. 개념 체계는 계층적으로 되어 있기 때문에 개념 체계에 사상된(mapping) 개별 어휘들은 자연히 개념망을 따른 어휘 의미망을 이루게 된다. 이런 기술 방법은 개념 체계와 어휘부를 명확히 분리하여 기존의 어휘 의미망 작업에서 보이는 어휘와 개념의 불분명함을 극복할 수 있게 하고 제한된 개념 체계에 다양한 어휘들을 그 속성의 차이로 기술할 수 있게 하여 더 체계적이며 효율적인 어휘부의 기술을 가능하게 한다. 본 연구에서도 대량의 어휘를 자동으로 처리할 수 있는 방법을 마련한다. 본 연구에서는 세종전자사전을 그 기초자료로 활용한다. 이 사전을 활용하는 것이 기존의 종이로 출판된 사전보다 유리한 점은 (1) 자연언어처리를 위해 개발되었기 때문에 기술구조가 체계적이고 (2) 기존의 어느 국어 사전보다도 통사, 의미 정보가 정교하며 (3) 각 품사별 표제어 항목의 수도 많고 (4) 철저한 어휘론적 입장에서 기술된 사전이기 때문이다. 개념체계로는 미국 뉴멕시코 주립대학에서 개발된 미크로코스모스(The Mikrokosmos) 온톨로지를 이용한다. 미크로코스모스 온톨로지는 자연언어처리를 위해 개발되어 총 5000 여개의 개념으로 되어 있다. 본 연구는 이미 이 온톨로지에 한국어 기본동사 1200여개(다의어를 포함한 총 의미는 4800여 의미)를 사상한 바 있다. 그러나 이 정도 규모로는 언어 자원으로 활용하기 어렵고 명사가 사상되어 있지 않기 때문에 이를 보완하는 것이 필요하다. 명사와 동사를 확충하고 어휘 의미망을 구축하는 것이 최종 목표가 된다.

연구결과 및 활용방안
본 연구는 세종전자사전과 미크로코스모스 온톨로지를 결합하여 자연언어처리를 위한 어휘 자원을 단기간에 구축한다는 의의를 갖는다. 기존에 한국어 어휘망 관련 연구가 여럿 있지만 그 실제 적용에 있어서는 활용이 불분명하고 복잡한 구조로 되어 있다. 본 연구에서는 ...

본 연구는 세종전자사전과 미크로코스모스 온톨로지를 결합하여 자연언어처리를 위한 어휘 자원을 단기간에 구축한다는 의의를 갖는다. 기존에 한국어 어휘망 관련 연구가 여럿 있지만 그 실제 적용에 있어서는 활용이 불분명하고 복잡한 구조로 되어 있다. 본 연구에서는 미크로코스모스 개념 체계에 어휘 항목을 사상하고 자연언어처리에 필요한 핵심적인 정보만을 전자사전에서 추출하여 개념 체계와 그 속성에 따른 어휘 자원을 구축하였다 이런 작업은 10년의 걸친 세종전자사전 작업의 적극적 활용과 재가공이라는 측면에서도 의의가 있고 기존의 한국어 어휘망과는 다른 접근을 취한다는 학문적 의의도 갖는다. 본 과제에서 구축된 어휘 자원은 우선 어휘중의성 해소, 정보검색, 구문 분석 등에 널리 활용될 수 있다.

색인어
세종전자사전, 미크로코스모스온톨로지, 한국어어휘자원, 어휘사상

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 전산언어학

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.