연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10016295&local_id=10017311
세종전자사전과 미크로코스모스 온톨로지를 결합한 한국어 어휘 자원 구축
Reports NRF is supported by Research Projects( 세종전자사전과 미크로코스모스 온톨로지를 결합한 한국어 어휘 자원 구축 | 2007 Year | 신효필(서울대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number A00350
Year(selected) 2007 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2009년 05월 24일
Year type 결과보고
Year(final report) 2009년
Research Summary
  • Korean
  • 본 연구는 세종전자사전의 17,152 체언과 1,500여 기본 동사의 의미를 미크로코스모스(Mikrokosmos) 온톨로지와 사상시키고 논항 정보와 격 정보를 결합한 한국어 어휘 자원의 구축을 목표로 하였다. 연구의 진행과정은 다음과 같이 요약될 수 있다.

    (1) 세종전자사전에서 의미부류가 명시된 17,152여 어휘와 용언 1,500여 어휘를 추출
    (2) 의미부류와 온톨로지 개념 대조
    (3) 일치된 의미부류와 그렇지 않은 부류 구분
    (4) 일치된 의미부류의 재검토 및 자동 사상
    (5) 불일치한 의미부류 어휘들을 미크로코스모스 온톨로지로의 사상
    (6) 의미부류와 개념 대조/저작도구/브라우저 개발
    (7) 한국어 어휘 자원의 데이터베이스화

    본 연구에 의해 총 38,0004 sense가 미크로코스모스로 사상되었고, 이를 살펴볼 수 있는 브라우저가 제작되었다. 전체 연구 결과는 부록에 수록되어 있다.
  • English
  • This research aimed at the construction of Korean lexical resources by mapping 17,152 noun senses and 1,500 predicates of the Sejong Electronic dictionary onto the mikrokosmos ontology. The procedure can be summarized as follows:

    (1) Extracting 17,152 noun senses and 1,500 predicates from the Sejong Electronic dictionary.
    (2) Comparison between sematic classes of the Sejong Electronic Dictionary and concepts of the Mikrokosmos ontology.
    (3) Separating matched classes from unmatched ones.
    (4) mapping words from matched classes onto the ontology.
    (5) mapping words from unmatched classes onto the ontology.
    (6) Developing browsers for the work and search.
    (7) Construction a database for Korean lexical resources.

    Total 38,004 senses were mapped to the Mikrokosmos ontology concepts, and the browsers for the resources were also developed. All the final lexical items are enlisted in the report.
Research result report
  • Abstract
  • 현재 자연언어처리(Natural Language Processing)의 근간이 되는 언어 자원으로 어휘망에 관한 연구와 실제 작업이 활발히 이루어지고 있다. 영어 워드넷(wordnet)을 근간으로 하여 유로워드넷 등의 작업이 이루어지고 한국어에서도 영어 워드넷을 참조한 한국어 어휘 의미망 작업이 이루어지고 있다. 이런 어휘 의미망 작업은 동의(synonymy), 반의(antonymy), 상위(hypernymy), 하위(hyponymy), 전체(holonymy), 부분(meronymy), 함의(entailment), 인과(causal relation), 파생(derivation) 등을 포괄하는 다양한 어휘 의미 관계뿐만 아니라 단어의 형태, 통사 (논항, 하위범주화) 정보 등까지 포함하는 어휘 지식 베이스(knowledge base)를 지향하고 있다. 기존의 대부분의 한국어 어휘 의미망 작업은 워드넷의 synset 기반의 유의어 사전(thesaurus) 기능에서 나타나는 부분, 하위, 함의 등의 관계와 이 synset 사이의 의미-개념적(semantic-conceptual) 관계 그리고 별도로 온톨로지에서 오는 개념 관계들도 포함하여 한국어 어휘들을 기술하려고 한다. 온톨로지 기반의 개념 관계를 도입하는 것은 워드넷의 소위 ‘tennis problem'을 해결하려는 것이다. 워드넷에서 ‘racket, ball, net'는 ’court game'과 연결되지 못하는데 이는 워드넷이 어떤 주제에 대해 어휘들의 소속관계를 체계화하지 못하기 때문이다. 이런 점을 반영하여 한국어 어휘망 연구는 워드넷을 근간으로 하고 온톨로지 기반의 개념 관계까지 포함하여 어휘의 모든 정보를 의미망으로 체계화하려는 소위 어휘 지식베이스적(knowledge base) 성격을 띄게 된다. 그러나 이런 체계로 기술하는 것은 어휘 의미망이 원래 지향하는 바와도 다르며 이런 다양한 관계들을 어휘마다 개별적으로 기술하는 것도 용이하지 않다. 어휘 의미망 작업은 대량의 어휘를 다양한 관계로 연결해야 하기 때문에 기존의 자료를 얼마나 자동적으로 어휘 의미망 구조로 전환하느냐하는 문제도 중요하다. 현재 어휘 의미망 작업은 기존의 사전에서 유의, 반의 등의 관계를 자동 추출하여 이용하고 있다. 그러나 이런 작업은 근간이 되는 사전 기술의 전적으로 의존하게 되어 사전에서 세분되어 기술되지 못하나 실제 자료에서 많이 나타나는 다의적인 속성을 포착하지 못할 뿐 아니라 사전이 지니고 있는 문제점 또한 그대로 물려받게 된다. 본 연구에서는 기존의 어휘 의미망 작업과 다른 관점에서 어휘를 구조화하는 방법을 취한다. 개념체계와 어휘부를 분리시키고 기존의 어휘 의미망에서 체계화된 관계들은 개념 체계를 근간으로 하여 어휘부(lexicon)에 기술한다. 이때 개념이란 어휘 의미망에서 단지 어떤 대상의 의미적인 속성을 대표하는 단순한 명칭이 아니라 이 개념을 이루고 있는 다양한 관계들이 프레임으로 표시되어 있는 구조체이다. 이는 기존의 어휘 의미망 연구에서 어휘들 사이의 관계를 개별 어휘의 속성으로 기술한 것과 달리 개념이 이런 관계를 갖고 있고 이 개념과 가장 밀접하게 부합하는 어휘가 이 속성을 물려받아 어휘부에 그 관계들이 구체적으로 기술됨을 의미한다. 개념체계는 소위 말하는 온톨로지가 되며 이 온톨로지에서 다양한 속성은 슬롯(slot)에 의해 표현된다. 개념 체계는 계층적으로 되어 있기 때문에 개념 체계에 사상된(mapping) 개별 어휘들은 자연히 개념망을 따른 어휘 의미망을 이루게 된다. 이런 기술 방법은 개념 체계와 어휘부를 명확히 분리하여 기존의 어휘 의미망 작업에서 보이는 어휘와 개념의 불분명함을 극복할 수 있게 하고 제한된 개념 체계에 다양한 어휘들을 그 속성의 차이로 기술할 수 있게 하여 더 체계적이며 효율적인 어휘부의 기술을 가능하게 한다. 본 연구에서도 대량의 어휘를 자동으로 처리할 수 있는 방법을 마련한다. 본 연구에서는 세종전자사전을 그 기초자료로 활용한다. 이 사전을 활용하는 것이 기존의 종이로 출판된 사전보다 유리한 점은 (1) 자연언어처리를 위해 개발되었기 때문에 기술구조가 체계적이고 (2) 기존의 어느 국어 사전보다도 통사, 의미 정보가 정교하며 (3) 각 품사별 표제어 항목의 수도 많고 (4) 철저한 어휘론적 입장에서 기술된 사전이기 때문이다. 개념체계로는 미국 뉴멕시코 주립대학에서 개발된 미크로코스모스(The Mikrokosmos) 온톨로지를 이용한다. 미크로코스모스 온톨로지는 자연언어처리를 위해 개발되어 총 5000 여개의 개념으로 되어 있다. 본 연구는 이미 이 온톨로지에 한국어 기본동사 1200여개(다의어를 포함한 총 의미는 4800여 의미)를 사상한 바 있다. 그러나 이 정도 규모로는 언어 자원으로 활용하기 어렵고 명사가 사상되어 있지 않기 때문에 이를 보완하는 것이 필요하다. 명사와 동사를 확충하고 어휘 의미망을 구축하는 것이 최종 목표가 된다.
  • Research result and Utilization method
  • 본 연구는 세종전자사전과 미크로코스모스 온톨로지를 결합하여 자연언어처리를 위한 어휘 자원을 단기간에 구축한다는 의의를 갖는다. 기존에 한국어 어휘망 관련 연구가 여럿 있지만 그 실제 적용에 있어서는 활용이 불분명하고 복잡한 구조로 되어 있다. 본 연구에서는 미크로코스모스 개념 체계에 어휘 항목을 사상하고 자연언어처리에 필요한 핵심적인 정보만을 전자사전에서 추출하여 개념 체계와 그 속성에 따른 어휘 자원을 구축하였다 이런 작업은 10년의 걸친 세종전자사전 작업의 적극적 활용과 재가공이라는 측면에서도 의의가 있고 기존의 한국어 어휘망과는 다른 접근을 취한다는 학문적 의의도 갖는다. 본 과제에서 구축된 어휘 자원은 우선 어휘중의성 해소, 정보검색, 구문 분석 등에 널리 활용될 수 있다.
  • Index terms
  • 세종전자사전, 미크로코스모스온톨로지, 한국어어휘자원, 어휘사상
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력