연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구성과물 유형별 검색 > 보고서 상세정보

보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007405&local_id=10010786
미크로코스모스(Mikrokosmos) 온톨로지로의 한국어 기본 동사 사상 및 데이터베이스 구축
이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 미크로코스모스& #40;Mikrokosmos& #41; 온톨로지로의 한국어 기본 동사 사상 및 데이터베이스 구축 | 2004 년 신청요강 다운로드 PDF다운로드 | 신효필(서울대학교) ) 연구결과물 로 제출된 자료입니다.
한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
연구과제번호 A00211
선정년도 2004 년
과제진행현황 종료
제출상태 재단승인
등록완료일 2006년 05월 24일
연차구분 결과보고
결과보고년도 2006년
결과보고시 연구요약문
  • 국문
  • 본 연구는 미크로코스모스 온톨로지를 중심으로 이 언어중립적인 개념구조에 한국어 동사를 사상(mapping)시켜 각 동사가 지닌 통사, 의미적 관계를 포함한 여러 다양한 정보를 기술하고자 하였다. 따라서 미크로코스모스 온톨로지 개념 구조에 대한 이해가 선행되어야 한다. 연구 시작 초반에는 미크로코스모스 개념 구조 및 온톨로지 전반에 관한 학습이 보조연구원들에게 행해졌다.
    이 개념구조에 익숙해진 후 선정된 한국어 핵심 동사를 실제 개념구조에 따라 기술하는 작업을 하였다. 이 기술은 동사의 경우 각 어휘가 지닌 여러 정보를 주어진 틀로 기술하게 된다. 본 연구에서는 국립국어연구원에서 2003년 5월에 발표한 한국어 학습용 어휘 목록 중에서 1283 개의 동사를 기술대상으로 한다. 이 목록은 국립국어연구원이 2002년도 발표한 현대 국어 사용 빈도 조사에 근거하여 동사 중에서 가장 많이 쓰이는 상위 1350여 목록 중에서 동형어에 따라 겹치는 것을 모두 하나로 포괄한 것이다. 실제 기술시 동형어 및 다의어에 따른 어휘기술이 증가하기 때문에 총 기술 목록 수는 크게 증가하였다. 또한 사용자가 온톨로지 구조를 전체적으로 조망할 수 있도록 브라우저를 제작하였다. 온톨로지 브라우저는 무료로 배포되고 신뢰성이 높은 Protege2000을 채택하였다. Protege200은 고유의 데이터 형식으로 온톨로지를 표현할 수 있을 뿐 아니라, W3C에서 제안한 온톨로지 기술 언어인 RDF와 OWL 형식으로도 표현가능한 장점이 있다. Protege2000의 고유형식으로 온톨로지를 표현하는 것보다 범용 온톨로지 기술 언어인 RDF를 선택하였다. 이런 모든 매핑은 데이터베이스화되어 있어 필요한 자료를 검색하기 쉬운 구조로 되어 있다. 이 자료는 기계번역, 정보검색, 질의어 응답 시스템 등 자연언어처리의 기본자료로 활용될 수 있다.
  • 영문
  • This research aims at constructing a large language resource by mapping Mikrokosmos ontologies with Korean basic verbs, which result in a database containing syntactic and semantic information as well as mapped concepts. The first job was to understand the structure of Mikrokosmos ontology. After completing the job, we started the mapping work. We took the list of 1,283 Korean basic verbs from Korean vocabularies for education published by National Institute of Korean Language in 2002. The actual mapping items increased, because each lexical item can have more than one meaning, that is, can be used as polysemy. We also adopted ontology browsing tools called Protege2000 developed by Stanford University, which can represent RDF and OWL as well as its own data format. The outputs contain mapped concepts, selectional restrictions, arguments, and examples, which were all put into the database and easy to search. The data developed in this project can be used for many NLP systems including machine translation, information retrieval, and question-answering system.
연구결과보고서
  • 초록
  • 본 연구는 미국 뉴멕시코 주립대학(New Mexico State University)에서 자연언어처리를 위해 개발된 언어 중립적(language-independent) 개념구조인 미크로코스모스(The Mikrokosmos) 온톨로지를 한국어 기본 동사와 사상하여 어휘부를 구축하고 이를 데이터베이스화하는 것을 목적으로 한다.
    온톨로지라는 말은 희랍어 ‘ontos(being)'와 'logos(word)'에 기인한다. 이는 원래 철학, 특히 형이상학의 한 분야로, 이 세계에 존재(being)하는 것들의 종류, 그 본성과 관계 등에 대한 연구나 학문을 지칭하는 말이다. 온톨로지는 1967년 S.H. Mealy가 전산학 분야에 도입한 이래, 지난 수십년간 특히 인공지능분야에서 지식표현(knowledge representation)의 수단으로 사용되고 있다. 이 분야에서 가장 널리 알려진 온톨로지 정의는 Gruber(1993)의, "온톨로지란 공유된 개념화(shared conceptualization)의 형식적이고 분명한 명세"라는 정의다. 여기서 개념화란 어떤 목적으로 표현하고자 하는 대상을 추상화하고 단순화시킨 것이다. 형식적이란 규정된 용어들과 그들 사이의 관계를 컴퓨터가 이해할 수 있는 방법으로 표시하는 것이다.
    미크로코스모스 온톨로지는 자연언어처리 특히 언어 중립적 기계번역을 위해 구축된 개념구조이다. 메타언어로 영어를 사용하지만 어느 한 특정언어의 구조를 그대로 반영하지 않는다. 이런 점에서 한국어 및 영어에서 구축되고 있는 워드넷(wordnet) 및 개념망 작업과는 차이가 있다. 이 미크로코스모스 온톨로지에서 각 개념은 프레임(Frame)이라는 기제로 그 개념의 어휘적 구현시 요구되는 통사, 의미적 정보를 포함한 다양한 개념정보를 슬롯(slot)과 그 값들로 표시한다.
    본 연구에서는 이 개념구조를 실제 한국어 어휘, 특히 동사에 사상시켜 어휘부를 구축하고 이를 데이터베이스화하고자 한다. 이런 연구 방법은 기간의 한국어 개념구조를 구축하려는 이론적 또는 전산적 연구에서 제기되는 문제점 및 자연언어처리를 위한 한국어 전자사전 구축시 제기된 결점을 보완할 수 있는 장점을 지닌다. 이 연구에 의해 언어중립적인 개념망을 중심으로 각 언어의 어휘부의 기술이 이루어진다면 다국어 대조 작업 및 기계번역 정보검색 시에 활용될 수 있는 기초자료를 구축할 수 있다. 실제로 영어, 스페인어, 중국어의 어휘 사상 작업은 뉴멕시코주립대학에서 완료되어 있다
  • 연구결과 및 활용방안
  • 본 연구는 미크로코스모스 온톨로지를 중심으로 이 언어중립적인 개념구조에 한국어 동사를 사상(mapping)시켜 각 동사가 지닌 통사, 의미적 관계를 포함한 여러 다양한 정보를 기술하고자 하였다. 따라서 미크로코스모스 온톨로지 개념 구조에 대한 이해가 선행되어야 한다. 연구 시작 초반에는 미크로코스모스 개념 구조 및 온톨로지 전반에 관한 학습이 보조연구원들에게 행해졌다.
    이 개념구조에 익숙해진 후 선정된 한국어 핵심 동사를 실제 개념구조에 따라 기술하는 작업을 하였다. 이 기술은 동사의 경우 각 어휘가 지닌 여러 정보를 주어진 틀로 기술하게 된다. 본 연구에서는 국립국어연구원에서 2003년 5월에 발표한 한국어 학습용 어휘 목록 중에서 1283 개의 동사를 기술대상으로 한다. 이 목록은 국립국어연구원이 2002년도 발표한 현대 국어 사용 빈도 조사에 근거하여 동사 중에서 가장 많이 쓰이는 상위 1350여 목록 중에서 동형어에 따라 겹치는 것을 모두 하나로 포괄한 것이다. 실제 기술시 동형어 및 다의어에 따른 어휘기술이 증가하기 때문에 총 기술 목록 수는 크게 증가하였다.
    뉴멕시코 주립대학(New Mexico State University)의 미크로코스모스(Mikrokosmos) 온톨로지 개념들 5395개를 확보하고, 사용자가 온톨로지 구조를 전체적으로 조망할 수 있도록 브라우저를 제작하였다. 온톨로지 브라우저는 Ontosaurus, RDFedit, semtalk2, neoclassic, OKSmallTalkClass, Doe 등과 같이 다양한 도구들이 있었지만, 이 중에서 무료로 배포되고 신뢰성이 높은 Protege2000을 채택하였다. Protege200은 고유의 데이터 형식으로 온톨로지를 표현할 수 있을 뿐 아니라, W3C에서 제안한 온톨로지 기술 언어인 RDF와 OWL 형식으로도 표현가능한 장점이 있다. Protege2000의 고유형식으로 온톨로지를 표현하는 것보다 범용 온톨로지 기술 언어인 RDF나 OWL로 기술하기로 결정하고, 그 중에서 좀더 간단한 언어인 RDF를 선택하였다.
    이 툴을 이용하여 실제 동사 다의어를 미크로코스모스 온톨로지와 사상하는 작업을 진행하였다. 1차 연관작업을 마치고, 4,800여개의 매핑된 동사목록 중에서 최상위 1,500개 목록에 대해 온톨로지 개념을 다시 한번 상호 검수하였다. 1차 작업의 개념 매핑작업이 일관성이 없거나, 기술자들마다 약간의 차이가 있으므로, 기술자들이 정기적으로 모여 매핑작업이 일관성있고 정확하도록 보완작업을 진행하였다. 이런 자료는 MySql로 데이터베이스화 되어 있어 검색하기 쉬운 구조로 되어 있다.
    본 연구과제의 결과물은 이론언어학적 및 전산언어학적 관점에서 활용가능성과 기대효과를 가질 수 있다.
     이론언어학적 관점: 개념체계가 단순히 어휘부류를 위한 부류명에서 벗어나 어휘의 통사, 의미적 속성을 지니고 있는 복합구조로 표현되어 기간의 개념구조 및 명사부류 연구에서 벗어난 새로운 관점의 연구방향을 제시할 수 있다. 또한 기존의 의미부류 연구의 결점을 보완하고 체계화된 개념구조가 실제 어휘기술의 중추적 역할을 함을 보여줄 수 있다. 개념구조가 단순히 분류명이 아니라 여러 정보의 복합체이며 서로 연결된 관계를 체계화할 수 있다.
     전산언어학적 관점: 자연언어처리의 큰 걸림돌이 되고 있는 단어의 중의적, 다의적 의미를 개념구조를 통해 기술해 놓아 중의성 해소에 큰 도움이 될 수 있다. 또한 이 중의성 해소를 통해 여러 자료들로부터의 특정한 정보를 사용자의 요구에 맞게 검색, 추출할 수 있는 정보검색, 정보추출 분야에 이용할 수 있다. 기계번역 분야에서도 개념구조와 사상된 다국어 자료가 구축되어 고품질의 번역결과를 얻을 수 있다. 또한 현재 많이 연구되고 있는 시멘틱 웹(semantic web)의 근간이 되는 온톨로지 구축에도 사용될 수 있다. 시멘틱 웹에서 필요한 자연언어의 중의성 해소를 위해 각 어휘를 기술해 놓은 자료로 활용될 수 있으며 온톨로지 관련 툴 개발 및 에디터는 온톨로지 유지 작업에도 활용될 수 있다. 개념들이 연결된 데이터베이스에서 각 개념들을 삭제하고, 첨가하는 등의 작업에서 필요한 데이터 베이스 유지 및 관리에도 중요한 기여를 할 수 있다.
  • 색인어
  • 온톨로지, ,미크로코스모스 온톨로지, 개념구조, 한국어 기본동사, 사상
  • 이 보고서에 대한 디지털 콘텐츠 목록
데이터를 로딩중 입니다.
  • 본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
  • 또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.
데이터 이용 만족도
자료이용후 의견
입력