연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

중국어 비교문의 논항 구조 분석 및 의미역 자동 추출
Analysis of argument structure and automatic labeling of semantic roles in Chinese comparatives
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 학문후속세대양성(박사후국내연수) [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2018-S1A5B5A01-2018S1A5B5A01029238
선정년도 2018 년
연구기간 2 년 6 개월 (2018년 07월 01일 ~ 2020년 12월 31일)
연구책임자 박민준
연구수행기관 덕성여자대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 본 연구는 중국어 비교 범주에 출현하는 의미역에 대한 분포적 특징 (통사·의미적 선택 제약 및 출현 패턴) 및 개별 구문 유형 ('有' 비교문, '比' 비교문, '像' 비교문 등)의 구조적 특징을 밝히고 이를 바탕으로 중국어 비교 정보 자동 추출 시스템을 구현하는 것을 목표로 한다. 중국어는 형태적 변화가 포착되지 않고 우리말의 조사, 어미와 같이 내용적 요소를 문법적으로 엮어 줄 기능적 요소도 부족하다. 이러한 중국어의 특수성으로 인해, 통사-의미 층위를 매개하는 의미역에 관한 연구의 중요성이 상대적으로 두드러진다. 가령, "我借他一本書"의 예시에서 '我'와 '他'의 의미역 속성에 따라 의미가 달라지며, "懷疑張三的老師"와 같은 예문에서는 피동작주를 확정할 수 없고, "前排坐領導-領導坐前排"와 같이 동일한 속성의 의미역이 상반된 분포를 보이기도 한다. 이처럼 중국어 특유의 중의성과 모호성을 해소하기 위해서는 의미역에 대한 심층적이고 다각적인 분석이 요구된다. 중국어학계는 비교적 이른 시기부터 의미역에 관한 논의를 진행해 왔다 (呂叔湘 1956, 朱德熙 1982 등). 하지만 서구 학계의 의미역 논의가 이론적 영역에만 머무르지 않고 논항 정보 코퍼스(PropBank, FrameNet) 구축 등의 응용 언어학적 연구로 발전해 나갔던 것과 달리, 중국 학계에서의 주요 논의는 의미역의 종류와 정의, 개념적 지위에 대한 문제에 집중되면서 여러 견해가 혼재된 상태로 연구의 외연을 넓히지 못하고 있다. 오늘날 인터넷 기반 빅테이터 환경 속에서 의미역 분석의 잠재적 가치는 상당히 높다. 날마다 생산·공유되는 정보량의 폭증으로 개인에 의존한 정보 처리가 점차 불가능해지는 상황에서, 기계에 의한 자동 정보 추출은 자연언어처리 방면에서 새로운 연구 분야로 많은 주목을 받고 있다. 가령 "卡羅拉發動機噪音比花冠大多了"와 같은 비교문에서 비교 주체인 '卡羅拉'가 비교 객체인 '花冠'보다 '噪音'이 훨씬 크다는 핵심 정보를 자동으로 추출할 수 있다면 기업에서는 인터넷 상의 상품평을 대상으로 신속하게 대량의 정보를 수집하여 마케팅에 활용할 수 있다. 더 나아가 이러한 능력을 기반으로 질의 응답, 내용 요약, 자동 추론 등의 인공지능 시스템을 개발할 수도 있다. 다만 유연하고 비명시적인 중국어의 통사적 특징으로 인해, 정확한 정보 추출을 위해서는 영어 등 기타 외국어 처리보다 더욱 세밀한 통사적, 의미적 특징을 포착해내는 것이 필수적이다. 그 첫걸음으로서, 본 연구는 중국어 비교 범주를 대상으로 정밀한 의미역 분석 틀과 이론적 토대를 제시한다. 지금까지 중국어학계에서 비교 범주의 설정(呂叔湘 1956、劉月華 1983, 劉焱 2004 등), 하위 구형 분류(趙金銘 2001, 陳珺、周小兵 2005, 耿直 2012 등) 및 개별 구문에 대한 분석과 묘사(李臨定 1986, 任海波 1987, 邵敬敏 1990, 唐厚廣 1997, 岳中奇 1999, 張豫峰 1999 등)에 대해서 상당히 많은 연구 성과가 축적되었다. 하지만 비교 범주 전체를 포괄하는 전산 응용 지향적인 통사 구조 및 의미 분석은 찾아보기 힘들다. 본 연구는 비교문 정보 추출이라는 새로운 연구 주제 하에서, 2만 문장 규모의 의미역·통사 정보 주석 말뭉치(annotated corpus)를 구축하고, 이를 통해 비교 구문에 출현하는 의미역의 출현 양상과 통사·의미적 제약 요소를 분석하여 비교 정보 자동 추출을 실현하고자 한다. 동시에 언어학 이론과 전산 응용 연구 간의 상호 피드백을 통해 새로운 언어학적 현상의 발견과 지식의 활용을 촉진하는 상호 보완적인 연구 방법론을 모색하고자 한다.
  • 기대효과
  • 가. 중국어 특색의 문법 연구를 지향하는 새로운 주제와 방법론 제시 형태표지 및 기능적 요소의 부족에서 비롯되는 중국어의 의미적 모호성을 극복하기 위해서는 의미역과 논항에 대한 심층적이고 다각적인 분석이 꼭 필요하다. 그 첫걸음으로서 본 연구는 중국어 비교 범주를 대상으로 정교한 의미역 분석 틀과 이론적 토대를 제시하고, 이에 근거한 정량적 분석을 통해 중국어 비교 구문의 의미역 출현 양상과 통사·의미적 특성을 밝힌다. 나. 중국어 비교 범주의 통사·의미를 포괄하는 정교한 이론 연구에 기여 기존 연구들은 '有', '比', '像' 비교문 등 개별 구문의 유형별 분석과 묘사에 치중하여 연구 범위가 제한적일 뿐 아니라, 이로 인해 연구 성과가 분산되어 비교 범주에 대한 통합적 시각을 제시하는 데 한계가 있었다. 반면, 본 연구에서 제안하는 8종 의미역 분석틀은 각종 비교 구문에 포괄적으로 적용이 가능하며, 기존 연구들의 규범 양식보다 더욱 세밀하고 정교한 분석이 가능하다. 가령, 劉丹青(2003)의 예 "東西你比我好,價錢我比你便宜" 중 '东西'와 '價錢'은 이질적 속성에도 불구하고 단일 범주('比较点', 비교점)로 획일화되어 다양한 잠재적 통사·의미적 자질을 포착할 수 없었다. 하지만 본 연구의 8종 의미역 분석 체계 안에서 이들은 각각 '비교항목'과 '비교속성'으로 세분되어 다층적인 논항 관계(我-東西-價錢-便宜)와 서로 다른 통사적 분포(你的東西好; *我的價錢便宜)를 파악할 수 있게 된다. 이외에도, 8종 의미역 체계는 비교 대상 간의 상대적 격차를 드러내는 '비교차이'성분을 첨가함으로써 극성(polarity)의 강도와 비교 순위 추론을 가능하게 하며, 비교 대상 간의 다양한 결합 방식과 그 비대칭 현상, 서로 다른 의미역 간의 분포적 제약, 구조적 특징과 술어 의미 유형 사이의 상관관계 등 각종 언어학적 현상 분석과 연구에 중요한 이론적 토대를 제공한다. 다. 말뭉치 기반 언어학 연구에 기여 현재까지는 비교 구문을 중점적으로 다룬 전문화된 주석 말뭉치 (specialized&annotated corpus)의 부재로 인해 비교 구문의 실증적 연구에 제약이 있었다. 이에 따라, 본 연구과제팀은 신문, 문학, 교재, 인터넷의 상품평, 블로그 등 다방면의 문어·구어 텍스트 속 비교 구문을 대상으로 8종 의미역과 통사 정보를 부착할 것이다. 추진 일정에 따라 2만 문장 규모의 문법 정보 표기(tagging)가 완료되면, 세계 최초의 중국어 비교 구문 주석 말뭉치(annotated corpus)가 탄생하게 된다. 구축된 말뭉치는 중국어 비교문의 통사 구조 분석, 고빈도 상용구 통계, 정보 추출(IE) 및 의미역 인식(SRL) 등에 정량적 분석 데이터를 제공함으로써 말뭉치 기반 연구의 발전에 크게 기여할 것이다.  라. 중국어 교육에 기여 비교 구문은 상품 구매, 우열평가 등에 널리 쓰이는 고빈도 상용구문으로서 중국어 학습자가 반드시 익혀야 할 표현이다. 본 연구를 통해 구축된 비교 구문 말뭉치는 인터넷의 상품평이나 블로그 등 교과서나 사전에서 접하기 힘든 용례까지 포함하므로, 학습자는 말뭉치의 검색을 통해 살아있는 예문을 접할 수 있다. 또한, 본 연구의 미세분류 모형에 따른 선형 및 심층 구문 분석 모델은 비교 구문의 의미역 출현 패턴과 통사 구조를 자동으로 분석하고 시각화함으로써, 학습자의 흥미를 유발하고 비교문의 심층 구조에 대한 직관적인 이해를 돕는다. 게다가, 말뭉치의 정량적 분석을 통해 얻어지는 비교 구문의 경향성은 중국어 교과과정의 기본 문형 선정 및 교재 목차 구성의 준거로 활용할 수 있다. 마. 언어학과 정보 공학의 상호 교류 및 인공지능 발전에 기여 비교 구문은 주관적 평가를 드러내는 대표적 문형으로, 비교 구문의 의미역 연구는 그간 의미론에서 상대적으로 연구가 미진했던 정서적 의미(affective meaning)의 심화 연구를 촉진할 수 있다. 또한, 본 연구의 비교문 의미역 자동 추출 프로그램은 비교 대상과 쟁점 속성 및 그에 대한 화자의 선호도를 자동으로 분석해냄으로써, 이를 활용하면 온라인 상의 상품 평가, 이용 후기를 분석하여 단시간에 특정 상품의 인기도와 장·단점 등의 유의미한 정보를 도출해낼 수 있다. 현재 정보 공학 분야에서는 단순히 빅데이터 속 어휘의 분포적 특징과 알고리즘의 최적화에 의존하는 양적 데이터 주도의 모델이 주류를 이루고 있는데, 우리는 언어학의 연구 성과, 즉 통사·의미 지식을 활용하는 데이터의 질적 강화를 통해 기존 모델의 단점을 보완하고 성능을 개선할 것이다. 이로써 본 연구는 자연언어처리 연구 전반에 언어학적 지식 이용에 대한 주의를 환기, 4차 산업혁명 시대의 전환기에 인공지능 분야에서 언어학의 연구 지평을 넓히는 데 크게 이바지할 것이다.
  • 연구요약
  • 가. 연구목적 본 연구는 중국어 비교 범주에 출현하는 의미역에 대한 분포적 특징 (통사·의미적 선택 제약 및 출현 패턴)과 개별 구문 유형 ('有' 비교문, '比' 비교문, '像' 비교문 등)의 구조적 특징을 밝히고 이를 바탕으로 중국어 비교 정보 자동 추출 시스템을 구현하는 것을 목표로 한다. 나. 연구내용 이를 위해 먼저 8종 의미역 분류 체계 (비교환경, 비교주체, 비교객체, 비교표지, 비교항목, 비교속성, 비교결과, 비교차이)를 세우고, 신문, 교재, 상품평 등의 문어, 구어 텍스트를 대상으로 의미역 및 통사 정보를 부착한 중국어 비교문 말뭉치를 구축한다. 동시에 기존 연구에서 경시했던 비교환경, 비교항목, 비교차이 등의 요소를 존재론적, 인지과학적, 형식의미론적 관점에서 재조명하여, 상기 요소들의 세분화가 비교 구문 분석에 유용함을 입증한다. 다음으로, 8종 의미역 분석틀에 따라 비교 범주의 의미역 출현 양상에 대해 전면적이고 체계적인 분석을 진행한다. 구축된 말뭉치를 대상으로 각종 비교 문형의 통사·의미적 특징 및 공통점과 차이점을 분석하여 중국어 비교 구문의 이론 연구 및 정보 추출 시스템 구축을 위한 기초 지식과 정량적 데이터를 축적한다. 이어서 비교 구문의 자동 의미요소 추출을 실현하기 위해, 선형 구문 분석 (chunking) 과 심층 구문 분석 (parsing) 의 두가지 층위에서 구문 분석을 진행한다. 선형 구문 분석의 층위에서는 말뭉치에 출현하는 예시를 패턴 추출 알고리즘(Apriori, CM-SPAM)으로 분석, 8종 의미역의 출현 패턴과 배열·생략 규칙을 도출해 낸다. 이 과정에서 얻어진 비교표지 기준의 이항 분포, 비교속성-비교결과 성분의 논리적 주술 관계 및 의미적 속성-속성값 관계, 수의적 성분의 생략 조건 등의 선형 특징을 활용하여 비교문 의미역 자동 인식 모형을 구축한다. 그 외에 선형 구문 분석 층위에서 분석 불가능한 구(phrase) 구조상의 통사, 의미적 특징들은 심층 구문 분석의 층위에서 상술한다. 문법 범주와 8종 의미역과의 대응(mapping)관계, 대응 시의 통사·의미적 선택 제약 등의 구조적 특징(feature)들을 자질구조 통합 방식(feature unification-based)의 구 구조 문법 체계(HPSG & TAG formalism)를 따라 형식화하고, 이를 각종 알고리즘에 적용하여 비교문 의미역 자동 인식 프로그램을 구현한다. 다. 연구방법 본 연구는 연구자의 직관에 따라 생성한 예문을 중심으로 문장의 적형성 여부를 판별하는 정적인 통사 연구 방식에서 벗어나, 언중의 생생한 표현을 담고 있는 말뭉치를 대상으로 정량적인 분석을 진행함으로써, 문법의 규칙성뿐 아니라 경향성을 반영하는 실증적 연구 방법론을 제시한다. 8종 비교 의미역 분류의 정교한 분석 틀에 기초하여 통사와 의미의 다중 층위에서 의미역의 논항 관계를 세밀하게 분석하고, 그 결과를 규칙 및 통계(기계 학습) 기반의 다양한 알고리즘 (배열 규칙 기반의 선형 분석, 변환 기반의 오류 최소화 알고리즘(TBL), 순환인공신경망(RNN) 기반의 딥러닝 알고리즘, 구 구조 문법(PSR)과 PCFG에 기반한 구문 분석 등)에 적용하여 비교문 의미역 자동 인식 프로그램을 구현한다. 이처럼 이론·응용 연구 간의 피드백을 통해, 본 연구는 중국어 비교문 연구에 견실한 이론적 토대와 풍부한 경험적 데이터를 제공하고, 동시에 언어학 지식 기반의 정보 추출 시스템을 실현함으로써, 이론 언어학과 언어 공학 간의 연구 교류 활성화에 기여한다.
결과보고시 연구요약문
  • 국문
  • 본 연구는 중국어 비교 범주에 출현하는 의미역에 대한 분포적 특징 (통사·의미적 선택 제약 및 출현 패턴)과 개별 구문 유형 ('有' 비교문, '比' 비교문, '像' 비교문 등)의 구조적 특징을 밝히고 이를 바탕으로 중국어 비교 정보 자동 추출 시스템을 구현하는 것을 목표로 하였다.
    1년차 과제의 첫 목표는 중국어 비교 범주에 대한 실례 수집과 문법 정보를 부착한 비교구문 코퍼스 구축이었다. 본 연구팀 (연구책임자 박민준 및 원어민 감수자 4명)은 북경대학 Treebank 규범(詹衛東 2008, 2009)에 따라, 현대한어 구문 분석 및 지식베이스 개발 플랫폼(ICGDE, Zhan 2004)을 이용하여 신문, 교재, 블로그 등 다방면의 문어·구어 텍스트에 출현하는 각종 비교 구문('有'字句, '像'字句, '比'字句 등)에 비교 의미역 정보를 표기하고, 중국인 자문단의 검토를 받았다. 이때, 신문, 교재 등의 정규 언어자료 뿐만 아니라, 웹 크롤링 (강병규 등 2020)을 통해 블로그, 채팅 등 일상 생활의 비정규적 발화 텍스트까지 수집하여 비교 의미역 추출 시스템 구축을 위한 대규모 데이터를 축적하였다. 그러나 2018년 말 미·중 무역분쟁 격화, 2019년 말 코로나19 전염병 확산에 따라 중국 현지의 신문, 교재 및 블로그 상의 문어·구어 텍스트에 출현하는 각종 비교 구문을 수집하는 것이 어려워졌으며, 원어민 검토, 감수 작업을 위한 학술 회의 또한 취소되었다. 중국 연구원과의 연구 협력 제한 및 중국 내 오프라인·온라인 데이터 접근에 애로가 가중되는 상황에서, 본 연구는 2020년 초까지 수집 완료된 차등(勝過) 비교구문과 동등(等同) 비교구문의 말뭉치 데이터를 중심으로 중국어 비교문의 통사적 특징과 양상을 질적 분석하고, 이를 언어 모델에 최대한 반영하는 방향으로 연구의 초점을 전환하였다.
    2년차 과제에서는 비교 구문의 자동 의미요소 추출을 실현하기 위해, 비교 범주의 다양한 문형과 관련된 의미역에 대해 세밀하고 정교한 분석에 집중하였다. 이 과정에서 획득한 언어학적 지식을 적극적으로 활용하여 의미역 정보 식별 프로그램을 구축함으로써 중국어 비교 구문의 자동 의미역 분석을 실현하였다. 이로써 상품 구매, 우열평가 등에 널리 쓰이는 고빈도 상용구문인 중국어 비교문을 분석하여 단시간에 특정 상품의 인기도와 장·단점 등의 유의미한 정보를 도출해낼 수 있게 되었다. 또한, 비교문의 통사 구조 분석, 고빈도 상용구 통계, 정보 추출(IE) 및 의미역 인식(SRL) 등에 정량적 분석 데이터를 제공함으로써 말뭉치 기반 이론 및 응용 연구에 기여하고, 웹 기반 비교문 통사구조 시각화 도구를 개발함으로써, 중국어 교육 현장에서 비교문의 심층 구조에 대한 직관적인 이해를 돕도록 하였다. 본 과제의 연구성과는 중국 전산언어학회(CIPS) 및 한국 중어중문학회에서 우수논문으로 선정되는 등 다양한 분야의 중국어학 전문가들의 평가를 통해 검증되고 수정되는 과정에 있으며, 추후 심화 연구를 통해 비교문의 통사·의미적 자질에 따른 구조적 특징과 의미역 출현 양상을 탐구하고, 의미역 식별 모델의 정확도와 효율성을 계속하여 제고해 나갈 계획이다.
  • 영문
  • This study examines the distributional characteristics (syntactic, semantic constraints and patterns) of semantic roles appearing in the Chinese comparatives and the structure of individual constructions (you, xiang equatives, bi comparatives, etc.). The purpose of this study was to reveal the characteristics of the structure based on which and a Chinese comparative information extraction system is implemented based on this.
    The goal of the first year assignment was to collect examples of Chinese comparatives and to build a comparative corpus with grammatical information tagged. The research team (Director Min-Jun Park and four native-speaking researchers) used the Integrated Chinese Grammar Development Environment (ICGDE, Zhan 2004) in accordance with the Peking University Treebank (詹衛東 2008, 2009) to tag semantic roles of comparatives in written and spoken texts (newspapers, textbooks, blogs, etc), which was reviewed by Chinese advisory group. At this time, not only regular language data including newspapers and textbooks, but also non-regular utterances of daily life such as blogs and chatting were collected through web crawling (Kang et al. 2020), and large-scale data for constructing a comparative semantic role extraction system was accumulated.
    However, due to US-China trade dispute and the COVID-19 epidemic in 2018-2019, it was difficult to collect various examples of comparatives in written and spoken texts on local Chinese newspapers, textbooks, and blogs. Academic conferences have also been canceled. In a situation where research cooperation with Chinese researchers is limited and difficulties in accessing offline and online data in China are aggravating, this study aims to collect corpus data of comparatives and equative constructions collected by early 2020 in favor of qualitative analysis of syntactic features and its application to the language model.
    In the second year project, in order to realize automatic semantic role extraction of comparative sentences we focused on detailed and sophisticated analysis of semantic roles related to various sentence types in the domain of comparison. Utilizing the linguistic knowledge acquired in this process, semantic role labeling of Chinese comparatives was realized with the development of semantic information analysis program. As a result, it was possible to derive meaningful information such as the popularity of a specific product and its advantages and disadvantages in a short time by analyzing Chinese comparative texts, which are frequently used for product purchases and evaluation.
    In addition, it contributes to corpus-based theory and applied research by providing quantitative analysis data to some researches of syntactic structure of comparative sentences, high-frequency phrasal structures, information extraction (IE) and semantic role recognition (SRL). Besides, by developing a web-based comparative syntax visualization tool, it was intended to help intuitive understanding of the deep structure of comparatives in Chinese education.
    The research results of this project are in the process of being verified and revised through evaluation by experts in Chinese studies in various fields, such as being selected as excellent papers by the Chinese Information Processing Society of China (CIPS) and the Chinese Language and Literature Society of Korea. We plan to explore the structural characteristics and occurring patterns of semantic roles of Chiense according to syntactic and semantic findings of this research, and continue to improve the accuracy and efficiency of the semantic role extraction model.
연구결과보고서
  • 초록
  • 비교 활동은 우리 인간에게는 자연스러운 것이지만 기계의 입장에서는 불연속적(异同比较) 혹은 연속적인(程度比较) 변수에 대한 연산(优劣判断)과 추론(好恶判断) 등을 동시에 복합적으로 수행하여야 하기에 결코 쉬운 과제가 아니다. 본 연구는 비교 정보 추출이라는 새로운 연구주제 하에서, 2만 문장 규모의 의미역·통사 정보 주석 말뭉치(annotated corpus)를 구축하고, 이를 통해 비교 구문에 출현하는 의미역의 출현 양상과 통사·의미적 제약 요소를 분석하여 비교정보 자동 추출을 실현하고자 하였다. 동시에 언어학 이론과 전산 응용 연구 간의 상호 피드백을 통해 새로운 언어학적 현상의 발견과 지식의 활용을 촉진하는 상호 보완적인 연구 방법론을 모색하고자 하였다.
    먼저 비교 의미역의 미시적 분석틀 (비교주체, 비교객체, 비교표지, 비교항목, 비교속성, 비교결과, 비교차이)을 세우고, 신문, 교재, 상품평 등의 문어, 구어 텍스트를 대상으로 의미역 및 통사 정보를 부착한 중국어 비교문 말뭉치를 구축하였다. 이렇게 신문, 문학, 교재, 인터넷의 상품평, 블로그 등 다방면의 문어·구어 텍스트 속 비교 구문을 대상으로 비교 의미역과 통사 정보가 부착된 중국어 비교 구문 주석 말뭉치를 구축하고, 비교 의미역 분석틀에 따라 비교 범주의 의미역 출현 양상에 대해 전면적이고 체계적인 분석을 진행하였다. 이를 통해 비교 문형의 통사·의미적 특징 및 공통점과 차이점을 분석하여 중국어 비교 구문의 이론 연구 및 정보 추출 시스템 구축을 위한 기초 지식과 정량적 데이터를 축적하였다.
    이어서 비교 구문의 자동 의미요소 추출을 실현하기 위해, 선형 구문 분석 (chunking)과 심층 구문 분석(parsing)의 두 가지 층위에서 구문 분석을 진행하였다. 선형 구문 분석의 층위에서는 말뭉치에 출현하는 예시를 패턴 추출 알고리즘으로 분석, 비교 의미역의 출현 패턴과 배열·생략 규칙을 도출해 내었다. 이 과정에서 얻어진 비교표지 기준의 이항 분포, 비교속성-비교결과 성분의 논리적 주술 관계 및 의미적 속성-속성값 관계, 수의적 성분의 생략 조건 등의 선형 특징을 활용하여 비교문 의미역 자동 인식 모형을 구축하였다. 그 외에 선형 구문 분석 층위에서 분석 불가능한 구(phrase) 구조상의 통사, 의미적 특징들은 심층 구문 분석의 층위에서 상술하였다. 문법 범주와 비교 의미역과의 대응(mapping) 관계, 대응 시의 통사·의미적 선택 제약 등의 구조적 특징(feature)들을 자질구조 통합 방식(feature unification-based)의 구 구조 문법 체계(HPSG & TAG formalism)를 따라 형식화하고, 이를 각종 알고리즘에 적용하여 비교문 의미역 자동 인식 프로그램을 구현하였다.
  • 연구결과 및 활용방안
  • 본 연구팀 (연구책임자 박민준 및 원어민 감수자 4명)은 북경대학 Treebank 규범(詹衛東 2008, 2009)에 따라, 현대한어 구문 분석 및 지식베이스 개발 플랫폼(ICGDE, Zhan 2004)을 이용하여 신문, 교재, 블로그 등 다방면의 문어·구어 텍스트에 출현하는 각종 비교 구문('有'字句, '像'字句, '比'字句 등)에 비교 의미역 정보를 표기하고, 중국인 자문단의 검토를 받았다. 신문, 교재 등의 정규 언어자료 뿐만 아니라, 웹 크롤링 (강병규 등 2020)을 통해 블로그, 채팅 등 일상 생활의 비정규적 발화 텍스트까지 수집하여 비교 의미역 추출 시스템 구축을 위한 대규모 데이터를 축적하였다.
    본 연구는 중국어 비교 범주를 대상으로 정교한 의미역 분석 틀과 이론적 토대를 제시하고, 이에 근거한 정량적 분석을 통해 중국어 비교 구문의 의미역 출현 양상과 통사·의미적 특성을 밝혔다. 비교문의 통사·의미적 자질, 비교 대상 간의 다양한 결합 방식과 그 비대칭 현상, 서로 다른 의미역 간의 분포적 제약, 구조적 특징과 술어 의미 유형 사이의 상관관계 등 지금껏 밝혀지지 않았던 비교 구문의 경향성을 포착해 내었다. 또한, 이 과정에서 획득한 언어학적 지식을 적극적으로 활용하여 의미역 정보 식별 프로그램을 구축함으로써 중국어 비교 구문의 자동 의미역 분석을 실현하였다. 비교 구문은 상품 구매, 우열평가 등에 널리 쓰이는 고빈도 상용구문으로서 온라인 상의 상품 평가, 이용 후기 등에서 특정 상품의 선호도 정보를 담고 있다. 본 연구의 의미역 정보 식별 프로그램은 온라인 상의 비교문을 분석하여 단시간에 특정 상품의 인기도와 장·단점 등의 유의미한 정보를 도출해낼 수 있다.
    또한, 본 연구의 비교 구문 분석 모델은 의미역 출현 패턴과 통사 구조를 자동으로 분석하고 시각화함으로써 비교문의 심층 구조에 대한 직관적인 이해를 돕는다. 또한, 웹 문서에 기초한 형식으로 모델의 시각화가 이루어지면 중국어 교육 분야에서도 효과적으로 활용할 수 있을 것이다 (박민준·이창호 2019).
  • 색인어
  • 중국어 비교구문, 의미역 주석 말뭉치, 논항 구조, 의미역 인식, 세립도 감성 분석, 언어학 지식 기반 정보 추출
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력