연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보
s

연구과제 상세정보

은유 및 환유 지식베이스 구축을 통한 의미적 문맥 정보 분석 및 자동 스크립트 생성에 관한 연구
Research on Metaphorical/Metonymical Pattern Analysis and Generation of Automatic Scripts through Constructing Knowledge Base of Metaphor and Metonymy
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 융합연구 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2019-S1A5A2A03-2019S1A5A2A03049825
선정년도 2019 년
연구기간 3 년 (2019년 07월 01일 ~ 2022년 06월 30일)
연구책임자 최영주
연구수행기관 조선대학교
과제진행현황 진행중
공동연구원 현황 최영주(조선대학교)
최준호(조선대학교)
조영순(전남대학교)
김판구(조선대학교)
김한일(조선대학교)
과제신청시 연구개요
  • 연구목표
  • Lakoff and Johnson(1980) 이후 개념적 은유 및 개념적 환유(Conceptual Metonymy)에 관한 연구가 활발하게 이루어지고 있지만, 주로 연구자의 직관에 근거한 데이터 생성 및 제시의 방식으로 이루어졌기 때문에 연구자의 주장에 대한 객관성을 확보하지 못하고 있다. 하지만, 빅데이터와 자연어처리 기술의 발달로 대량의 언어데이터가 만들어지면서 언어학자들은 다양한 종류의 말뭉치를 사용할 수 있게 되었고, 필요에 따라 말뭉치를 구축을 통하여 언어데이터에 대한 객관성을 확보할 수 있게 되었다. 특히, 어휘나 통사적 구문에 대한 빈도를 확인하거나 한 어휘와의 공기하는 다른 어휘와의 빈도를 확인하여 서로의 상관관계를 분석을 통해 언어학의 객관성 확보가 상대적으로 매우 수월해졌다.
    그러나, 개념적 은유나 개념적 환유를 코퍼스에서 추출하여 그 빈도수를 확인하거나 개념적 은유(환유)의 통사적 패턴을 추출하고 그와 공기하는 어휘나 품사 및 구문을 알아내는 것은 여전히 매우 어려운 문제이고, 개념적 은유 및 환유는 어떤 하나의 어휘를 중심으로 찾거나 하나의 품사 혹은 하나의 통사적 패턴으로 명확하게 추출에 많은 어려움이 있다. 개념적 은유(Conceptual Metaphor)는 개념과 개념 간의 사상(Mapping)으로서 단순히 몇 가지 어휘를 이용한 검색으로 은유를 추출하기에는 많은 어려움이 따르기 때문이다. 개념적 은유는 어휘와 어휘 간의 사상이라기보다는 한 개념과 다른 개념의 요소들 사이의 사상이며, 그 요소들이 가진 추론 간의 사상이기 때문에 한정된 어휘의 검색으로 추출될 수 있는 것이 아니고, 같은 어휘가 축자적 의미로도 사용되기도 하고 은유적 의미로도 사용되기도 하기 때문에 이들의 구별은 쉽지 않은 문제이다.
    따라서, 본 연구는 은유 분야의 인문사회계 중 영어영문학 분야 연구자와 컴퓨터공학 중 자연어처리 분야의 연구자와의 협업을 통하여 “은유 빅데이터 수집하고, 분석을 통하여 은유 지식베이스를 구축하고, 구축된 은유 지식베이스로부터 의미적 문맥정보를 분석하며, 이에 대한 표현방법과 스크립트를 생성”하고자 한다. 이를 위해 (1) 1차년도에는 은유 빅데이터 수집 및 분석을 통한 요소 분석 및 지식베이스를 구축하고, (2) 2차년도에는 의미적 문맥정보를 분석 및 이기종 은유망 매핑에 관한 연구와 (3) 3차년도에는 의미적 은유 표현 인식 및 자동 스크립트 생성에 관한 연구를 진행할 예정이다.
    본 연구는 소셜 데이터와 빅데이터를 기반으로 자연어처리, 데이터마이닝 등의 기술을 이용하여 은유 지식베이스로 구축한다는 면에서 기타 코퍼스를 기반으로 하는 은유 관련 연구와 차별성이 있다. 이를 통해 매우 제한적인 규모의 코퍼스에서 벗어나 활용가치가 높은 은유 지식베이스를 구축하고 다양한 언어학 분야의 활용가치를 창출하고자 한다. 특히 본 연구를 통해 생성된 스크립트는 각각 다른 학문적 목표를 갖고 구축된 코퍼스에 접목하여 쉽게 은유와 환유를 추출할 수 있도록 확장될 예정이다.
  • 기대효과
  • 본 연구는 일상 언어와 밀접하게 관련된 미디어 언어를 기반으로 은유 빅데이터를 이용한 은유 지식베이스를 구축하는 것으로 인간의 사고가 어떻게 운영되고 있는가를 보여줄 수 있는 의미 있는 기반 연구이다. 은유 데이터는 사실 기반의 문장보다는 사용자의 감성적 표현이 주를 이루는 소셜 데이터, 시, 문학, 영화와 같은 멀티미디어 스크립트, 그리고 웹 데이터에 대부분 분포가 되고 있다. 현재는 코퍼스를 기반으로 매우 제한적인 규모의 은유적 표현만을 추출할 수 있지만, 다양한 웹 데이터를 기반으로 은유적 표현의 의미적 문맥정보를 분석을 통해 은유 지식베이스로 확장한다면 다양한 분야의 적용이 가능하리라 예상된다. 또한, 시대별로 은유를 그 빈도수에 따라 분류하게 되면, 시대별로 어떤 근원영역과 목표영역 간의 연결이 가장 강하게 이루어졌는가를 알 수 있고, 미래의 사고 패턴에 대한 예측이 가능하게 될 것으로 기대된다. 또한, 은유 패턴 추출이 체계적으로 이루어진다면 일반적인 어휘가 가진 중의성의 문제를 해결하는 것에 비해 훨씬 높은 수준의 중의성이 해결될 것이고, 이는 인공지능의 기술 중 쳇봇(ChatBot), 자동 번역 등과 같은 응용 분야에서 자연스러운 대화체 구현을 위해 반드시 필요한 기반기술이 될 것이다.
    본 연구는 일상 언어를 가장 잘 반영할 수 있는 미디어 자료 등의 빅데이터를 데이터 마이닝 등을 통해 지식베이스로 구축한다는 면에서 기타 코퍼스를 기반으로 하는 은유 관련 연구와 차별성이 있다. Lakoff and Johnson(1980)이 ‘개념적 은유’란 문학작품에 나타나는 수사학적 기법이 아니라 우리 일상어에 만연한 개념을 지배하는 인지 기제라고 정의한 것에 비추어보면 일상 언어 특히 화자와 청자 간의 대화 및 구어체가 잘 반영된 미디어 자료 등을 기반으로 한 지식베이스 구축은 매우 큰 장점이다. 또한, 은유에 대한 이론적 배경이 탄탄한 언어학자들이 은유와 어휘의 관계 및 근원영역과 목표영역의 관계를 정립할 예정이기 때문에 무엇보다도 정확한 결과가 산출될 것이라 예상된다.
  • 연구요약
  • 본 연구는 “은유 빅데이터 수집하고 분석을 통하여 은유 지식베이스를 구축하고, 구축된 은유 지식베이스로부터 의미적 문맥 정보를 분석하며, 이에 대한 표현방법과 스크립트 생성”을 최종목표로 한다. 이를 위해 (1) 1차년도에는 은유 빅데이터 수집 및 분석을 통한 요소 분석 및 지식베이스를 구축하고, (2) 2차년도에는 의미적 문맥정보를 분석 및 이기종 은유망 매핑에 관한 연구와 (3) 3차년도에는 의미적 은유 표현 인식 및 자동 스크립트 생성에 관한 연구를 진행할 예정이다.
    1차년도의 ‘은유 빅데이터 수집 및 분석을 통한 요소 분석 및 지식베이스 구축’을 위해 은유 코퍼스 패턴을 기반으로 소셜 데이터, 멀티미디어 스크립트, 웹 데이터를 이용한 은유 빅데이터를 수집하고, POS(Part of Speech) tagging, Stop Word 제거, 키워드 및 중요 문장 추출, 데이터 마이닝 등의 자연어처리를 이용하여 은유 빅데이터 분석할 예정이다. 또한, 수집된 빅데이터의 다양한 오류에 대해 은유 코퍼스로부터 유추된 패턴을 통해 수집된 은유 빅데이터의 확인 및 검증 작업을 수행한다. 검증된 은유 빅데이터를 통한 N-Gram 구축한 후, 이를 통해 개념과 관계를 추출하여 은유 지식베이스를 구축한다.
    2차년도에는 ‘의미적 문맥정보를 분석 및 이기종 은유망 매핑’을 위해 Linked Data를 통해 오픈된 이기종 사이의 은유 지식베이스 통합을 위해 클래스 집합과 관계를 정의하고, 매핑 알고리즘에 의해 온톨로지 요소 사이의 특정 관계를 파악한다. 두 온톨로지 간의 Correspondences는 트리플 형태로 표현하고, 해당 온톨로지 요소 사이의 매핑 신뢰도를 정량화할 수 있는 측정요소를 도출할 예정이다. 이를 통해 은유와 관련된 기존 코퍼스와 어휘 온톨로지의 일종인 WordNet 등을 이용하여 은유 온톨로지의 확장 방안을 연구한다.
    또한, 은유 지식베이스를 통해 의미적 어휘 관계 분석을 통해 은유적 표현을 자동으로 추출하는 방법과 은유 지식베이스를 통한 문장 구조 분석 및 패턴 추출 방법을 연구할 예정이다. 본 연구에서는 MLN(Markov Logic Networks) 알고리즘과 딥러닝 알고리즘을 통해 최적의 은유표현 추출 방법을 도출할 예정이다. 마지막으로 의미적 어휘 관계 분석, 문장 구조 분석 및 패턴 추출을 통해 상위 레벨 온톨로지를 설계 및 구축을 통해 은유 지식베이스를 확장하는 방안을 연구한다. 상위 온톨로지를 이용한 은유 온톨로지의 확장은 Linked Data에 연결된 온톨로지 간의 추론과정을 통해 특정 도메인의 의미적인 요소를 추출하고, 추출된 의미적인 요소를 기반으로 상위 온톨로지 모델링을 이용한 일반적 개념 체계를 구축한다. 그리고, Linked Data를 통해 수집된 어휘 집합과 소셜 분석을 통해 추출된 태깅 클러스터링 정보 및 추론을 통해 생성된 특정 분야 은유 정보를 통합하여 은유 온톨로지의 Concept과 Relation을 자동 생성하게 한다.
    3차년도에는 ‘의미적 은유 표현 인식 및 자동 스크립트 생성’을 목표로 은유 어휘의 분포 확률에 따라 시각화(Visualization)하는 방법과 N-Gram 데이터를 확률 정보에 따라 시각화하여 다양한 환경에서 활용할 수 있도록 은유 지식베이스의 시각화 방안에 관해 연구한다. 또한, 환유적 표현을 위한 문장 구조 분석 및 패턴 추출을 하여 의미적 어휘 관계 분석, 문장 구조 분석 및 패턴 추출을 통해 상위 레벨 온톨로지를 설계하고 구축하여 은유 지식베이스를 확장할 예정이다. 마지막으로, 은유 지식베이스를 이용한 추론을 통해 사용자가 원하는 맞춤형 대화체 표현 및 스크립트를 생성할 방법을 연구한다. 또한, 자연스러운 대화체의 구성이 필요한 다양한 분야에 활용될 수 있는 방안을 연구할 예정이다.
결과보고시 연구요약문
  • 국문
  • 개념적 은유 및 환유에 관한 연구가 활발하게 이루어지고 있지만, 주로 연구자의 직관에 근거한 데이터 생성 및 제시의 방식으로 이루어졌기 때문에 연구자의 주장에 대한 객관성을 확보하지 못하고 있다. 개념적 은유나 개념적 환유를 코퍼스에서 추출하여 그 빈도수를 확인하거나 개념적 은유의 통사적 패턴을 추출하고, 그와 공기하는 어휘나 품사 및 구문을 알아내는 것은 매우 어려운 문제이다. 또한, 개념적 은유는 어떤 하나의 어휘를 중심으로 찾거나 하나의 품사 혹은 통사적 패턴으로 명확하게 추출하는 것은 많은 어려움이 있다.
    본 연구는 은유 빅데이터 수집하고 분석을 통하여 은유 지식베이스를 구축하고, 구축된 은유 지식베이스로부터 의미적 문맥 정보를 분석하며, 이에 대한 은유적 표현 방법과 자동 스크립트 생성을 최종목표로 하였다. 이를 통해 매우 제한적인 규모의 코퍼스에서 벗어나 활용 가치가 높은 은유 지식베이스를 구축하고 이를 통한 다양한 언어학 분야에 활용할 수 있는 방법론을 제시하고자 하였다. 연구 진행은 첫째, 의미적 어휘 관계 분석, 문장의 구조적인 분석과 은유 패턴 추출을 통해 은유 지식베이스를 자동으로 생성하고, 확장하는 방안을 연구하였다. 기존 은유 데이터 세트 분석을 통해 개념적 은유의 문법적인 특징과 근원영역과 목표영역의 개념 어휘를 추출하기 위한 기본 연구를 진행하였다. 둘째, 개념적 은유 인식은 문장 단위, 문법 패턴, 단어 수준 별로 진행하였다. 개념적 은유에 사용되는 문법 패턴은 동사와 형용사가 명사와 연관되는 경향이 있음을 파악하여 동사와 명사, 형용사와 명사 관계를 주요 패턴으로 정의하여 개념적 은유 표현을 식별하였다. 셋째, Hearst Pattern을 확장하여 상하위 관계를 인식하는 패턴을 정의하고, 개념적 은유 텍스트에서 근원영역과 목표영역의 의미 관계를 추출하는 연구를 수행하였다. 또한, 은유 지식베이스 확장을 위해 지식 그래프 기술을 적용하였다. 은유 텍스트에서 추출된 지식베이스의 확장을 위해 추출된 개체와 관계를 기반으로 위키피디아와 구글 뉴스를 이용한 지식베이스 확장을 방법을 연구하였고, 이를 시각화하는 방법을 구현하였다.
  • 영문
  • Although studies on conceptual metaphor and metonymy are being actively conducted in the field of metaphor identification, they do not secure objectivity because they are mainly conducted in the way of generating and presenting data based on the researcher's intuition. Conceptual metaphor or conceptual metonymy identification extracts from the corpus and checks the frequency of words or uses syntactic patterns of conceptual metaphors, so it is very difficult to find related vocabulary, parts of speech, and syntax. In addition, identifying a conceptual metaphor is difficult because it is based on a single vocabulary or uses a single part of speech or syntactic pattern.
    The final goal of this study was to collect and analyze metaphor big data, build a metaphor knowledge base, analyze semantic contextual information from the constructed metaphor knowledge base, and create a metaphorical expression method and automatic script. Through this study, we tried to present a methodology that can be used in various fields of linguistics by constructing a metaphoric knowledge base with high utilization value beyond the corpus of a very limited scale. As for the progress of the study, first, a method of automatically generating and expanding the metaphor knowledge base was studied through semantic lexical relationship analysis, structural analysis of sentences, and metaphor pattern extraction. Basic research was conducted to extract grammatical characteristics of conceptual metaphors and conceptual vocabularies of source and target areas through the analysis of existing metaphor data sets.
    Second, conceptual metaphor identification proceeded by sentence unit, grammatical pattern, and word level. As for the grammatical patterns used in conceptual metaphors, verbs and adjectives tend to be associated with nouns, and conceptual metaphorical expressions were identified by defining the relationship between verbs and nouns and adjectives and nouns as the main patterns.
    Third, the Hearst Pattern was expanded to define the pattern for identifying the upper-lower relationship, and a study was conducted to extract the semantic relationship between the source area and the target area in the conceptual metaphor text. In addition, knowledge graph technology was applied to expand the metaphor knowledge base. In order to expand the knowledge base extracted from metaphorical text, based on the extracted entities and relationships, a method for expanding the knowledge base using Wikipedia and Google news was studied, and a method for visualizing it was implemented.
연구결과보고서
  • 초록
  • 개념적 은유 및 환유에 관한 연구가 활발하게 이루어지고 있지만, 주로 연구자의 직관에 근거한 데이터 생성 및 제시의 방식으로 이루어졌기 때문에 연구자의 주장에 대한 객관성을 확보하지 못하고 있다. 개념적 은유나 개념적 환유를 코퍼스에서 추출하여 그 빈도수를 확인하거나 개념적 은유의 통사적 패턴을 추출하고, 그와 공기하는 어휘나 품사 및 구문을 알아내는 것은 매우 어려운 문제이다. 또한, 개념적 은유는 어떤 하나의 어휘를 중심으로 찾거나 하나의 품사 혹은 통사적 패턴으로 명확하게 추출하는 것은 많은 어려움이 있다.
    본 연구는 은유 빅데이터 수집하고 분석을 통하여 은유 지식베이스를 구축하고, 구축된 은유 지식베이스로부터 의미적 문맥 정보를 분석하며, 이에 대한 은유적 표현 방법과 자동 스크립트 생성을 최종목표로 하였다. 이를 통해 매우 제한적인 규모의 코퍼스에서 벗어나 활용 가치가 높은 은유 지식베이스를 구축하고 이를 통한 다양한 언어학 분야에 활용할 수 있는 방법론을 제시하고자 하였다. 연구 진행은 첫째, 의미적 어휘 관계 분석, 문장의 구조적인 분석과 은유 패턴 추출을 통해 은유 지식베이스를 자동으로 생성하고, 확장하는 방안을 연구하였다. 기존 은유 데이터 세트 분석을 통해 개념적 은유의 문법적인 특징과 근원영역과 목표영역의 개념 어휘를 추출하기 위한 기본 연구를 진행하였다. 둘째, 개념적 은유 인식은 문장 단위, 문법 패턴, 단어 수준 별로 진행하였다. 개념적 은유에 사용되는 문법 패턴은 동사와 형용사가 명사와 연관되는 경향이 있음을 파악하여 동사와 명사, 형용사와 명사 관계를 주요 패턴으로 정의하여 개념적 은유 표현을 식별하였다. 셋째, Hearst Pattern을 확장하여 상하위 관계를 인식하는 패턴을 정의하고, 개념적 은유 텍스트에서 근원영역과 목표영역의 의미 관계를 추출하는 연구를 수행하였다. 또한, 은유 지식베이스 확장을 위해 지식 그래프 기술을 적용하였다. 은유 텍스트에서 추출된 지식베이스의 확장을 위해 추출된 개체와 관계를 기반으로 위키피디아와 구글 뉴스를 이용한 지식베이스 확장을 방법을 연구하였고, 이를 시각화하는 방법을 구현하였다.
  • 연구결과 및 활용방안
  • 본 연구의 결과에 대해, 1차 연도에서는 의미적 어휘 관계 분석, 문장의 구조적인 분석과 은유 패턴 추출을 통해 은유 지식베이스를 자동으로 생성하고, 확장하는 방안을 연구하였다. 기존 은유 데이터 세트 분석을 통해 개념적 은유의 문법적인 특징과 근원영역과 목표영역의 개념 어휘를 추출하기 위한 기본 연구를 진행하였다. 이를 위해 단일 어휘와 복합명사 분석을 위해 N-gram 단어로 개념 어휘를 확장한 후, 전처리 과정을 진행한 후, 종속 구문 패턴을 이용하여 은유 지식베이스의 S-V-O 트리플을 추출하였다. 또한, 근원영역과 목표영역의 개념 어휘 인식을 위해 Top2Vec 알고리즘을 이용하여 임베딩 모델을 생성한 후, 근원영역과 목표영역에서 동시에 출현하는 어휘의 유사도를 측정하였다. 은유 지식베이스 구축의 정확성을 높이기 위해 신조어 감성 판별 연구를 진행하였다.
    2차 연도에서는 은유 지식베이스를 이용한 개념적 은유의 관계 패턴을 추출하기 위해 특정 도메인의 문서 집합에서 Word2vec 알고리즘을 활용하여 키워드 속성 정보 추출하고, LDA 알고리즘을 이용하여 문서 주제에 적합한 개념을 클러스터링하였다. 개념적 은유 인식은 문장 단위, 문법 패턴, 단어 수준 별로 진행하였다. 개념적 은유에 사용되는 문법 패턴은 동사와 형용사가 명사와 연관되는 경향이 있음을 파악하여 동사와 명사, 형용사와 명사 관계를 주요 패턴으로 정의하여 개념적 은유 표현을 식별하였다. 또한, 종속 구문 분석을 이용하여 개념 어휘의 관계를 추출하기 위한 패턴을 정의하였다.
    3차 연도에서는 Hearst Pattern을 확장하여 상하위 관계를 인식하는 패턴을 정의하고, 개념적 은유 텍스트에서 근원영역과 목표영역의 의미 관계를 추출하는 연구를 수행하였다. 또한, 은유 지식베이스 확장을 위해 지식 그래프 기술을 적용하였다. 은유 지식 그래프 생성을 위해 개체명 인식(Named Entity Recognition)과 관계 추출 방법을 제시하였고, BERT(Bidirectional Encoder Representations from Transformers) 사전학습 모델을 사용하였다. 은유 텍스트에서 추출된 지식베이스의 확장을 위해 추출된 개체와 관계를 기반으로 위키피디아와 구글 뉴스를 이용한 지식베이스 확장을 방법을 연구하였고, 이를 시각화하는 방법을 구현하였다.
    본 연구는 일상 언어와 밀접하게 관련된 미디어 언어를 기반으로 은유 빅데이터를 이용한 은유 지식베이스를 구축하는 것으로 인간의 사고가 어떻게 운영되고 있는가를 보여줄 수 있는 의미 있는 기반 연구이다. 현재는 코퍼스를 기반으로 매우 제한적인 규모의 은유적 표현만을 추출할 수 있지만, 다양한 웹 데이터를 기반으로 은유적 표현의 의미적 문맥 정보 분석을 통해 은유 지식베이스로 확장한다면 다양한 분야의 적용이 가능하리라 예상된다. 또한, 은유 패턴 추출이 체계적으로 이루어진다면 일반적인 어휘가 가진 중의성의 문제를 해결하는 것에 비해 훨씬 높은 수준의 중의성이 해결될 것이고, 이는 인공지능의 기술 중 쳇봇(ChatBot), 자동 번역 등과 같은 응용 분야에서 자연스러운 대화체 구현을 위해 필요한 기반 기술이 될 것이다.
  • 색인어
  • 개념적 은유, 개념적 환유, 빅데이터 분석, 온톨로지 구축, 은유 지식베이스
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력