보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10019239&local_id=10024720

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10019239&local_id=10024720

문서의 자동 감정 분석을 위한 의미지향사전 구축

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 문서의 자동 감정 분석을 위한 의미지향사전 구축 | 2009 년 | 신효필(서울대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00325
선정년도	2009 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2011년 04월 20일
연차구분	결과보고
결과보고년도	2011년

결과보고시 연구요약문

국문
본 과제는 크게 (1)의미지향사전 구축과 (2) 이를 감정 분석에 적용한 실험으로 이루어졌다. 의미지향 사전에는 감정 어휘, 온톨로지 개념에 사상된 어휘, 부정표현, 연결어미, 문장접속부사 등의 정보가 수록되었다.

(1-a) 감정 어휘 사전:
의미지향사전은 긍정 의 ...

본 과제는 크게 (1)의미지향사전 구축과 (2) 이를 감정 분석에 적용한 실험으로 이루어졌다. 의미지향 사전에는 감정 어휘, 온톨로지 개념에 사상된 어휘, 부정표현, 연결어미, 문장접속부사 등의 정보가 수록되었다.

(1-a) 감정 어휘 사전:
의미지향사전은 긍정 의미를 가진 어휘와 부정 의미를 가진 어휘를 분류하는 것이 근간이 된다. 감정 어휘 사전은 체언 감정 어휘 사전과 용언 감정 어휘 사전으로 나뉜다. 체언 감정 어휘 사전은 세종전자사전의 208개의 의미부류 내 어휘들을 긍정/부정/중립으로 분류하여, 긍정과 부정을 각각 긍정사전항목과 부정사전항목에 추가한다. 비록 세종전자사전의 의미부류에 따른 어휘를 자동으로 추출한다고 해도 각 어휘들을 일일이 재검토하는 절차를 거쳤다.
용언의 경우 체언과 같은 방식으로 긍정 어휘와 부정 어휘를 분류하기는 어렵다. 이러한 의미부류에 속하는 어휘의 품사는 대부분 형용사이며, 동사는 거의 없고 세종전자사전에서도 체언 외에 용언에는 의미부류가 제대로 할당되어 있지 않기 때문이다. 용언 감정어휘 사전을 구축할 때 형태소 분석기를 이용하여 ‘성공하다’와 같은 어휘를 동작성보통명사로 분류되는 ‘성공’을 통하여 용언들의 어휘를 긍정과 부정으로 분류할 수도 있다. 그러나 용언의 경우는 대부분 온톨로지에 의해 사상된 어휘들의 개념정보를 이용해 분류하였다.

(1-b). 온톨로지 개념과 사상된 어휘들:
본 연구실에서는 미국 뉴멕시코 주립대학의 미크로코스모스 (The Mikrokosmos) 온톨로지와 한국어 기본 어휘(체언, 용언)를 사상시키는 작업을 수년전부터 진행하였다. 현재 체언 17,152 어휘 항목(sense)과 용언 1,500여 어휘를 포함한 총 30,004 어휘 항목이 사상되어 있다. 이를 검색하기 위한 웹사이트 및 브라우저도 개발되어 있다. 온톨로지 개념과 사상된 어휘는 의미 정합성(semantic coherence)을 계산하는데 중요하다. 비록 긍정 어휘와 부정 어휘들을 사전에 수록한다고 해도 많은 경우에 이 어휘들의 극성은 반대가 될 수 있기 때문이다.

(1-c) 부정표현:
감정 분석에서 가장 문제를 야기하는 것 중 하나는 소위 부정표현, 부정어에 관한 것이다. ‘아니’, ‘않-’ 등의 부정표현은 문장의 의미를 역전시키기 때문에 의미적 지향성을 계산할 때 반드시 처리되어야 한다.
부정표현은 종류에 따라 문장 내에서 수식하는 단어가 차지하는 위치가 달라진다..부정 표현과 그 대상이 되는 수식어의 구조를 체계화하여 수록하였다

(1-d) 연결어미: 연결어미도 한국어에서는 감정의 흐름 및 전환에 있어 중요한 역할을 한다. 예를 들면, 연결어미 ‘-지만’이 긍정과 부정을 전환하는 역할을 한다. 대규모의 한겨레 신문에서 연결어미를 추출하여 총 228개의 연결어미와 그 빈도를 구했다. 본 과제에서는 문맥을 전환시키는 연결어미를 분류하고 전후의 문맥이 어떻게 변화하는지를 체계화하였다
(1-f) 문장접속부사: 문장접속부사도 감정 분석에 영향을 미친다. 역접의 문장 부사는 의미의 흐름을 바꾸어 놓기 때문에 문장 부사에 의해 전환되는 의미의 흐름을 포착하는 것이 필요하다. 문장접속부사의 종류에 따른 의미의 흐름을 구조화하여 사전에 수록하였다.

(2) 의미지향 사전이 구축된 후 이를 실제 감정 분석에 적용하여 실험하고 평가한다. 이미 기초 연구로 영화평을 대상으로 하여 기계학습 방법과 단순한 의미 지향법을 적용하여 실험해 보았다. 이런 실험을 통해 감정 사전을 적용한 방법이 성능의 향상을 이룸을 증명하였고, 또 실험에서 도출된 결과를 바탕으로 사전 항목 및 의미값을 조절하여 새로운 버전의 사전을 구축하였다. 또한 근간이 되는 의미지향 점수를 산정하는 방법을 좀 더 정교화하였다.

이런 과정을 거쳐 용언 1,206개, 체언 3,200 여개 등 총 4,400 여 어휘가 새로이 등록되었다.

영문
This work consisted of (1) the construction of a sentiment dictionary (2) experiments with the dictionary. The dictionary contains sentiment words, ontologically mapped words, negation expressions, connective final endings, and sentential adverbs.

...

This work consisted of (1) the construction of a sentiment dictionary (2) experiments with the dictionary. The dictionary contains sentiment words, ontologically mapped words, negation expressions, connective final endings, and sentential adverbs.

(1-a) Sentiment dictionary:
The construction of sentiment dictionary started with a classification of positive and negative words. Noun and Verb dictionaries are major parts of the dictionary. Noun sentiment dictionary utilized the information coming from the Sejong Electronic Dictionary which holds 208 semantic classes. Although we took advantage of the semantic classes of the Sejong Dictionary, additional manual verification has been done. In the case of verbs (including adjectives in Korean), the same procedure as noun dictionary building has not been applied, since most sentiments words were adjectives and no semantic classes were available for the case. Thus most verbs were classified based on the Ontology information.

(1-b) Words mapped onto the ontology concepts:

We have been working on mapping Korean words onto the Mikrokosmos Ontology (developed in New Mexico State University) for several years. 17,152 nouns and 1,500 verbs are mapped on the concepts. The words from the ontology are crucial in calculating semantic coherence in sentiment analysis, since polarities of words listed in the sentiment dictionary are subject to change in different contexts.

(1-c) Negative Expressions

Negative expressions such as 'anh and mos' are one of the major problems in sentiment analysis, so they should be treated properly. We listed those expressions and modified structured in the dictionary.

(1-d) connective final endings:

Connective endings are crucial in sentiment flows and shifts in Korean. We extracted connective endings from the large corpus, and collected 228 endings. We classified those endings according to their function.

(1-f) Sentential adverbs

Sentential adverbs also function as flow shifters. We structuralized sentential adverbs and listed them in the dictionary.

Once we built the first version of the dictionary, we performed experiments to verify the dictionary. The experiment showed that the dictionary improved the quality of sentiment analysis. We also updated the first version to reflect newly trained features and specifications from the experiment.

We now have 1,206 verbs and 3,200 nouns in the sentiment dictionary.

연구결과보고서

초록
인터넷과 컴퓨터의 발달은 대량의 정보를 생산하게 되고 엄청난 문서의 증대를 야기하게 된다. 이런 대량의 문서에서 필요한 정보를 찾는 정보검색, 같은 종류의 문서들을 자동 분류하는 문서 분류, 문서 클러스터링 시스템 그리고 문서의 내용을 자동 요약하는 문서 요약 ...

인터넷과 컴퓨터의 발달은 대량의 정보를 생산하게 되고 엄청난 문서의 증대를 야기하게 된다. 이런 대량의 문서에서 필요한 정보를 찾는 정보검색, 같은 종류의 문서들을 자동 분류하는 문서 분류, 문서 클러스터링 시스템 그리고 문서의 내용을 자동 요약하는 문서 요약 시스템들이 전산 언어학 또는 자연언어처리의 중요한 과제가 되고 있다. 이와 더불어 문서의 내용을 자동 분석하여 필요한 정보를 추출하는 데이터 마이닝(data mining)의 일부로 문서의 감정적 성향을 파악하는 연구가 활발해지고 있다. 감정 분석(sentiment analysis), 의견 분석(opinion analysis), 의견 마이닝(opinion mining) 등으로 언급되는 연구는 특정한 주제나 문서에 있어 저자의 감정 내지 의견의 성향을 파악한다. 대운하건설과 관련된 문서를 분석하여 저자의 태도가 운하 건설에 긍정적인지 부정적인지를 판단하고, 영화평을 분석하여 해당 영화가 추천할만한지 아니면 그렇지 않은지를 파악하는 것이 그 예이다.
이런 감정 분석은 기존의 문서 분류 내지 정보 검색과 유사하나 더 깊은 자연언어의 분석을 요구하는 점에 차이가 있다. 기존의 문서 분류는 사용되는 어휘들의 빈도와 가중치 등을 중심으로 하나 감정 분석이나 의견 분석은 핵심 어휘들의 단순 연산만으로는 이루어질 수 없다. 중심이 되는 어휘들은 긍정의 문서나 부정의 문서에서 다 나타나기 때문이다. 따라서 이런 감정 분석은 기존의 형태, 통사 분석 외에 의미 분석까지 요구되는 고도의 언어처리 방법이 필요하다.
의견 분석은 다양한 분야에 사용될 수 있다. 웹과 온라인을 기반으로 하는 전자상거래에서 상품평은 다른 사용자의 구매 의사에 결정적인 역할을 하고 있고, 영화평에 나타난 긍정적인 또는 부정적인 평은 관람객들의 영화 선택에 영향을 미친다. 또한 현재 사회과학이나 자연과학에서 많이 연구되고 있는 복잡계(complex system) 또는 지식 생태계와 관련하여 한국 사회에서 영향력을 미치고 있는 사람들이 어떻게 인맥으로 연결되고 특정 사항에 따라 어떻게 군집화될 수 있는지가 연구되고 있다. 한국 정책 지식 생태계 연구(삼성경제연구소 2006)에서는 특정 주제에 따른 저자들의 글들을 분석하여 특정 정책에 대한 저자의 태도를 긍정적 또는 부정적으로 파악하여 어떻게 지식인들이 정책적으로 서로 연결되어 있는지를 연구하고 있다. 이는 어떤 정책이나 주제의 대량 문서들을 자동으로 분류하는 것에 기초하고 있다.
감정 분석의 기존 연구는 대개 감정을 나타내는 표현이나 어휘의 극성(polarities)을 고려하는데 초점이 맞추어져 왔다. 따라서 찬성이나 반대를 나타내는 형용사나 아니면 특정 표현의 연어 구성 등을 중심으로 연구되어 왔다. 그러나 이런 어휘들은 찬성이나 반대의 문서에 두루 나타나며 다른 부정 표현에 의해 그 극성 값이 전환될 수 있기 때문에 단순히 어휘에 기초한 방법은 한계가 있다. 따라서 본 과제에서는 소위 의미지향사전(semantic orientation dictionary)을 구축하고 이를 감정 분석에 적용하여 그 타당성을 찾아보는 것을 목표로 한다. 의미지향사전은 어휘적 특성만을 수록하는 단순한 사전 구조가 아니라, 한국어의 특성을 고려하여, 감정 어휘뿐만 아니라, 온톨로지의 개념, 연결어미, 접속부사 등 개념과 구조적 정보도 수록되는 일종의 언어자원이다. 감정 분석의 기존의 연구는 기계학습 방법론이나, 어휘의 극성만을 이용하는 연구가 대부분이기 때문에 언어의 특성을 체계화한 자원을 구축하고 이를 활용하는 연구는 새로운 방향을 제시한다는 점에 의의가 있다. 이렇게 구축되는 자료는 비단 감정 분석뿐만 아니라 문장 내용 자동 분석을 필요로 하는 여러 분야에 유용한 자료로 활용될 수 있다.

연구결과 및 활용방안
본 연구의 결과는 여러 분야에 활용될 수 있다. 우선 요즘 활발히 논의되기 시작하는 한국어 감정 분석에 새로운 방향을 제시하는 연구가 될 수 있다. 기존의 기계학습 방법이나 단순한 의미지향 계산에 의한 방법은 그 정확성에 한계를 보이기 때문에 언어 현상을 체계화 ...

본 연구의 결과는 여러 분야에 활용될 수 있다. 우선 요즘 활발히 논의되기 시작하는 한국어 감정 분석에 새로운 방향을 제시하는 연구가 될 수 있다. 기존의 기계학습 방법이나 단순한 의미지향 계산에 의한 방법은 그 정확성에 한계를 보이기 때문에 언어 현상을 체계화하여 자원으로 활용하는 이 연구는 이 분야 연구에 큰 진전을 이룰 것으로 기대된다.
또한 비슷한 분야인 오피니언 마이닝(opinion mining)에서도 중요한 역할을 한다. 오미피언 마이닝 기법은 주로 온라인 상에 있는 다량의 의견 정보를 웹 마이닝 기법을 사용하여 긍정과 부정이라는 양 극단의 감정 지향으로 분류해 내는 것을 목표로 하고 있으며, 주된 연구 대상은 온라인상의 상품평들이다. 다양한 형태의 온라인 상품평들을 대상으로 상품에 대한 의견이 긍정인지 부정인지를 분류해 낼 수 있다면 이를 바탕으로 소비자들은 구매 의사결정을 내리는 데 도움을 받을 수 있고, 기업의 측면에서는 고객의 의견을 자동으로 파악한다는 점에서 고객관리 차원에서 중요한 역할을 한다.
이런 감정 분석은 비단 전산언어학, 자연언어처리 분야에서 뿐만 아니라 내용 분석을 필요로 하는 여러 분야에도 활용될 수 있다. 검색의 관점에서는 그 동안의 키워드에 의한 단순 검색에서 벗어나 의견이 반영된 검색을 가능하게 하는 것이 한 예이다.
감정 분석은 한국에서는 그 연구가 미미하고 시작하는 단계이기 때문에 이 분야에 대한 인력 양성은 연구 분야를 선도할 수 있는 의의를 지니며 새로운 분야로의 연구 영역을 확장시키는 효과도 있다. 또한 응용 분야가 전자 상거래를 비롯한 인터넷과 관련한 영역을 포함하여 무한하기 때문에 교육과 연계된 연구는 우수한 인력 과 여러 분야에 필요한 인력을 양성하는 데도 도움이 된다.

색인어
감정분석, 의견분석, 감정분석 사전, 언어자원

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 전산언어학
2순위 : 복합학 > 인지과학 > 언어습득/처리

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.