연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

재난재해 전조정보 포착을 위한 SNS 텍스트 감성언어 분석 플랫폼 구축
Implementation of a Platform for Sentiment Analysis of SNS Texts for Detecting Signs of Disaster
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 중견연구자지원사업
연구과제번호 2018-S1A5A2A01-2018S1A5A2A01028628
선정년도 2018 년
연구기간 2 년 6 개월 (2018년 07월 01일 ~ 2020년 12월 31일)
연구책임자 남지순
연구수행기관 한국외국어대학교& #40;글로벌캠퍼스& #41;
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 본 연구는 현대 사회에 빠른 속도로 생성되고 있는 대표적인 언어 빅데이터 유형인 SNS텍스트로부터 다양한 유형의 ‘재난 전조(Signs of Disaster)’ 정보를 추출하기 위해, 사용자들의 주관적 감성(Sentiment) 또는 오피니언(Opinion)을 나타내는 언어표현들을 인식하고 추출하는 감성언어 분석플랫폼의 구축을 목표로 한다.
    감성분석(Sentiment Analysis), 또는 오피니언 마이닝(Opinion Mining)으로 명명되는 연구 영역(Pang & Lee 2008, Liu 2010)에서 양질의 감성언어 리소스는 가장 중요한 핵심성분이 되는데, 이는 글로벌하게 공유가 가능한 기술적 알고리즘과는 달리, 각 자연언어의 개별적인 고유의 어휘ㆍ형태ㆍ의미적인 속성이 고려되어야 비로소 획득될 수 있기 때문이다. 실제로 현대사회에서 끊임없이 발생하는 다양한 재난재해 및 사건사고의 많은 부분에 대해 사람들이 이미 일정 징후와 전조를 포착하여 이를 SNS 텍스트를 통해 서로 소통하는 경향을 보이는데, 이때 한국어 문서에서도 ‘불안, 걱정, 위험’ 등과 같은 특정 감성표현들이 텍스트내의 중요한 키워드로 등장한다.
    본 연구의 1차년도에는 이러한 재난전조 정보를 담고 있는 SNS텍스트를 감지하기 위하여 어떠한 유형의 감성언어 표현이 구체적으로 연구되어야 하는지 분석하고, 이를 바탕으로 2차년도에는 실제 재난전조 정보를 제공하는 SNS텍스트의 감성언어를 분석하는 플랫폼을 개발하는 연구를 수행한다. 본 연구에서는 유한트랜스듀서 문법인 LGG 모델(Gross 1997)과 UNITEX 플랫폼(Paumier 2003)을 토대로 감성언어 리소스 LR01과 감성주석 코퍼스 LR02를 구축하여, 이를 기반으로 도메인 확장을 위한 감성언어 분석플랫폼을 개발하는 연구를 목표로 진행된다.
  • 기대효과
  • ■ 첫째, 본 연구는 현대 사회에서 지속적으로 발생하고 있는 재난재해 및 사건사고에 대한 전조 정보가 SNS텍스트를 통해 포착될 수 있음에 주목하고, 이러한 연구가 사회적 파장이 큰 이슈에 대한 연구로 확장 적용될 수 있음을 보임으로써 추후 다양한 사회ㆍ문화 문제의 연구로 확장될 수 있는 효과적인 연구방법론을 제공한다. 이와 더불어 사회적 트랜드에 대한 분석 및 사람들의 사회적 관심 영역에 대한 분석을 효과적으로 수행할 수 있는 감성언어 분석 방법론을 제공함으로써 이를 기반으로 하는 사회적 재난재해 대응 시스템의 개발에 도움을 줄 수 있다.
    ■ 둘째, 본 연구는 언어학뿐 아니라, 심리학, 사회학 등의 인문학 연구 영역과 더불어 자연언어처리, 감성분석 등의 융복합적 연구 영역에서 요구되는 도메인별 감성어휘 및 감성 관용표현, 도메인 주제별 자질명사, 그리고 감성주석 코퍼스 등을 구조화된 리소스로 제공함으로써, 향후 보다 상세한 인간의 인지적 감성표현 연구에 중요한 기초자원으로 사용될 것으로 기대된다.
    ■ 셋째, 인간의 감성과 관련된 비즈니스 및 산업적인 관점에서 볼 때, 온라인 상품후기글에 대한 사용자 오피니언 분류를 통해 정보를 제공하는 다양한 광고대행회사 및 사용자 위주의 스마트한 사물인터넷(IoT) 통제 시스템을 구현하려는 산업 분야에서 필요로 하는 감성분석용 언어 리소스를 제공할 수 있어, 향후 관련 미래산업에도 다양하게 활용될 수 있을 것으로 기대된다. 그동안 제한된 언어리소스를 기반으로 통계적 알고리즘에 의존적인 공학적 접근 방식을 사용하는 현실적 한계를 극복하는 데에 도움이 될 것으로 기대된다.
    ■ 넷째, SNS 빅데이터의 감성분석 연구에서 가장 중요한 감성언어 리소스를 효과적으로 구축하고 적용할 수 있는 감성언어 분석 플랫폼을 개발ㆍ제공함으로써 추후 다양한 도메인에서 이를 확장하여 적용할 수 있는 연구방법론을 제시한다는 점에서 본 연구의 의의를 강조할 수 있다.
  • 연구요약
  • {연구목표}
    ■ 본 연구는 SNS 사회관계망텍스트로부터 다양한 유형의 ‘재난 전조(Signs of Disaster)’ 정보를 추출하기 위하여, 사용자들의 주관적 감성(Sentiment) 또는 오피니언(Opinion)을 나타내는 감성언어 리소스를 구축하는 연구를 토대로 하여 도메인 특징을 보이는 감성언어 표현들을 인식하고 추출하는 감성언어 분석플랫폼의 구축을 목표로 한다.

    {연구내용 및 연구방법}
    ■ 본 연구는 다음과 같은 방법으로 진행된다.
    ■ 1차년도 연구의 첫 단계에서는, ‘재난 전조’ 관련 오피니언을 표현하는 사회관계망 텍스트를 수집하기 위하여 연구하고자 하는 도메인 대분류를 수행한다. 본 연구에서는 우선 이러한 재난재해에 대한 ‘불안함’을 표현하는 일련의 감성어휘 키워드를 선정하여 이를 Seed Word로 하여 이들이 나타난 문서들의 도메인을 클러스터링한다. 다음 단계에서는 이와 같이 분류된 도메인별로 웹크롤러를 사용하여 SNS 텍스트를 자동으로 수집한다. 이러한 방식으로 데이터를 수집한 후 텍스트에 대한 형태소분석을 수행한 후, 다국어 언어처리 시스템인 UNITEX 플랫폼(Paumier 2003)에 기반하여 각 도메인별 텍스트에 실현된 오피니언 및 감성어휘 표현들을 추출한다. 이 작업이 수행되면, 주어진 키워드의 문맥을 다시 키워드로 하여 상호 확장하는 DP(Double Propagation) 기법을 이용하여 UNITEX에 내장된 유한트랜스듀서 그래프 에디터를 통해 감성표현 부분문법그래프(Local Grammar Graph: Gross 1997)를 구축한다. 이를 텍스트에 적용하는 과정을 반복적으로 수행하는 부트스트랩(Bootstrap) 방식을 통해 ‘감성어휘 언어리소스 LR01’를 생성한다.
    ■ 2차년도에서 언어리소스 LR01을 UNITEX 플랫폼을 통해, 수집된 SNS 텍스트에 적용하여, 도메인별 감성분류 주석 코퍼스를 자동 생성한다. 이를 바탕으로 다시 ‘XML’분류태그를 할당하는 LGG를 구축하여 ‘감성분류 주석코퍼스 LR02’를 반자동으로 생성한다. 이와 같이 구축된 ‘감성어휘 리소스 LR01’과 ‘감성분류 주석코퍼스 LR02’를 바탕으로, 실제 사회관계망 텍스트를 수집하여 여기 나타나는 감성언어를 분석하는 감성분석 플랫폼을 R언어를 통해 연구 개발한다. 이러한 과정을 통하여 궁극적으로 ‘재난 전조’ 정보와 같이 실제 사회관계망 텍스트에 나타나는 특정 도메인 및 이슈에 대한 한국어 감성언어 리소스를 제공하며, 이를 타 도메인으로 효과적으로 확장할 수 있는 반자동 구축 방법론을 제안하는 의의를 가진다.
결과보고시 연구요약문
  • 국문
  • 본 연구는 소셜미디어 텍스트에 나타나는 재난재해 관련 감성 표현들에 대한 연구를 토대로 이에 대한 감성주석코퍼스를 구축하여, 이를 기반으로 수행되는 감성분석 플랫폼을 구현하는 것을 목표로 수행되었다. 1차년도에는 감성주석 코퍼스를 구축하는 방법론에 대해 연구하면서, 특히 명시적 감성표현과 더불어 ‘비명시적 감성표현’ 부류에 대한 연구를 수행하였고, 2차년도에는 반대로 재난 전조 키워드를 내포하고 있지만 실제로는 재난 관련 감성을 표현하지 않는 노이즈 표현류(예: 동공지진)에 대한 연구를 수행하였다. 이러한 연구성과를 기반으로 보다 신뢰할 수 있는 감성주석 코퍼스셋에 대한 연구가 수행될 수 있었고, 이와 같은 소셜미디어 데이터셋에 대한 시각화된 감성분석 요약을 제시하는 감성분석 플랫폼을 구현하였다.

    본 연구에서는 한국어 전자사전 DECO 시스템과 LGG 패턴그래프 모델을 사용하는 부트스트랩 방식의 방법론을 제안하였다. 본 연구에서 제안된 이와 같은 연구 방법론은 실제로 다른 여러 유형의 감성 표현들에 대한 연구에 활용될 수 있을 것으로 기대되며, 이는 더 나아가 현재 알고리즘 기반으로 수행되는 소셜미디어 빅데이터 연구의 성능을 향상시키는 데에 도움이 될 것으로 기대된다.
  • 영문
  • This study aims to analyze disaster-related sentiment expressions in social media texts, and to implement a sentiment analysis platform that works on the basis of sentiment-annotated corpus that we provide in this research. In particular, we studied implicit sentiment expressions as well as explicit sentiment words and phrases in the first year, and noisy expressions that contain disaster-related keywords without being related with real disaster-associated sentiments in the second year. Based on these specialized studies, we developed reliable sentiment-annotated corpus sets and a sentiment analysis platform that provides visualized summary of the sentiment analysis of social media datasets.

    In this study, a bootstrap method based on the DECO Korean electronic dictionary and Local-Grammar Graph(LGG) formalism is suggested. The methodology suggested in this study may be adopted in formalizing other types of sentiment expressions, which will improve the reliability of the performance of the algorithm-driven sentiment analysis of social media texts.
연구결과보고서
  • 초록
  • 본 연구는 현대 사회에 빠른 속도로 생성되고 있는 대표적인 언어 빅데이터 유형인 SNS텍스트로부터 다양한 유형의 ‘재난 전조(Signs of Disaster)’ 정보를 추출하기 위해 사용자들의 주관적 감성(Sentiment) 또는 오피니언(Opinion)을 나타내는 언어표현들을 인식하고 추출하는 감성언어 분석플랫폼의 구축을 목표로 하였다. 1차년도에는 재난전조 정보추출을 위한 감성어휘 리소스 구축 방법론에 대해 연구하였고, 2차년도에는 구축된 감성언어 리소스에 기반하여 SNS 텍스트의 감성언어 분석 플랫폼을 개발하였다.

    ■ {1차년도}: 재난전조 정보 추출을 위한 감성어휘 리소스 구축 연구

    <1> 비명시적 감성표현에 대한 정보 추출을 위한 연구
    ■ 소셜 미디어 플랫폼의 사용자 생성문(user-generated sentence)에서 나타나는 도메인 의존적(domain-dependant) ‘비명시적 극성’ 현상을 분석하고, 감성분석 및 오피니언 마이닝에 활용하기 위한 언어자원을 구축하였다.
    ■ SNS 텍스트를 통해 어휘의 사전적 의미로 파악하기 어려운 암시적이고 비명시적(implicit) 감성 표현을 분석하고, 이와 같은 키워드들을 바탕으로 하는 표현들에 대한 분석을 통해 기존의 ‘감성어휘 기반’ 접근법의 한계를 개선하고자 하였다.

    <2> 명시적/비명시적 감성표현을 포함하는 감성어휘 리소스 구축
    ■ 명시적 감성표현에 대한 연구와 함께, 소셜 미디어 플랫폼인 트위터(Twitter)에서 ‘지진’ 등의 재난재해 키워드와 관계된 트윗(tweet) 데이터에서 비명시적 극성을 표현하는 술어들의 양상을 수집하고 분석하는 작업을 수행하였다.
    ■ DECO 한국어 전자사전의 의미 태그셋 및 부분 문법 그래프(Local Grammar Graph; LGG, Gross 1997, 1999) 방법론에 기반하여 트위터 해당 도메인에 대한 비명시적 극성 표현 자원을 패턴 그래프 문법 형식으로 구축하였다.

    ■ {2차년도}: 구축된 감성언어 리소스 기반 SNS텍스트 ‘감성언어 분석플랫폼’ 개발

    <1> 비명시적 극성 표현 주석코퍼스를 위한 LGG 유한상태 트랜스듀서 패턴문법 연구
    ■ 감성 주석 코퍼스를 생성하기 위해서 일반적인 극성 어휘와 더불어 본 연구에서 논의한 ‘비명시적 극성 표현’의 정보를 포함하였다. 이러한 주석 코퍼스를 생성하기 위한 LGG 패턴문법의 확장 프로세싱 방법론을 연구하였다.

    <2> 키워드의 본래 의미와 무관한 노이즈(noise) 처리를 위한 필터링 플랫폼 구축
    ■ 재난재해와 관련된 사용자 생성문(user-generated sentence)을 수집하는 데에 있어, 키워드의 본래 의미와 무관한 노이즈(noise) 현상을 제거하기 위한 전처리(preprocessing) 방법론을 연구하여 이를 처리하기 위한 필터링 플랫폼을 구축하였다.

    <3> 본 연구에서 구축된 감성주석 코퍼스를 기반으로 하는 감성언어 분석플랫폼 구현
    ■ 이상과 같이 구축된 성과물을 토대로 감성분석을 위한 주석코퍼스를 구축하여 이를 활용하여 감성분석을 수행하는 감성언어 분석 플랫폼을 개발하였다.
    ■ 본 연구에서 구현한 감성언어 분석 플랫폼은 크게 두 가지 측면의 분석 결과를 시각화하는 기능을 제공한다. 첫째는 문장 또는 트윗 단위의 감성분석 결과를 시각화하는 모듈이며, 둘째는 각 문장 내부의 평가자질, 평가 극성어에 대한 분석을 통해 각 자질별 극성 분포를 시각화하여 제공하는 모듈로 구성된다.

    이상의 연구를 통해 그 성과물을 토대로 매년 연구재단 등재 학술저널에 논문을 발표하였으며, 다수의 세미나 및 워크샵에서 구두 발표를 수행하였다. 이를 통해 융합연구 방법론의 모델을 제시하고, 후학들의 융합적 전문성을 양성하는 데에 기여할 것이라 기대된다. 더 나아가 이와 같은 학문적 성과뿐 아니라, 실제 소셜 미디어의 대용량 언어 데이터를 통해 인간의 감성분석을 수행함으로써 중요한 정보와 지식을 포착하고자 하는 관련 정부부처나 사회기관, 관련기업들의 기술력 향상에도 도움이 되는 방법론을 제시할 것이라 기대된다.
  • 연구결과 및 활용방안
  • <연구결과 개요>
    -1차년도: ‘재난 전조’ 정보를 제공하는 텍스트에 키워드가 되는 감성어휘 Seed Word를 추출하고, 이들이 나타난 SNS 사회관계망 텍스트를 웹크롤러 등을 이용하여 수집하였다. 이러한 텍스트의 도메인을 대분류하여 클러스터링한 후 거기서 관찰되는 고빈도 관련 키워드를 추출하여 이를 중심으로 추가 데이터를 수집하였다. 키워드의 문맥 정보를 통한 부트스트랩 방식으로 데이터를 확장하여 감성어휘 리소스를 구축하였다. 특히 비명시적 감성표현들에 대한 심층적인 연구를 수반하였다.
    - 2차년도: 1차년도에 구축된 감성어휘 리소스를 이용하여 감성분류 주석코퍼스를 구축하고, 이를 바탕으로 수행되는 감성언어 분석플랫폼을 개발하여 현재 구축된 언어 리소스들의 성능을 확인하였다. 특히 재난 관련 키워드를 포함하였으나 이와는 무관한 언어표현들(예: 동공지진)에 대한 노이즈 필터링 연구를 수반하였으며, 이러한 전처리 과정을 수행한 감성주석코퍼스에 기반하여 감성분석 플랫폼을 구현하였다.

    <연구결과 활용방안>
    1. 활용계획 개요

    ■ 첫째, 본 연구는 현대의 중요 텍스트 유형인 사회관계망 텍스트에 나타난 인간의 감성표현을 언어학적 관점에서 조명하되, 순수 언어학, 또는 사회학, 심리학과 같은 이론적 학문의 성격에 머무르지 않고, ‘재난재해 전조 정보’와 같은 실제 도메인에 입각한 감성언어 문제를 한국어 언어처리기술 연구 및 응용언어학적 관점에서 연구하고자 하였다는 점에서, 향후 다양한 융합적 연구를 위한 모델로 사용될 수 있다.
    ■ 둘째, 기존의 오피니언 마이닝 또는 감성분석 연구가 제한된 언어자료에 입각한 통계적인 모델에 기반하는 공학적인 접근이 주를 이루어온 반면, 본 연구에서는 보다 체계적으로 한국어 감성언어 리소스를 구축함으로써, 이를 바탕으로 공학적 한계를 극복하고 보완하는 보다 정교한 접근법을 제공함으로써 실제적인 관련 영역의 기술 발전에 기여할 수 있다.
    ■ 셋째, SNS텍스트의 감성분석 연구에서 가장 중요한 감성언어 리소스를 효과적으로 구축하고 적용할 수 있는 감성언어 분석 플랫폼을 개발함으로써 추후 다양한 도메인에서 이를 확장ㆍ적용할 수 있는 연구방법론을 제시한다는 점에서 관련 분야 전문 인력 양성과 교육에 매우 의미있는 기재를 제공할 것으로 기대된다.

    2. 융합학문적ㆍ사회적ㆍ기술적 활용 계획
    ■ 본 연구는 현대 사회에서 지속적으로 발생하고 있는 재난재해 및 사건사고에 대한 전조 정보가 SNS텍스트를 통해 포착될 수 있음에 주목하고, 기존의 감성분석 연구가 온라인 상품리뷰나 영화후기 등과 같은 제한된 상품 논리에 국한된 한계를 지적하였다. 이러한 연구가 사회적 파장이 큰 이슈에 대한 연구로 확장 적용될 수 있음을 보임으로써 추후 다양한 사회ㆍ문화 문제의 연구로 확장될 수 있는 효과적인 연구방법론을 제공하는 의의를 가진다.
    ■ 심층적 언어학적인 연구에 있어 도메인별 감성언어 표현을 구조화된 리소스로 제공함으로써 향후 보다 상세한 인간의 인지적 감성표현 연구에 중요한 토대 데이터를 제공하여 언어학 및 심리학 등 인지과학적 학문 연구에 기여할 것으로 기대된다.
    ■ 인공지능 및 감성로봇과 같은 인간의 감성을 분석하고 파악하는 연구 영역에 있어 향후 다양한 도메인별 감성어휘 및 감성표현 데이터를 효과적으로 구축하고 확장하는 연구방법론을 제시하고 이를 적용한 감성언어 분석플랫폼을 제공함으로써 이러한 연구의 핵심적인 언어자원을 제공하는 데에 기여할 것으로 기대된다.

    3. 교육 및 후학 인재 양성, 후속 연구에의 활용 계획
    ■ 본 연구는 그동안 한국어 감성분석과 관련된 다수의 연구논문 및 연구 프로젝트에 참여한 융합연구 보조원 석박사 재학생들의 향후 창의적인 연구 활동에 중요한 토대가 될 것이다. 현재 이 연구에 4명의 석박사 재학생이 참여하였고, 본 연구에서 도출되는 연구 성과들에 기반하여 보다 확장된 감성분석 관련 논문들을 구성할 계획이다.
    ■ SNS 텍스트와 같은 현대사회의 가장 중요한 언어 빅데이터에서 매우 중요한 언어학적 그리고 사회학적 정보들이 추출될 수 있으나, 이를 위해서는 비정규적 구어체로 사용되는 언어 현상에 대한 자동 전처리 분석의 성능이 지속적으로 향상되어야 한다. 또한 다양한 실제 감성언어 표현들이 추출되고 분석되는 과정은 도메인별로 지속적으로 축적되어야 하는 고도의 융합적 기술과 지식이 요구되는 연구이다. 그동안 상당기간 축적된 언어처리기술과 자원에 기반하여 향후 더 다양한 후속 연구들이 진행될 수 있다고 판단되며, 이러한 연구는 이 분야의 전문 인력을 양성하고 교육하는 데에 중요한 토대가 될 것으로 판단된다.
  • 색인어
  • 재난 전조, 감성분석, 감성주석코퍼스, 비명시적 감성표현, 노이즈 필터링, LGG패턴그래프, 감성분석플랫폼
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력