연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

해외 언론 빅데이터에 나타난 감성과 거시 금융 변수의 변화
Does the sentiment extracted from global media bigdata predict macrofinancial variables?
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 중견연구자지원사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2019-S1A5A2A01-2019S1A5A2A01046900
선정년도 2019 년
연구기간 1 년 (2019년 07월 01일 ~ 2020년 06월 30일)
연구책임자 강형구
연구수행기관 한양대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 본 연구는 한국에 관한 글로벌 미디어를 분석하여 거시금융 변수 예측과 위험관리에 관한 모형을 개발한다. 연구 부산물로 조기경보, 위험 관리 지표, 연구 플랫폼을 구축하여 학계에 공개한다. 글로벌 미디어에는 한국 경제 전망 정보가 포함되어 있어 투자와 포트폴리오 구축에 유용하다. 본 연구에서는 이러한 빅데이터를 자연어처리 기술로 분석한다. 분석결과로 투자자 감성 인덱스와 의미망(semantic network)이 산출된다. 실무에서 초과수익(‘알파’) 달성에도 유용하다. 이에 관한 학술적 결과와 실무적 관행도 있다. 본 연구는 거시금융변수 예측과 위험 관리 특히 포트폴리오의 하방 위험(Downside risk) 관리에 집중한다. 하방위험을 잘 관리하면 궁극적으로 위험대비 높은 성과를 달성할 수 있다.

    본 연구에서 지칭하는 위험관리는 흔히 이야기하는 정량적인 불확실성(Quantitative uncertainty) 즉 리스크 뿐만 아니라 질적 불확실성(Qualitative Uncertainty; Knightian Uncertainty)을 포함한다. 질적불확실성은 의미망의 구조로 분석한다. 따라서 연구의 실무적인 시사점도 크다. 질적불확실성 관리는 물론 빅데이터 기반 투자자 감성을 파악하고 관련 거시금융변수 조기경보시스템을 구축하고 관리하는 기관은 세계적으로도 드물다. 본 연구를 바탕으로 한국 학계는 거시금융 변수들에 관한 세계 최고 수준의 불확실성/위험 관리 역량과 인프라를 보유할 것이다.

    본 연구의 세부 목적은 다음과 같다. 첫째, 한국 경제 금융 상황에 관한 해외 뉴스 텍스트 빅데이터를 수집한다. 둘째, 한국 경제 금융 상황과 투자자 감성에 관한 단어들과 단어들의 맥락을 분석한다. 셋째, 분석결과를 지수(indexes)와 視覺化(Visualization)도표로 표현한다. 산출되는 지수와 시각화도표는 모두 공개한다. 즉, 학술 연구자, 위험관리자와 투자자가 직접 수천개의 해외 미디어 자료를 스캔하고 분석하느라 귀중한 시간을 쓰지 않고도 해외 미디어에 나타난 핵심 메시지를 파악하고 그 시사점까지 이해하게 될 것이다. 시각화도표를 바탕으로 직관도 형성할 것이다. 넷째, 지수를 바탕으로한 계량경제학적 분석은 물론 시각화 자료의 해석에 대한 사례분석(Case study analysis)을 제공한다. 이는 연구 결과로 형성되는 학술 연구 플랫폼(클라우드, 코딩 환경 등) 사용에 관한 매뉴얼의 기능도 수행하고 대학 교육에도 활용될 것이다. 사례분석을 논문화하여 별도의 연구성과로 등록한다.

    본 연구는 한국 경제와 금융에 관한 해외 영어 텍스트 분석을 바탕으로 한다. 첫째, 해외 주요 미디어이나 커뮤니티를 광범위하게 선정 후 한국 경제와 금융에 관한 기사를 추출한다. 둘째, 기사별로 다양한 감성을 파악하고 감성의 맥락(context)까지 분석한다. 셋째, 일별, 주별, 월별로 통합하여 단순 감성 지수는 물론 맥락을 고려한 감성 지수들을 개발하고 연구한다. 넷째, 복합적이고 정성적인 정보에 관한 시각화 방안을 개발하고 정성적인 시사점을 도출한다.
    예측 대상인 종속변수는 수십의 거시금융 지표들을 포괄한다. 연구의 공헌은 독립변수 구축에서 뚜렷하다. 독립변수는 모두 영미권 해외 미디어에 나타난 한국 경제와 금융에 관한 감성과 관련된다. 분석한 해외 미디어는 FT, WSJ, Nikkei, NYT 등을 포함한 수천개의 해외 소스다.

    감성을 정의하기 위하여 하버드 사전을 사용한다. 하버드 사전에는 단어들에 대하여 다양한 감성이 정의되어 있는데 본 연구에서 집중하는 감성들은 Category one과 Category two다. Loughran & McDonald (2011) 사전도 활용한다. 하버드 사전은 일반적인 기준으로 감성을 분석했고, Loughran & McDonald는 파이낸스에 특화된 사전이다.

    (맥락을 고려하지 않는) 기존 문헌처럼 감성을 측정하기 위하여 기사의 톤(tone)을 분석한다. 톤은 특정 감성의 등장횟수와 전체 단어수의 비율이다. 한편 본 연구의 공헌은 감성의 맥락까지 고려하는 것이다. 이를 위하여 단어들간의 연결인 의미망에서 정보를 추출한다. 단어의 맥락을 파악하는 지표로 본 연구는 degree centrality를 사용한다. Degree centrality는 어떤 단어가 얼마나 많이 다른 단어들과 많이 연결되어 있는지를 알려준다. 비슷한 개념들이 몇가지 있는데 Eigenvector centrality는 어느 단어가 얼마나 중요한 단어들과 연결이 되어 있느냐를 나타낸다. Between centrality는 어떤 단어가 단어들간 교량(bridge) 역할을 얼마나 잘 수행하는지를 알려준다. Closeness centrality는 다른 단어들로부터 얼마나 가까이 있는지를 표시한다. 본 연구에서는 편의상 degree centrality를 주로 사용한다. 다른 centrality는 보조적으로 분석한다.
  • 기대효과
  • 국민의 세금으로 수행되는 연구는 파급효과가 핵심이다. 본 연구는 다음과 같은 강력한 파급효과를 창출할 것이다.

    # 學術的 期待效果 (투자자 감성 시계열 자료와 그림 전체 공개): 연구에서 산출된 투자자 감성 시계열 자료를 전체 공개한다. 투자자 감성의 네트워크 그림도 모두 공개한다. 향후 되도록이면 매월 업데이트하고 웹사이트나 API를 통해서 한국의 연구자들이 편리하게 사용할 수 있도록 한다. 이는 다음과 같은 기대효과를 산출한다. [1] 한국의 연구자들이 수천개의 글로벌 언론을 수집하고 읽느라 시간과 연구비를 낭비하지 않고 본 연구의 데이터를 사용하게 할 수 있다. 연구자들이 각자 작업을 하는 것은 중복이고 귀중한 한국 연구 역량의 낭비다. 누군가가 해서 배포하는 것이 사회후생을 증가시킨다. [2] 민간의 귀중한 비용과 시간도 절약한다. 전체 공개로 투자자 감성 시계열 데이터와 그림이 제공되기 때문에 스타트업 등 기업 들도 해당 자료를 사용할 수 있다. 특히 초기 기업들은 금전적 여유와 인력난을 겪는 경우가 대부분이다. 이들은 해외의 언론을 수집할 재원도 없고, 분석할 시간은 더욱 없다. [3] 사용자들의 의견을 받아 더 나은 데이터와 연구 제공할 수 있다. 무료로 자료를 제공하게 되면 많은 사람들이 사용하고 그 중 일부는 의견을 제시할 것이다. 이는 자료를 향상시킬 수 있는 기회다. 그리고 이 과정에서 서로 의견을 교환하며 새로운 연구 기회를 발굴할 수 있다. 이는 연구자들간 협력을 증가시키고 향후 후속 연구도 활발하게 할 것이다.

    # 實務的 期待效果: 한국에 관한 해외 미디어를 분석하여 이를 바탕으로 조기경보와 위험 관리 학술 연구 시스템을 구축하고 무료로 공개한다. 필요한 경우 실무자들도 사용할 수 있도록 한다. 해외 미디어에는 한국 경제 전망에 대한 주요한 정보가 포함되어 있어 투자와 포트폴리오에 그 정보를 활용할 수 있다. 이러한 정보를 자연어처리 (NLP: Natural Language Processing)기술을 이용하여 분석하면 실무에서 위험관리에 활용할 수 있다. 물론 분석결과는 초과수익(‘알파’) 달성에도 유용하게 사용될 수 있다. 실무적 위험 관리 특히 포트폴리오의 하방 위험(Downside risk) 관리에 도움이 될 것이다. 하방위험을 잘 관리하면 궁극적으로 위험대비 높은 성과를 직간접적으로 달성할 수 있음도 자명하다. 한편 본 연구에서 지칭하는 위험관리는 흔히 이야기하는 정량적인 불확실성(Quantitative uncertainty) 즉 리스크(Risk) 뿐만 아니라 질적 불확실성(Qualitative Uncertainty) 즉 나이트 불확실성(Knightian Uncertainty)을 포함한다. 질적불확실성 관리는 물론 빅데이터 기반 투자자 감성을 파악하고 관련 조기경보시스템을 구축하고 관리하는 금융기관은 세계적으로도 드물다. 결론적으로 본 연구를 바탕으로 한국 학계와 금융기관은 세계 최고 수준의 불확실성/위험 관리 역량과 기반(Infrastructure)을 보유할 것이다.

    # 敎育的 期待效果 (금융에서 4차산업혁명 인재 양성): 연구성과를 포트폴리오, 위험관리 등 금융과목은 물론 빅데이터, 자연어 처리 등 교육에 사례로 사용할 수 있다. MBA 등 상경계 전공자들이 실무적으로 쉽게 관련 분야에 접근하도록 할 수 있다. 본 연구는 질적연구(qualitative case study)도 포함할 예정인데 이는 수업 사례로 활용할 수 있도록 쓰여진다. 첫째, 위험관리 기술의 발달과 한계를 forward-looking 위험관리의 필요성과 연결시키고 어떤 시사점을 찾을 수 있을지 탐색한다. 둘째, 금융에서 빅데이터와 자연어 처리 등을 어떻게 활용할 것인지에 대한 교육에 유용하다. 역시 중요한 사례를 발굴하고 연구에 반영하면 교육에 활용될 것이다. 셋째, 재무금융 전문가와 빅데이터나 자언여처리 전문가간 서로의 교육과 융합연구에 공헌할 것이다.

    본 연구의 주요 공헌은 단어들로 이루어진 네트워크를 분석하여 문맥을 파악하여 경제의 양적, 질적 불확실성을 측정하고 이를 바탕으로 다양한 거시 금융 리스크를 예측할 수 있다는 점을 보여주는 것이다. 금융 분야의 텍스트 분석에서 현재 학계의 연구 수준은 단순히 단어들 빈도에서 정보를 추출하는 정도다. 본 논문의 언어 네트워크는 뉴스 기사의 단어들 간의 관계를 파악하여 맥락을 분석한다. 이러한 네트워크 구조를 바탕으로 다양한 거시 금융 지수를 예측하는 것이 기존의 연구들과 가장 큰 차이점이다. 뿐만 아니라 본 논문은 인간의 복잡한 감성을 고려하여 시장의 다차원적인 감성을 추출하고 이들이 위험관리에 활용할 수 있는 방법을 제공한다. 향후 연구에서는 이러한 시스템을 더욱 확장하고 정교화하여 정책 개발자와 금융 실무자가 활용할 수 있도록 해야 할 것이다.
  • 연구요약
  • 본 연구를 위하여 파일럿 연구를 했다. 연구 결과는 다음과 같다. 첫째, 감성과 관련된 단어 빈도수의 간단한 합산만으로도 한국의 거시 금융 변수의 미래 변화를 예측할 수 있다. 예측력은 단기적으로는 일별 그리고 장기적으로는 월별까지 분석하고 모두 통계적으로도 유의하다. 예를 들어, 분석 기간내의 모든 날들을 가장 부정적인 감성이 심한 날부터 가장 긍정적 감성이 높은 날까지 정렬한다고 하자. 그 다음, 상위 33% 긍정적인 날에서 상위 33% 부정적인 날 수준으로 빅데이터에 나타난 감성이 변한다고 가정해보자. 분석 결과에 따르면 평균적으로 다음과 같은 변화가 그 다음날 (plus one day) 통계적으로 의미있게 나타난다: VKOSPI가 5.5 증가, 신용 스프레드가 0.2% 증가, 기간 스프레드가 0.03% 증가, 로그 EWY 거래량이 0.16 감소, USD가 70 증가, JPY가 28 감소, RMB가 8 감소, EURO가 48감소 한다. 한편 다음과 같은 사건은 한 달 후 (plus one month) 발생한다: FSI가 6 증가, VKOSPI가 8 증가, 신용 스프레드가 0.35% 증가, 기간 스프레드가 0.1% 증가, 소비자 신뢰 지수가 5.5 감소, 로그 EWY 거래량이 2.4 감소, 외국인 순매수가 0.5% 증가, USD가 106 증가, EUR가 64 감소한다. 지연 변수(lagged variables)와 통제변수(control variables)를 이용하여 VAR 분석을 하면 통계적인 유의성은 약해지나, 여전히 상당히 통계적으로 유의미한 수준의 예측력은 유지된다.

    둘째, 언어 네트워크(semantic network)의 전체 구조를 고려하여 기사들의 문맥을 파악하여 감성 지수를 구성할 수 있다. 이렇게 하면 지수의 예측력이 증가한다. 특히 우리는 감성과 관련된 단어의 중심성(centrality)을 측정하여 기사들의 문맥을 파악하는 방법론을 제시한다. 예를 들어, 앞서와 비슷하게 분석 기간 중의 일자들을 가장 부정어들의 감성 중심성이 높은 날부터 가장 긍정어들의 감성 중심성이 높은 날짜로 정렬한다고 하자. 그 다음, 상위 33%의 긍정어들의 감성 중심성이 높은 날짜에서 상위 33%의 부정어들의 감성 중심성이 높은 수준으로 감성이 변한다고 가정해보자. 그렇다면 다음과 같은 사건이 6개월 후 (plus six months) 평균적으로 발생한다: FSI 3.14 증가, VKOSPI 4.83 증가, 신용 스프레드 0.27% 증가, 기간 스프레드 0.22% 증가, 로그 EWY 거래량 1.90 감소, 로그 외국인 거래량 0.02 감소, 외국인 순매입 0.5% 증가, USD 58 증가, RMB 18 감소한다. 그리고 한달 후 (plus one month) 다음과 같은 사건들이 평균적으로 발생한다: FSI 7.35 증가, VKOSPI 9.19 증가, 신용 스프레드 0.39% 증가, 기간 스프레드 0.19% 증가, 소비자 신뢰 지수 5.73 감소, 로그 EWY 거래량 1.96 감소, 로그 외국인 거래량 0.01 감소, USD 89 증가, RMB 14 감소한다. 연구 결과에 따르면, 단어 빈도수에 기반한 감성 지수는 상대적으로 단기적인 예측력이 있다. 이에 반면, 언어 네트워크 기반의 감성 지수는 6개월 이후 FSI 지수를 예측하는 등 장기적인 예측력까지 있는 것으로 판단된다.

    셋째, 언어 네트워크를 그래프를 통해 시각화하면 미래의 거시 경제 변수의 변화에 관한 풍부한 직관을 얻을 수 있다. 본 논문에서 제시한 언어 네트워크는 미래의 금융 위기 및 사건에 대응하여 동적으로 변한다. 예를 들어 1997년 3월 28일 언어 네트워크의 중심에는 부정적이고 불확실하고 소극적인 단어들이 중심에 나타나며, 이는 한국 경제의 위험하고 불확실한 미래를 암시한다고 볼 수 있다. (본문 그림 참고).

    실제로 1997년 아시아 금융 위기는 1997년 3월 28일 이후 3개월 후에 시작되었으며, 한국 경제뿐 아니라 세계 경제에도 큰 타격을 주었다. 이와는 대조적으로, 2011년 6월 25일 언어 네트워크에서는 긍정적인 단어들이 중심에 위치하며, 이는 안정적인 한국 경제를 예측한다고 볼 수 있다. 실제로 2011년 이후 한국 경제는 꾸준한 경제 성장을 보였다.

    본 연구는 정책 입안자뿐 아니라 위험 관리 능력이 결여된 개인 투자자 및 실무자가 질적 불확실성을 해석하여 위험으로 바꾸고 이를 다시 헤지 및 투자의 수단으로 삼을 수 있는 기술을 가지도록 하는 등 금융 생태계에 참여하는 모든 이해관계자들의 발전과 성장에 기여할 것이다.
결과보고시 연구요약문
  • 국문
  • 금융 시장은 정량화할 수 있는 불확실성인 위험과 정성적인 불확실성 (Knight 1921, Keynes 1921)에 영향을 받는다. 따라서 투자자들은 시장의 불확실성에 대비한 위험 관리 도구들을 개발하였다. 그러나 현 금융시장에서는 여전히 '미래의 위험' 관리에 관한 자원과 역량이 부족한 상황이다. 전통적인 위험 관리 지표로는 VaR (value-at-risk), 신용 스프레드 (credit spread), 기간 스프레드(term spread), VIX 등이 있다. 이들은 정량적이며 미래의 상태에 대한 정보를 어느 정도 포함한다. 그러나, 이 지표들은 본질적으로 사후적이며 정성적인 불확실성을 포착하지는 않는다. 예를 들어, 위험지표로 많이 간주(看做)되는 기간 스프레드는 채권 가격에 포함된 사후적인 정보이나, 미래 경기 침체에 대한 지표로도 쓰인다. 그러나 이 정보가 미래 위험에 관한 지표로서 얼마나 신뢰성이 있는지는 여전히 논쟁 중이다. (예 : Estrella et al., 2003; Bordo and Haubrich, 2008).

    Baker and Wurgler (2006, 2007)는 다수의 거시 금융 지표를 사용하여 top-down으로 투자 심리 지수를 구성하는 새로운 접근법을 제안한다. 그들은 투자 심리 지수가 주식 수익률의 횡단면 차이를 예측할 수 있음을 보여준다. 하지만 그들의 연구는 인간의 다양한 감성을 일차원적으로 분류하는 한계점이 있다. 시장의 다차원적인 감성을 어떻게 반영하여 금융 의사결정에 사용할지에 관한 연구는 매우 필요하다. 그러나 이러한 연구는 아직도 초기 단계이다. 특히 대용량 텍스트 정보 등 빅데이터를 분석하여 정성적인 불확실성과 관련된 시장의 다양한 감성을 추출하고 어떻게 이를 위험관리에 사용할지에 관한 연구는 부족하다. 더욱이 이러한 연구를 바탕으로 조기 경보 시스템을 개발하여 투자자나 정책 개발자가 활용하는 것도 아직은 매우 초기 단계이다.

    우리는 기존 학술 문헌과 실무에서 나타나는 이러한 위험 관리의 한계를 극복하고자 한다. 우리는 빅데이터 텍스트 분석을 통하여 감성을 추출하고 이를 사전적인 위험 관리에 사용하는 방법론을 제안한다. 본 논문에서 제안하는 새로운 방법은 언어 네트워크의 구조에 관한 정보를 이용하여 텍스트 정보의 문맥을 분석하는 것이다. 이것은 정성적인 불확실성을 해석하여 정량적인 위험으로 전환하는 토대가 될 것이다. 이와 같은 방법을 적용을 하면, 실무에서는 이를 관리하고 거래하는 등 새로운 기회를 창출할 수 있을 것이다. 또한 본 연구를 통하여 문맥을 파악하기 위한 단어간의 네트워크와 빅데이터에서 추출한 다양한 감성을 체계적으로 관리하여 세계적인 규모의 데이터 베이스를 구축함으로써 관련 실무와 연구 발전에 기여한다. 본 연구진은 이미 해당 작업을 어느정도 완료하고 중국 등을 포괄하는 데이터 베이스를 개발 중이다. 이는 후속 연구를 자극하고 국내 금융 생태계 발전과 성장 및 고용 창출에 기여할 것이다.

    본 논문의 주요 결과는 다음과 같다. 첫째, 감성과 관련된 단어 빈도수의 간단한 합산만으로도 한국의 거시 금융 변수의 미래 변화를 예측할 수 있다. 예측력은 단기적으로는 일별 그리고 장기적으로는 월별까지 분석하고 모두 통계적으로도 유의하다. 예를 들어, 분석 기간내의 모든 날들을 가장 부정적인 감성이 심한 날부터 가장 긍정적 감성이 높은 날까지 정렬한다고 하자. 그 다음, 상위 33% 긍정적인 날에서 상위 33% 부정적인 날 수준으로 빅데이터에 나타난 감성이 변한다고 가정해보자. 분석 결과에 따르면 평균적으로 다음과 같은 변화가 그 다음날 (plus one day) 통계적으로 의미있게 나타난다: VKOSPI가 5.5 증가, 신용 스프레드가 0.2% 증가, 기간 스프레드가 0.03% 증가, 로그 EWY 거래량이 0.16 감소, USD가 70 증가, JPY가 28 감소, RMB가 8 감소, EURO가 48감소 한다. 한편 다음과 같은 사건은 한 달 후 (plus one month) 발생한다: FSI가 6 증가, VKOSPI가 8 증가, 신용 스프레드가 0.35% 증가, 기간 스프레드가 0.1% 증가, 소비자 신뢰 지수가 5.5 감소, 로그 EWY 거래량이 2.4 감소, 외국인 순매수가 0.5% 증가, USD가 106 증가, EUR가 64 감소한다. 지연 변수(lagged variables)와 통제변수(control variables)를 이용하여 VAR 분석을 하면 통계적인 유의성은 약해지나, 여전히 상당히 통계적으로 유의미한 수준의 예측력은 유지된다.

    둘째, 언어 네트워크(semantic network)의 전체 구조를 고려하여 기사들의 문맥을 파악하여 감성 지수를 구성할 수 있다. 이렇게 하면 지수의 예측력이 증가한다. 특히 우리는 감성과 관련된 단어의 중심성(centrality)을 측정하여 기사들의 문맥을 파악하는 방법론을 제시한다. 예를 들어, 앞서와 비슷하게 분석 기간 중의 일자들을 가장 부정어들의 감성 중심성이 높은 날부터 가장 긍정어들의 감성 중심성이 높은 날짜로 정렬한다고 하자. 그 다음, 상위 33%의 긍정어들의 감성 중심성이 높은 날짜에서 상위 33%의 부정어들의 감성 중심성이 높은 수준으로 감성이 변한다고 가정해보자. 그렇다면 다음과 같은 사건이 6개월 후 (plus six months) 평균적으로 발생한다: FSI 3.14 증가, VKOSPI 4.83 증가, 신용 스프레드 0.27% 증가, 기간 스프레드 0.22% 증가, 로그 EWY 거래량 1.90 감소, 로그 외국인 거래량 0.02 감소, 외국인 순매입 0.5% 증가, USD 58 증가, RMB 18 감소한다. 그리고 한달 후 (plus one month) 다음과 같은 사건들이 평균적으로 발생한다: FSI 7.35 증가, VKOSPI 9.19 증가, 신용 스프레드 0.39% 증가, 기간 스프레드 0.19% 증가, 소비자 신뢰 지수 5.73 감소, 로그 EWY 거래량 1.96 감소, 로그 외국인 거래량 0.01 감소, USD 89 증가, RMB 14 감소한다. 연구 결과에 따르면, 단어 빈도수에 기반한 감성 지수는 상대적으로 단기적인 예측력이 있다. 이에 반면, 언어 네트워크 기반의 감성 지수는 6개월 이후 FSI 지수를 예측하는 등 장기적인 예측력까지 있는 것으로 판단된다.

    셋째, 언어 네트워크를 그래프를 통해 시각화하면 미래의 거시 경제 변수의 변화에 관한 풍부한 직관을 얻을 수 있다. 본 논문에서 제시한 언어 네트워크는 미래의 금융 위기 및 사건에 대응하여 동적으로 변한다. 예를 들어 1997년 3월 28일 언어 네트워크의 중심에는 부정적이고 불확실하고 소극적인 단어들이 중심에 나타나며, 이는 한국 경제의 위험하고 불확실한 미래를 암시한다고 볼 수 있다. 실제로 1997년 아시아 금융 위기는 1997년 3월 28일 이후 3개월 후에 시작되었으며, 한국 경제뿐 아니라 세계 경제에도 큰 타격을 주었다. 이와는 대조적으로, 2011년 6월 25일 언어 네트워크에서는 긍정적인 단어들이 중심에 위치하며, 이는 안정적인 한국 경제를 예측한다고 볼 수 있다. 실제로 2011년 이후 한국 경제는 꾸준한 경제 성장을 보였다.

    결론적으로 본 논문의 주요 공헌은 단어들로 이루어진 네트워크를 분석하여 문맥을 파악하여 경제의 양적, 질적 불확실성을 측정하고 이를 바탕으로 다양한 거시 금융 리스크를 예측할 수 있다는 점을 보여주는 것이다. 금융 분야의 텍스트 분석에서 현재 학계의 연구 수준은 단순히 단어들 빈도에서 정보를 추출하는 정도다. 본 논문의 언어 네트워크는 뉴스 기사의 단어들 간의 관계를 파악하여 맥락을 분석한다. 이러한 네트워크 구조를 바탕으로 다양한 거시 금융 지수를 예측하는 것이 기존의 연구들과 가장 큰 차이점이다. 뿐만 아니라 본 논문은 인간의 복잡한 감성을 고려하여 시장의 다차원적인 감성을 추출하고 이들이 위험관리에 활용할 수 있는 방법을 제공한다. 향후 연구에서는 이러한 시스템을 더욱 확장하고 정교화하여 정책 개발자와 금융 실무자가 활용할 수 있도록 해야 할 것이다. 이는 정책 입안자뿐 아니라 위험 관리 능력이 결여된 개인 투자자 및 실무자가 질적 불확실성을 해석하여 위험으로 바꾸고 이를 다시 헤지 및 투자의 수단으로 삼을 수 있는 기술을 가지도록 하는 등 금융 생태계에 참여하는 모든 이해관계자들의 발전과 성장에 기여할 것이다.
  • 영문
  • How to predict the macro-financial state of an economy using big data? We suggest a novel and practical approach. We exploit wide range of global news sources in order to extract multi-class global sentiments and build an early warning system based on them. The technology for extracting and processing sentiments from the big data source is NLP (Natural Language Processing). Then, we match the variation of the sentiments with future variation of macro-financial variables.

    When we assign a word into sentiment categories, we use the Harvard dictionary. Then, we define multi-class sentiments such as net positive tone (positive minus negative tones divided by total word count), the number of news, positivity, negativity, strength, weakness, activeness, and passiveness. We also analyze other sentiments in Harvard dictionary, but exclude them to make this paper concise. A word in an article can be classified into one or multiple sentiments if the word implies multiple sentiments. We also apply Loughran and McDonald Sentiment Word Lists (Loughran & McDonald 2011) to construct semantic networks and compare them with those from the Harvard dictionary.

    We collect and analyze big data composed of 3,562 global news sources such as Financial Times, Wall Street Journal, and etc. For robustness, we use simplest NLP techniques (e.g. only excluding stop words). Our NLP analysis also covers the context of words. Note that a word can have different meanings depending on contexts and that the network of words can capture the context. Therefore we highlight semantic network. In order to measure the dynamically changing network of words, we construct the centrality index for each sentiment and semantic network. This improves the explanatory power of the sentiments in explaining and predicting the Korean macro-financial variables. The macro-financial variables we analyze are Financial Stability Index of Bank of Korea (FSI), VKOSPI (Volatility index about KOSPI 200), credit spread, term spread, EWY (iShare Korean ETF) trading volume, consumer sentiment index, foreign investor turnover in the Korean stock market, foreign investors’ net buying in the Korean stock market and foreign exchange rates (USD, JPY, RMB, EUR).

    Our results are remarkable. First, even the simple counting of sentiment-related words can forecast how the macro-financial variables in Korea change in the future. The predictability is statistically significant for both short-term and long-term. Suppose we sort the days in our sample from most negative-emotion days to the most positive-emotion days. When we move from top 33% positive-emotion days to top 33% negative-emotion days, the following events happen next day on average: VKOSPI increases by 5.5, credit spread increases by 0.2%, term spread increases by 0.03%, log EWY trading volume decreases by 1.6, USD increases by 70, JPY decreases by 28, RMB decreases by 8, and EUR decreases by 48. And, the following events one occurs one month later on average: FSI increases by 6, VKOSPI increases by 8, credit spread increases by 0.35%, term spread increases by 0.1%, consumer confidence index decreases by 5.5, log EWY trading volume decreases by 2.4, foreigner net buying increases by 0.5%, USD increases by 106, and EUR decreases by 64. Our results become less significant once we include lagged variables and other controls, but many results still remain significant.

    Second, it increase predictability to use sophisticated measures that take into account the overall structure of the semantic network, i.e. the contexts of words. We demonstrate a sophisticated measure with the centrality of sentiment-related words. Suppose we sort the months in our sample from most negative centrality to the most positive centrality. When we move from top 33% positive-centrality months to top 33% negative-centrality months, the following events happen after six months on average: FSI increases by 3.14, VKOSPI increases by 4.83, credit spread increases by 0.27%, term spread increases by 0.22%, log EWY trading volume decreases by 1.90, foreign turnover decreases by 0.02, foreigner net buying increases by 0.005, USD increases by 58, RMB decreases by 18. And, the following events occur one month later. FSI increases by 7.35, VKOSPI increases by 9.19, credit spread increases by 0.39%, term spread increases by 0.19%, consumer confidence index decreases by 5.73, log EWY trading volume decreases by 1.96, foreign turnover decreases by 0.01, USD increases by 89, RMB decreases by 14.

    Third, it is very useful to visualize the semantic network about sentiments. Our semantic network changes dynamically in accordance with future financial crises and events. For example, negative, uncertain and litigious words are at the center of the semantic network on March 28, 1997. This foreshadows a dangerous and uncertain future of the Korean economy. Actually, the 1997 Asian financial crisis began three months after, and brought about a major downturn not only in the Korean economy but also in the global economy. On the other hand, on the semantic network at June 25, 2011, the positive words are centered, possibly promising stable Korean economy in future. Indeed, the Korean economy has shown steady economic growth since 2011. Therefore, depending on how to capture dynamic variation in the network, we can design highly intuitive and quantifiable indicators for future macro-financial uncertainties.

    Our results suggest an idea to develop an early warning system for macro-financial conditions in an economy. Multi-class sentiments and their contexts extracted on NLP are informative and useful to design an early warning system about future uncertainties whether quantifiable or not the uncertainties are. This will be of great help not only for policy makers but also for retail investors and practitioners who lack risk management capabilities and tools to interpret qualitative uncertainties into risk for hedging and investing.
연구결과보고서
  • 초록
  • Financial markets are full of qualitative and quantitative uncertainties, i.e. risks (Knight 1921, Keynes 1921). Hence, people have developed risk management tools to quantify uncertainties. However, financial markets still lack the resources for ‘future risk’ management. Traditional risk management indicators are value-at-risk, credit spreads, term spreads, VIX, etc. They are quantitative and may contain information about future states to some extent. However, they are intrinsically ex-post and do not capture qualitative uncertainty. For example, term spreads are ex-post information contained in bond prices and their predictive power is still in debate although they are often regarded as the most reliable indicator for future recessions (e.g. Estrella et al. 2003; Bordo and Haubrich, 2008). Baker and Wurgler (2006, 2007) propose a novel approach of constructing an investor sentiment index using selected macro-financial time series. They show that their investor sentiment index can predict cross-sectional differences in stock returns. Nevertheless, we are still at the early stage and lack the capabilities to extract information from a large dataset (e.g. big data) in order to manage future risk and process qualitative uncertainty possibly implied in large text sources. We fill this gap in academic literature and practice by proposing an ex-ante framework for risk management using textual analysis (NLP: Natural Language Processing). Our novel approach is to analyze the context of words in text sources using information about the structure of a semantic network. This would allow us to interpret qualitative uncertainty into risks so that practitioners manage and trade them to create new opportunities. In addition, by building the global scale database about semantic networks and multi-class investor sentiments extracted from diverse sources, we contribute to the development of practice and related literature.
    The main results of this paper are as follows. First, simple counts of sentiment-related words predicts how the Korean macro-financial variables vary in future. The predictability is valid for both short-term and long-term, ranging from days to months. For example, suppose that we sort days in terms of from most negative to most positive sentiments. If sentiments plummet from the level of top 33% positive days to that of top 33% negative days, the following events happen the next day on average: VKOSPI increases by 5.5, credit spread increases by 0.2%, term spread increases by 0.03%, log EWY trading volume decreases by 1.6, USD increases by 70, JPY decreases by 28, RMB decreases by 8, and EUR decreases by 48. And the following events happen one month after on average: FSI increases by 6, VKOSPI increases by 8, credit spread increases by 0.35%, term spread increases by 0.1%, consumer confidence index decreases by 5.5, log EWY trading volume decreases by 2.4, foreigner net buying increases by 0.5%, USD increases by 106, and EUR decreases by 64. The results become weaker if we consider large lags and control variables, but many results still remain significant.

    Second, if we use a sophisticated measure of sentiments in consideration of the entire structure of a semantic network, the predictability increases. We develop a sophisticated measure with the centrality of sentiment-related words.
  • 연구결과 및 활용방안
  • In conclusion, the main contributions of this paper are as follows. First, this paper illustrates how to understand the quantitative and qualitative uncertainties of an economy by analyzing the contexts and network of words. Second, it shows that various macro-financial risks can be predicted based on the indicators extracted from the semantic network. In analyzing texts in finance applications, current literature tends to use only word frequency. In contrast, the semantic network of this paper enables us to analyze the context and to obtain rich insights. This paper is the first to predict various macro-financial economic indices based on this network information. Third, this paper extracts the multi-level sentiments of the market considering the complexity of human sentiments, and finds that the sentiments provide useful insight for risk management. Future research can expand and elaborate this work in order to build an early warning system so that policy developers and practitioners can deploy it conveniently.
    A growing body of financial research adopts textual analysis to measure investor sentiment in financial news articles, and documents that the investor sentiment predicts stock returns and volatilities. Tetlock (2007) finds that negative tone in Wall Street Journal affects the trading volume and stock returns. Loughran and McDonald (2011) develop a word list to better measure tone in financial context. The predictability of investors sentiment on stock returns is strong in recessions (Garcia 2013). The text-based measure of uncertainty predicts implied volatility of S&P 500 index options (Manela and Moreira 2017).

    However, the existing empirical studies on investor sentiment depend on the frequency of positive or negative words in the text. They ignore the complex and multi-level human sentiments. They also disregard the relationship among important keywords, i.e. context, associated with risk and returns. This paper is the first in the literature to consider rich human sentiments such as strong, weak, passive, and active. In addition, we construct semantic networks among keywords in financial news article to examine how the relationship among the keywords is associated with macro-financial risks. The semantic networks visualize the relation among words (contexts) in financial news articles and reflect the tone of the news. Next subsection reviews the literature about semantic network.
    There are various ways to extract useful information from textual data. Semantic network analysis is one of the popular text analysis methods in recent years. Language can be represented as network of co-occurring words. Semantic network visualizes it. This type of analysis maps networks of words into networks of meaning. For example, semantic network analysis is useful to capture the media framework at one glance.

    Leydesdorff, Dawson and Hellsten (2010) examine how public media frame changes over decades using semantic network analysis in New York Times. They show that semantics of words can inform about frames/perspectives of public debate. Kim (2011) tracks internet discourse of Korean supporters of Dr. Woo Suk Hwang using directional network. The supporters of Dr. Hwang tend to convert their daily frustration to the blind support for a patriotic symbol even when the object is in a suspicious situation. Nerghes, Lee, Groenewegen and Hellsten (2015) use quantitative network measures such as betweenness and degree centrality to analyze the press release of European Central Bank (ECB) and Federal Reserve (FED) and their structural difference before and after financial crisis. They find that FED reacts immediately and remains steady while ECB is initially inattentive and slowly increases its attention.

  • 색인어
  • 해외언론, 빅데이터, 투자자, 감성, 거시금융
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력