연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

지오소셜빅데이터의 공간패턴 및 공간관계 분석
Analysis of Spatial Pattern and Spatial Relationship in the Geosocial Big Data
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 중견연구자지원사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2014S1A5A2A01013671
선정년도 2014 년
연구기간 1 년 (2014년 05월 01일 ~ 2015년 04월 30일)
연구책임자 홍일영
연구수행기관 남서울대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표

  • 최근 스마트폰이 대중화되고, CCTV를 비롯한 다양한 센서들이 증가하면서 디지털 정보가 급속하게 증가하고 있다. 특히, 트위터를 비롯한 소셜미디어의 이용은 전 세계에 걸쳐 2억개의 계정이 등록되고 매일 1억 천만 만 건의 트윗이 생성되고 있다(Chiang, 2011). 이러한 정보들은 오픈API를 통한 정보의 접근이 가능하기에, 소셜빅데이터 분석은 인플루엔자 예보나, 재난대비, 마이크로 마케팅과 같이 기관의 효율성 증진에 중요한 역할을 담당하고 있다.
    빅데이터는 미래를 예측하고, 창조하는 기술로서 현재의 상황에 대한 올바른 인식과 최적화를 통해 미래를 예측함으로서 사회의 효율성 증진을 목적으로 한다(Lohr, 2012). 이중 소셜빅데이터는 사람간의 관계 속에 생성되는 비정형 데이터로서 사회이슈나 트렌드 분석하기 위해 주로 이용되고 있다(Ellison et al., 2007; Anne et al., 2009,;Kwak, 2010). 이와 같은 소셜빅데이터 분석의 대표적인 사례로는 트위터 분석이 대표적으로 트위터 데이터는 API공개를 통해서 자신의 데이터에 접근을 허용하고 있다(Zhao and Rosson, 2009). 최근 공공기관 및 정당, 언론 등에서 소셜빅데이터 분석을 통한 여론분석에 활용하는 것은 가장 보편적인 활용사례라고 할 수 있다.
    소셜빅데이터의 가치는 대중의 의견이 반영된 정보라는 점에 있다. 이러한 소셜빅데이터 분석은 수집한 데이터에 대해 텍스트 마이닝과 같은 기법을 통해 어휘데이터를 기반으로 의미관계 분석을 수행하고 있다. 소셜빅데이터 분석은 사회에 대한 이해, 트랜드 감지를 목적으로 하고 주류별 관심도를 주요 검색어의 순위를 통해 분석한다(Lampos, et al, 2013).
    스마트폰에서 작성된 소셜미디어의 데이터는 기기에 장착된 GPS로 측정된 위치정보를 함께 포함하고 있기에 사용자가 작성한 콘텐츠에 대한 공간적 분포 패턴에 대한 분석이 가능하다(장래영 외, 2010). 최근 이러한 위치정보를 포함한 소셜미디어의 데이터를 지오소셜데이터라고 하며, 트위터의 공간정보를 이용하여 지도제작을 통한 가시화는 그 대표적인 사례라고 할 수 있다. 그러나 이러한 공간자료의 이용은 아직 지도를 이용한 가시화의 수준에 그치는 경우가 많으며, 주제어에 따른 콘텐츠와 인구사회학적 데이터와의 관계분석이나, 시계열자료를 이용하여 GIS 기반의 공간통계분석기법을 이용한 공간패턴을 분석하는 사례는 드물다. 본 연구는 일정 기간 동안, 가장 트렌드가 되고 있는 주요 주제어들을 선정하여 이러한 주제어에 대한 지오소셜빅데이터의 정보를 수집하고, GIS 공간분석기법을 이용하여 공간적인 패턴에 대한 분석과 인구사회학적인 변수와의 연관관계를 분석하는 것을 목적으로 한다.
  • 기대효과
  • 본 연구는 지오소셜콘텐츠의 내용과, 각 주제와 관련이 있는 인구사회학정보화의 관계를 함께 고려한 분석을 시도하고 있다는 점에서 학문발전에 기여한다. 통계청에서 작성하는 인구사회학의 통계는 일정기간을 갖고 많은 비용을 들여 조사원을 통해 수집하는 정보이기에 시간적으로 과거의 정보라고 할 수 있다. 한편, 소셜미디어에 나타나는 각 검색어들에 대한 정보는 온라인상에서 자발적으로 누적되는 실시간적인 변화에 대한 정보로서 이들 자료에 대한 분석은 상대적으로 적은 비용과 자동화된 방식으로 각 시점에서 빠른 정보의 수집이 용이하다. 따라서, 각 지역별로 나타나는 인구사회학적인 특징과 소셜미디어 데이터 간의 관계에 대한 비교분석은 과거의 결과와 함께 실시간적인 변화를 동시에 파악 할 수 있는 단서를 제공한다고 할 수 있다. 본 연구는 모바일 웹이라는 사이버 공간에서 투영된 지리적 특징에 대해 지리학의 분석기법을 적용하여 분석을 했다는 점 그리고 자동화된 방식을 통해 빠르게 접근할 수 있는 방안을 제시한다는 점 등에서 연구의 의미를 갖는다.
    빅데이터 분석 연구는 모집단을 이용한 예측방식의 통계분석과 달리 전체 데이터에 대한 전수조사 방식을 통해 예측의 정확도를 높이기에 많은 관심을 받는 연구라고 할 수 있다. 이러한 예측은 관측한 데이터에서 발생하는 패턴에 대한 분석을 통해 가능하다. 공간빅데이터 분석 역시 공간데이터 상에 나타나는 공간패턴에 대한 분석을 통해서, 미래를 예측하는 방식이라고 할 수 있으며, 이러한 예측 패턴은 공공분야의 효율성 증진을 통한 예산절감, 마케팅의 효율성 증진에 큰 도움을 줄 것으로 기대한다.
    본 연구의 창의성은 연구의 주제와 연구방법 부분에서 찾을 수 있다. 우선 연구주제에 있어서 기존의 소셜미디어를 이용한 연구들은 소셜미디어의 콘텐츠를 주요한 주제로 하거나, 위치정보를 이용하는 경우 지도를 통한 가시화에 중점을 두는 경우가 일반적이였다. 본 연구에서는 콘텐츠가 위치한 정보와 해당지역의 인구사회학적인 정보와의 상관관계에 대한 분석을 시도하였다는 점에서 기존연구와의 차별화된 연구주제라고 할 수 있다.
    둘째로 연구방법에 있어서 공간빅데이터 분석에 파이썬(Python)의 통합라이브러리를 이용하여 일괄처리를 수행하였다는 점이다. 기존의 소셜 미디어 분석의 경우, 데이터의 수집과 처리 및 분석에 있어서 상이한 소프트웨어 및 분석 도구를 이용하여 분석의 어려움의 있었지만 본 연구의 경우 각 해당 분야의 파이썬 라이브러리를 이용함으로서 분석의 일관성과 신속성을 도모했다는 점에서 차별화된 창의적인 특징을 찾을 수 있다.
    다음으로 본 연구의 도전적인 특징은 두 가지로 요약할 수 있다. 우선은 상이한 전문지식을 포괄한다는 점이다. 소셜미디어 자료의 수집과 처리와 관련한 소프트웨어 관련지식, 공간통계와 관련한 통계처리지식, 지도를 이용한 가시화와 관련한 GIS분석지식과 같은 상이한 전문지식이 필요한 연구를 포괄한다는 특징을 들 수 있다. 둘째로는 방대한 데이터 수집과 처리부분으로 공간빅데이터의 수집을 위해 3개월이라는 자료수집기간을 통해 데이터베이스를 구축하고 데이터 처리 및 분석을 위한 프로그램을 개발한다는 점에서 도전적인 특징을 찾을 수 있다.
  • 연구요약
  • 본 연구에서는 오픈API를 이용해 실시간 변화에 대한 자료수집이 가능한 트위터(twitter.com)와 포스퀘어(foursquare.com)를 대상으로 하여 3개월 동한 자료를 수집하여, 수집한 자료들에 대해 분석을 실행한다. 소셜미디어가 생성하는 콘텐츠는 공통적으로 단문형식의 텍스트, 생성날짜, 생성위치를 포함하고 있기에 다음과 같은 분석이 가능하다.

    1. 트위터 사용자들의 공간패턴변화, 시계열적인 공간패턴분석
    2. 포스퀘어 사용자들의 주요 방문장소(venue)의 특징 및 패턴 분석
    3. 트위터 주제어에 대한 시군구별 트위터 사용량과 인구사회학적 변수간의 관계분석

    공간빅데이터의 분석은 크게 데이터의 수집, 저장(처리), 분석 등으로 구분할 수 있는데 이러한 과정은 한 분야만의 전문지식으로는 쉽지 않다. 따라서 공간빅데이터 연구를 위해서는 통계분석가, 자료처리를 위한 소프트웨어 엔지니어, 비주얼라이징 전문가, 해당 지식분야의 도메인 전문가 등과 같은 여러 전문가들의 협업을 요구하게 된다. 한편, 최근 빅데이터의 분석의 사례들이 등장하면서 각 분야의 분석을 위해 개발한 라이브러리가 공유되면서 다양한 전문분야의 지식에 대한 접근과 활용을 가능하게 하고 있다.
    본 연구의 연구대상인 지오소셜미디어의 정보는 정보의 규모, 생성 속도, 다양성 등과 같은 기존의 방식으로 분석하기 어려운 방대한 빅데이터의 특징을 갖고 있다. 소셜빅데이어의 수집, 저장, 분석을 위해서는 데이터 저장 및 관리, 데이터 통계분석, 가시화 등과 같은 다양한 소프트웨어 라이브러리가 필요하다. 본 연구에서는 이러한 지오소셜빅데이터의 수집, 자료변환 및 처리, 분석에는 파이썬 프로그래밍 도구들을 이용한다. 파이썬은 객체지향형식의 스크립트언어로서 신속하게 텍스트형식의 데이터들에 대한 처리를 가능하게 하는 도구로서 그동안 텍스트 마이닝 분야에서 많이 사용되어 왔다. 파이썬은 개방된 오픈소스 아키텍처와 쉬운 프로그래밍 문법의 특징으로 많은 분야의 사용자들 참여로 성장해온 프로그래밍 언어라 할 수 있다. 특히, 최근 사용자들의 PyPi포털(pypi.python.org)을 이용하여 사용자들이 개발한 다양한 분야의 소스코드와 라이브러리의 공유가 쉽게 이루어지면서, 웹, 데이터베이스, 통계, 소셜미디어, 등 IT 전분야 걸쳐 다양한 라이브러리들에 대한 통합적이 사용이 가능해지고 있다.
    트위터의 경우 tweepy 라이브러리를 이용하여 트위터의 데이터를 실시간으로 접속하여 정보수집이 가능하고, 포스퀘어의 경우 pyfousqure 라이브러리를 사용하여 베뉴(venuse)들에 대한 정보수집이 가능하다. 실시간으로 수집하는 소셜미디어의 정보들은 웹의 데이터 교환포맷인 JSON(JavaScript Object Notation) 형식으로 수집된다. 수집된 JSON 포맷은 객체에 대한 설명을 위한 트리구조의 형식이기이에 소셜미디어 정보들은 다시 파이썬의 텍스트 마이닝 처리 프로그램을 통해서 통계처리가 가능한 테이블 형태의 CSV형식의 포맷으로 변환한다. 변환한 CSV형식의 데이터의 통계처리는 데이터 처리의 오류의 낮추고 분석을 위해 필요한 부분들을 추출하는 데이터 검증 및 추출의 과정을 거치게 된다. 이러한 데이터 검증 분 데이터 오류의 분석은 파이선의 Pandas 라이브러리를 이용하게 되며, 통계분석을 위해 필요한 최종적인 포맷변환을 위한 데이터분석에 사용한다. 데이터의 수집, 변환, 검증을 통해 완성된 데이터들은 공간통계 분석을 실행한다. 데이터의 군집형태와 패턴분석을 위한 분설들은 파이선의 PySAL라이브러리를 이용한 분석이 가능하다. PySAL에는 공간가중치, 공간자기상관, Spatial Econometrics 를 비롯한 대다수의 공간통계 분석 기법들을 제공하고 있다. 이와 함께 ArcGIS의 spatial statistics의 공간통계 라이브러인 ArcPy의 사용이 가능하다.
결과보고시 연구요약문
  • 국문
  • 최근 위치기반의 소셜미디어 데이터라고 할 수 있는 지오트윗과 포스퀘어의 베뉴와 같은 지오소셜빅데이터에 대한 많은 연구들이 이루어지고 있다. 빅데이터의 한 분야라고 할 수 있는 지오소셜데이터의 분석에는 웹을 이용한 데이터수집, 수집한 자료의 분석 및 변환, 통계분석, 데이터관리 및 가시화 등의 다양한 분석과정이 필요하다. 지오소셜 빅데이터의 분석에 있어서 분석을 위한 통합된 아키텍터와 상호호환성을 고려한 분석환경은 적합한 분석결과를 얻어내는 데 있어서 중요한 역할을 담당한다. 이러한 목적을 위해 파이선 프로그래밍 환경은 통합된 환경에서 다양한 소프트웨어 라이브러리의 활용과 데이터간의 변환 및 활용을 가능하게 한다. 본 연구에서는 지오소셜빅데이터의 분석을 위한 방안을 제시하고, 국내 지오트윗과 포스퀘어 베뉴에 대한 사례연구를 수행하였다. 트위터와 포스퀘어의 API를 이용하여 데이터를 수집하였고, Pandas와 같은 도구를 이용하여 데이터 분석 및 가시화를 하였다. 공간분석을 위해서는 Spatialite 데이터베이스와 ArcGIS를 이용하여 공간분석 및 지도제작을 수행하였다. 이와 함께 정성적 데이터의 분석을 위해 트위터 콘텐츠에 대한 감성분석과 워드클라우드를 이용한 지역별 주요 키워드의 가시화를 수행하였다.
  • 영문
  • Recently, there has been many researches on location-based geo-social data such as geotweets and foursquare Venues. For the analysis of the geo-social data, there are many steps which are the data acquisition from Web API, analysis of the collected data, data conversion, statistical analysis, the data management and the data visualization. The integrated architecture, the compatibility of data and the analysis environment plays an important role to obtain the appropriate results. Python programming environment makes it possible to increase the usability of data between the various software libraries in the integrated environment. In this study, a plan for the analysis of geo-social big data are proposed and the case study is implemented with Korean geo-tweets and foursquare venues. Data were collected using the API of Twitter and Foursquare and Pandas library are used for the data analysis and visualization. For the spatial analysis, ArcGIS and Spatialite database are applied for the spatial analysis and data mapping. For the analysis of qualitative data such as tweet texts, the sensitivity analysis is applied for Twitter content and word cloud analysis is implemented to find out the main keywords.
연구결과보고서
  • 초록
  • 본 연구에서는 오픈API를 이용해 실시간 변화에 대한 자료수집이 가능한 트위터(twitter.com)와 포스퀘어(foursquare.com)를 대상으로 하여 자료를 수집하여, 수집한 자료들에 대해 분석을 수행하였다. 소셜미디어가 생성하는 콘텐츠는 공통적으로 단문형식의 텍스트, 생성날짜, 생성위치를 포함하고 있기에 사용자들의 공간패턴변화, 시계열적인 공간패턴분석, 소셜미디어 사용량과 인구사회학적 변수간의 관계분석 등이 가능하다.
    공간빅데이터의 분석은 크게 데이터의 수집, 저장(처리), 분석 등으로 구분할 수 있는데 이러한 과정은 한 분야만의 전문지식으로는 쉽지 않다. 따라서 공간빅데이터 연구를 위해서는 통계분석가, 자료처리를 위한 소프트웨어 엔지니어, 비주얼라이징 전문가, 해당 지식분야의 도메인 전문가 등과 같은 여러 전문가들의 협업을 요구하게 된다. 한편, 최근 빅데이터의 분석의 사례들이 등장하면서 각 분야의 분석을 위해 개발한 라이브러리가 공유되면서 다양한 전문분야의 지식에 대한 접근과 활용을 가능하게 하고 있다.
    본 연구의 연구대상인 지오소셜미디어의 정보는 정보의 규모, 생성 속도, 다양성 등과 같은 기존의 방식으로 분석하기 어려운 방대한 빅데이터의 특징을 갖고 있다. 소셜빅데이어의 수집, 저장, 분석을 위해서는 데이터 저장 및 관리, 데이터 통계분석, 가시화 등과 같은 다양한 소프트웨어 라이브러리가 필요하다. 본 연구에서는 이러한 지오소셜빅데이터의 수집, 자료변환 및 처리, 분석에는 파이썬 프로그래밍 도구들을 이용하였다. 파이썬은 객체지향형식의 스크립트언어로서 신속하게 텍스트형식의 데이터들에 대한 처리를 가능하게 하는 도구로서 그동안 텍스트 마이닝 분야에서 많이 사용되어 왔다. 파이썬은 개방된 오픈소스 아키텍처와 쉬운 프로그래밍 문법의 특징으로 많은 분야의 사용자들 참여로 성장해온 프로그래밍 언어라 할 수 있다. 특히, 최근 사용자들의 PyPi포털(pypi.python.org)을 이용하여 사용자들이 개발한 다양한 분야의 소스코드와 라이브러리의 공유가 쉽게 이루어지면서, 웹, 데이터베이스, 통계, 소셜미디어, 등 IT 전분야 걸쳐 다양한 라이브러리들에 대한 통합적이 사용이 가능해지고 있다.
    트위터의 경우 tweepy 라이브러리를 이용하여 트위터의 데이터를 실시간으로 접속하여 정보수집이 가능하고, 포스퀘어의 경우 pyfousqure 라이브러리를 사용하여 베뉴(venuse)들에 대한 정보수집이 가능하다. 실시간으로 수집하는 소셜미디어의 정보들은 웹의 데이터 교환포맷인 JSON(JavaScript Object Notation) 형식으로 수집된다. 수집된 JSON 포맷은 객체에 대한 설명을 위한 트리구조의 형식이기이에 소셜미디어 정보들은 다시 파이썬의 텍스트 마이닝 처리 프로그램을 통해서 통계처리가 가능한 테이블 형태의 CSV형식의 포맷으로 변환한다. 변환한 CSV형식의 데이터의 통계처리는 데이터 처리의 오류의 낮추고 분석을 위해 필요한 부분들을 추출하는 데이터 검증 및 추출의 과정을 거치게 된다. 이러한 데이터 검증 분 데이터 오류의 분석은 파이선의 Pandas 라이브러리를 이용하게 되며, 통계분석을 위해 필요한 최종적인 포맷변환을 위한 데이터분석에 사용한다. 데이터의 수집, 변환, 검증을 통해 완성된 데이터들은 공간통계 분석을 실행하였다. PySAL 및 ArcGIS의 spatial statistics의 공간통계 라이브러를 이용하여 공간관계를 분석하였다.
  • 연구결과 및 활용방안
  • 본 연구에서는 오픈API를 이용해 실시간 변화에 대한 자료수집이 가능한 트위터(twitter.com)와 포스퀘어(foursquare.com)를 대상으로 하여 자료를 수집하여, 수집한 자료들에 대해 분석을 수행하였다. 소셜미디어가 생성하는 콘텐츠는 공통적으로 단문형식의 텍스트, 생성날짜, 생성위치를 포함하고 있기에 사용자들의 공간패턴변화, 시계열적인 공간패턴분석, 소셜미디어 사용량과 인구사회학적 변수간의 관계분석 등이 가능하다.
    공간빅데이터의 분석은 크게 데이터의 수집, 저장(처리), 분석 등으로 구분할 수 있는데 이러한 과정은 한 분야만의 전문지식으로는 쉽지 않다. 따라서 공간빅데이터 연구를 위해서는 통계분석가, 자료처리를 위한 소프트웨어 엔지니어, 비주얼라이징 전문가, 해당 지식분야의 도메인 전문가 등과 같은 여러 전문가들의 협업을 요구하게 된다. 한편, 최근 빅데이터의 분석의 사례들이 등장하면서 각 분야의 분석을 위해 개발한 라이브러리가 공유되면서 다양한 전문분야의 지식에 대한 접근과 활용을 가능하게 하고 있다.
    본 연구의 연구대상인 지오소셜미디어의 정보는 정보의 규모, 생성 속도, 다양성 등과 같은 기존의 방식으로 분석하기 어려운 방대한 빅데이터의 특징을 갖고 있다. 소셜빅데이어의 수집, 저장, 분석을 위해서는 데이터 저장 및 관리, 데이터 통계분석, 가시화 등과 같은 다양한 소프트웨어 라이브러리가 필요하다. 본 연구에서는 이러한 지오소셜빅데이터의 수집, 자료변환 및 처리, 분석에는 파이썬 프로그래밍 도구들을 이용하였다. 파이썬은 객체지향형식의 스크립트언어로서 신속하게 텍스트형식의 데이터들에 대한 처리를 가능하게 하는 도구로서 그동안 텍스트 마이닝 분야에서 많이 사용되어 왔다. 파이썬은 개방된 오픈소스 아키텍처와 쉬운 프로그래밍 문법의 특징으로 많은 분야의 사용자들 참여로 성장해온 프로그래밍 언어라 할 수 있다. 특히, 최근 사용자들의 PyPi포털(pypi.python.org)을 이용하여 사용자들이 개발한 다양한 분야의 소스코드와 라이브러리의 공유가 쉽게 이루어지면서, 웹, 데이터베이스, 통계, 소셜미디어, 등 IT 전분야 걸쳐 다양한 라이브러리들에 대한 통합적이 사용이 가능해지고 있다.
    실시간으로 수집하는 소셜미디어의 정보들은 웹의 데이터 교환포맷인 JSON(JavaScript Object Notation) 형식으로 수집된다. 수집된 JSON 포맷은 객체에 대한 설명을 위한 트리구조의 형식이기이에 소셜미디어 정보들은 다시 파이썬의 텍스트 마이닝 처리 프로그램을 통해서 통계처리가 가능한 테이블 형태의 CSV형식의 포맷으로 변환한다. 변환한 CSV형식의 데이터의 통계처리는 데이터 처리의 오류의 낮추고 분석을 위해 필요한 부분들을 추출하는 데이터 검증 및 추출의 과정을 거치게 된다. 이러한 데이터 검증 분 데이터 오류의 분석은 파이선의 Pandas 라이브러리를 이용하게 되며, 통계분석을 위해 필요한 최종적인 포맷변환을 위한 데이터분석에 사용한다. 데이터의 수집, 변환, 검증을 통해 완성된 데이터들은 공간통계 분석을 실행하였다. PySAL 및 ArcGIS의 spatial statistics의 공간통계 라이브러를 이용하여 공간관계를 분석하였다.
  • 색인어
  • 지오소셜데이터, 공간분석, 트위터, 포스퀘어
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력