본 연구에서는 오픈API를 이용해 실시간 변화에 대한 자료수집이 가능한 트위터(twitter.com)와 포스퀘어(foursquare.com)를 대상으로 하여 자료를 수집하여, 수집한 자료들에 대해 분석을 수행하였다. 소셜미디어가 생성하는 콘텐츠는 공통적으로 단문형식의 텍스트, 생 ...
본 연구에서는 오픈API를 이용해 실시간 변화에 대한 자료수집이 가능한 트위터(twitter.com)와 포스퀘어(foursquare.com)를 대상으로 하여 자료를 수집하여, 수집한 자료들에 대해 분석을 수행하였다. 소셜미디어가 생성하는 콘텐츠는 공통적으로 단문형식의 텍스트, 생성날짜, 생성위치를 포함하고 있기에 사용자들의 공간패턴변화, 시계열적인 공간패턴분석, 소셜미디어 사용량과 인구사회학적 변수간의 관계분석 등이 가능하다.
공간빅데이터의 분석은 크게 데이터의 수집, 저장(처리), 분석 등으로 구분할 수 있는데 이러한 과정은 한 분야만의 전문지식으로는 쉽지 않다. 따라서 공간빅데이터 연구를 위해서는 통계분석가, 자료처리를 위한 소프트웨어 엔지니어, 비주얼라이징 전문가, 해당 지식분야의 도메인 전문가 등과 같은 여러 전문가들의 협업을 요구하게 된다. 한편, 최근 빅데이터의 분석의 사례들이 등장하면서 각 분야의 분석을 위해 개발한 라이브러리가 공유되면서 다양한 전문분야의 지식에 대한 접근과 활용을 가능하게 하고 있다.
본 연구의 연구대상인 지오소셜미디어의 정보는 정보의 규모, 생성 속도, 다양성 등과 같은 기존의 방식으로 분석하기 어려운 방대한 빅데이터의 특징을 갖고 있다. 소셜빅데이어의 수집, 저장, 분석을 위해서는 데이터 저장 및 관리, 데이터 통계분석, 가시화 등과 같은 다양한 소프트웨어 라이브러리가 필요하다. 본 연구에서는 이러한 지오소셜빅데이터의 수집, 자료변환 및 처리, 분석에는 파이썬 프로그래밍 도구들을 이용하였다. 파이썬은 객체지향형식의 스크립트언어로서 신속하게 텍스트형식의 데이터들에 대한 처리를 가능하게 하는 도구로서 그동안 텍스트 마이닝 분야에서 많이 사용되어 왔다. 파이썬은 개방된 오픈소스 아키텍처와 쉬운 프로그래밍 문법의 특징으로 많은 분야의 사용자들 참여로 성장해온 프로그래밍 언어라 할 수 있다. 특히, 최근 사용자들의 PyPi포털(pypi.python.org)을 이용하여 사용자들이 개발한 다양한 분야의 소스코드와 라이브러리의 공유가 쉽게 이루어지면서, 웹, 데이터베이스, 통계, 소셜미디어, 등 IT 전분야 걸쳐 다양한 라이브러리들에 대한 통합적이 사용이 가능해지고 있다.
트위터의 경우 tweepy 라이브러리를 이용하여 트위터의 데이터를 실시간으로 접속하여 정보수집이 가능하고, 포스퀘어의 경우 pyfousqure 라이브러리를 사용하여 베뉴(venuse)들에 대한 정보수집이 가능하다. 실시간으로 수집하는 소셜미디어의 정보들은 웹의 데이터 교환포맷인 JSON(JavaScript Object Notation) 형식으로 수집된다. 수집된 JSON 포맷은 객체에 대한 설명을 위한 트리구조의 형식이기이에 소셜미디어 정보들은 다시 파이썬의 텍스트 마이닝 처리 프로그램을 통해서 통계처리가 가능한 테이블 형태의 CSV형식의 포맷으로 변환한다. 변환한 CSV형식의 데이터의 통계처리는 데이터 처리의 오류의 낮추고 분석을 위해 필요한 부분들을 추출하는 데이터 검증 및 추출의 과정을 거치게 된다. 이러한 데이터 검증 분 데이터 오류의 분석은 파이선의 Pandas 라이브러리를 이용하게 되며, 통계분석을 위해 필요한 최종적인 포맷변환을 위한 데이터분석에 사용한다. 데이터의 수집, 변환, 검증을 통해 완성된 데이터들은 공간통계 분석을 실행하였다. PySAL 및 ArcGIS의 spatial statistics의 공간통계 라이브러를 이용하여 공간관계를 분석하였다.