연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구성과물 유형별 검색 > 보고서 상세정보

보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10062154&local_id=10086133
네트워크자료의 효과적 분석을 위한 영과잉 회귀모형 개발과 응용
이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 네트워크자료의 효과적 분석을 위한 영과잉 회귀모형 개발과 응용 | 2015 년 신청요강 다운로드 PDF다운로드 | 이동희(경기대학교) ) 연구결과물 로 제출된 자료입니다.
한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
연구과제번호 2015S1A5A2A01014573
선정년도 2015 년
과제진행현황 종료
제출상태 재단승인
등록완료일 2017년 10월 30일
연차구분 결과보고
결과보고년도 2017년
결과보고시 연구요약문
  • 국문
  • 본 연구에서는 네트워크 구조를 갖는 자료로부터 의미 있는 정보를 추출할 수 있는 방법으로 혼합물분포(mixture models)의 특수한 응용형태 가운데 하나인 영과잉 회귀모형(zero-inflated regression models)에 기반한 분석방법을 개발하고, 이를 기초로 다양한 분야에서 활용 가능한 형태로의 모형의 확장과 응용방법 및 사례들을 제시하였다. 최근 다양한 모바일 기기의 이용이 확대되면서 과거 어느 때보다 방대한 양의 자료가 수집돼 분석되고 있다. 소위 말하는 빅데이터(Big Data)가 다양한 분야에서 화두가 되고 있으며, 연구자들을 비롯하여 수많은 기업들과 관계자들의 관심이 집중되는 분야이다. 일반적으로 빅데이터는 방대한 규모의 자료를 의미하는 것을 넘어 이들 방대한 자료들 속에서 가치 있는 정보를 추출하여 이용함으로써 새로운 발전과 도약의 기회로 간주되고 있기 때문이다. 이와 같은 방대한 자료를 이용한 분석들 가운데 비교적 널리 사용되고 있는 것이 네트워크를 이용한 방법이다.
    실제적인 네트워크 분석에서는 자료 전체를 대상으로 일부분에 대한 연결망들을 가지고 분석을 하게 된다. 그러나 비록 일부분만이 연결돼 있다 하더라도 분석의 대상은 전체 네트워크를 대상으로 하므로 네트워크 연결 부분의 희소성(sparsity)으로 인해 모형의 추정과 관련하여 어려움을 겪게 된다. 본 연구에서는 이와 같은 부분의 문제에 대해 살펴보았다. 통계적인 관점에서 실제로 관측될 가능성이 전혀 없는 경우를 구조적 영값(structured zeros), 확률적으로 나타날 가능성은 있지만 실제에서는 관측되지 않은 경우를 표본추출 영값(sampling zeros)이라고 한다. 이와 같은 경우를 네트워크 분석에 적용하였다. 즉 네트워크 내에서 특정 점들 간의 연결 여부에 있어서 연결 가능성 자체가 전혀 없는 경우와 연결 가능성은 있지만 수집된 네트워크 자료에서 연결돼 나타나지 않은 경우를 구분하고자 하는 것이다. 많은 개체들로 이루어진 방대한 규모의 네트워크에서는 복잡해 보이는 듯 하지만 실제로 이를 인접행렬로 표현하면 개체들 간의 연결이 매우 드물게 나타나게 된다. 즉 행렬의 대부분의 값이 0을 갖는 희소행렬(sparse matrix)로 인접행렬이 표현된다. 따라서 이와 같은 수많은 영값에 대해 표본추출 영값과 구조적 영값을 구분해 낼 수 있다면 이미 관찰된 연결성 외에 잠재적인 연결 가능성을 표본추출 영값과 관련지어 현상을 설명할 수 있게 된다.
    본 연구에서는 이와 같은 목적의 분석을 수행하기 위한 모형으로 지수확률그래프모형(exponential family random graph models)에 기반한 영과잉혼합물분포를 이용한 확장한 형태를 제시하였다. 기존의 지수확률그래프모형은 연결유무에 대한 네트워크 정보만을 활용하여 분석에 사용하였으나, 본 연구에서 제안한 모형은 다양한 형태의 네트워크 자료에 대한 분석을 수행할 수 있도록 확장된 형태이다. 특히 실증분석을 통해 기존의 지수확률그래프모형에서 나타났던 한계를 극복할 수 있음을 제시하였으며, 다양한 네트워크 자료에 대한 분석을 통해 기존과는 다른 효과적인 정보를 제공할 수 있음을 보여주었다.
  • 영문
  • This study developed an analytical method based on zero-inflated regression models, one of the special application forms of mixture models, as a method to extract meaningful information from data with network structure We propose the extension and application methods and examples of models that can be used in various fields. Recently, as the use of various mobile devices has expanded, vast amounts of data have been collected and analyzed more than ever before. The so-called Big Data is becoming a hot topic in various fields, and is a field where researchers, as well as many companies and stakeholders are focused. In general, big data is considered as an opportunity for new development and leap by extracting valuable information from these vast amounts of data beyond the meaning of massive data. Among the analyzes using this vast amount of data, it is relatively common that the network.
    In the actual network analysis, the analysis is carried out with a network of a part of the whole data. However, even if only a part is connected, the object of the analysis is the whole network, so the sparsity of the network connection causes difficulties in estimating the model. In this study, we examined the problem of this part. Structured zeros are the cases where there is no possibility of actual observation from a statistical point of view, and sampling zeros, which are probable but not observed in practice, are called sampling zeros.
    This case is applied to network analysis. In other words, there is no connection possibility at all between the specific points in the network and the case where there is connection possibility but not connected at the collected network data. In a large network of many entities, it seems to be complicated, but if you actually represent it as an adjacency matrix, the connections between entities are very rare. That is, the adjacent matrix is ​​represented by a sparse matrix in which most of the values ​​of the matrix are zero. Therefore, if we can distinguish between the sampling values ​​and the structural zero values ​​for many of these zero values, we can explain the phenomenon by associating the potential connectivity with the sampling values ​​in addition to the observed connectivity.
    This study proposes an extended model based on the distribution of the excess mixture based on the exponential family random graph models. These most network graph models have been used for analysis by using only network information on the presence or absence of connections. However, the model proposed in this study is an extended form to analyze various types of network data. In particular, empirical analysis shows that the limitations of the existing index probability graph model can be overcome and that it is possible to provide effective information different from existing ones through analysis of various network data.
연구결과보고서
  • 초록
  • 본 연구의 목적은 네트워크 구조를 갖는 자료로부터 의미 있는 정보를 추출할 수 있는 방법으로 혼합물분포(mixture models)의 특수한 응용형태 가운데 하나인 영과잉 회귀모형(zero-inflated regression models)에 기반한 분석방법을 개발하고, 이를 기초로 다양한 분야에서 활용 가능한 형태로의 모형의 확장과 응용방법 및 사례들을 제시하는 것이다.
    최근 다양한 모바일 기기의 이용이 확대되면서 과거 어느 때보다 방대한 양의 자료가 수집돼 분석되고 있다. 소위 말하는 빅데이터(Big Data)가 다양한 분야에서 화두가 되고 있으며, 연구자들을 비롯하여 수많은 기업들과 관계자들의 관심이 집중되는 분야이다. 일반적으로 빅데이터는 방대한 규모의 자료를 의미하는 것을 넘어 이들 방대한 자료들 속에서 가치 있는 정보를 추출하여 이용함으로써 새로운 발전과 도약의 기회로 간주되고 있기 때문이다. 이와 같은 방대한 자료를 이용한 분석들 가운데 비교적 널리 사용되고 있는 것이 네트워크를 이용한 방법이다.
    네트워크(network)란 수학적으로 점들(nodes)과 이들 사이를 잇는 선들(edges)의 모음으로 이루어진 구조를 의미한다. 이러한 네트워크를 이용하여 현실의 여러 현상들을 표현할 수 있으며, 다시 이러한 네트워크 구조에 대해 행렬 및 그래프이론(graph theory) 등 수학적·통계적 모형을 적용함으로써 우리가 알기 원하는 다양한 정보들을 추출할 수 있다. 트위터(Twitter) 혹은 페이스북(FaceBook)이나 카카오톡(CacaoTalk) 등 최근 우리가 많이 이용하는 소위 사회연결망서비스(social network service: SNS)를 통해 수집되는 수많은 자료들은 이러한 네트워크를 통해 표현할 수 있으며, 실제로 이들 SNS들은 이러한 네트워크 내의 자료들을 이용하여 정보를 추출하고, 이를 서비스개선이나 수익창출을 위한 자료판매 등에 활용하고 있다.
    그러나 아직까지 네트워크와 관련된 연구는 네트워크 자료의 특징을 파악하기 위한 방법에 국한돼 있는 것이 사실이다. 즉 네트워크를 구성하는 각 점(node)들간의 연결망 구조를 전체적으로 파악할 수 있도록 중심성(centrality) 등을 살펴보는 방법들로 대부분 요약의 범위를 벗어나지 못하고 있다. 이와 같은 상황에서 본 연구에서는 이와 같은 네트워크를 대상으로 한 통계적 모형을 개발하는 한편, 이를 이용한 응용연구를 진행하였다.
  • 연구결과 및 활용방안
  • 본 연구의 결과는 크게 두 가지 부분으로 나누어 활용방안을 고려해볼 수 있다. 하나는 학문적인 분야와 관련된 부분이고, 다른 하나는 사회적 기여와 관련된 부분이다. 이와 같이 두 부분으로 나누어 연구 결과에 대한 활용계획을 제시하면 다음과 같다.
    네트워크자료는 오랜 역사에도 불구하고 최근에서야 정보통신기술의 발달로 인해 방대한 자료가 수집되면서 효과적인 분석방법으로 조명 받고 있는 상황이다. 특히 국내의 경우 아직까지 네트워크모형과 관련된 이론적 연구가 진행되고 있지 않고, 최근에 이루어진 대부분의 연구는 사례분석 위주의 응용연구라는 점에서 연구 기반 구축을 위한 연구가 필요한 상황이다. 빅데이터에 대한 사회적 관심이 집중되고 있는 현재 상황에서 많이 네트워크와 관련한 본 연구는 취약한 국내 연구 기반을 확장할 수 있는 좋은 기회이다. 아직까지 네트워크모형화와 관련하여 국외에서 활발히 연구되고 있지만, 아직까지는 연결 유무만을 반영하기 위한 지수확률그래프모형(ERGM)를 중심으로 한 네트워크모형과 이로부터 파생된 모형들이 주로 이용되고 있는 상황이다. 반면 본 연구는 기존의 네트워크모형이 설명하고 있지 못하는 부분의 특성을 규명함으로써 여러 분야에 활발히 적용될 수 있을 것으로 기대한다.
    이러한 다양한 분야에서의 활용가능성 외에도 본 연구를 통해 축적된 성과물은 빅데이터와 관련된 문제 해결을 위한 통계적 방법을 통한 새로운 해결방향을 제시할 수 있다. 끊임없이 수집되는 빅데이터 환경에서 이들 자료 전체를 이용하여 분석에 활용하는 것은 매우 비효율적이며, 분석에 치우치다 보면 결과의 활용시점을 놓쳐 필요한 시점에 활용할 수 없을 수 있다. 이러한 경우 본 연구에서 제안하고 있는 표본추출을 이용한 빅데이터 분석방법은 효과적인 대안이 될 수 있으리라 생각된다. 특히 표본추출의 필요성이 인정되면 이제까지 자료의 방대한 규모로 인하여 사용할 수 없었던 여러 가지 통계적·수학적 모형을 보다 다양하게 적용할 수 있게 된다. 이에 따라 관련 연구가 보다 활성화되는 계기를 마련할 수 있을 것이다.
    그 동안 국내외를 막론하고 네트워크자료에 대한 관심은 매우 높지만, 자료의 특성을 보다 정확하게 반영하기 위한 목적에서 새로운 분석방법의 개발이나 이를 통한 새로운 정보의 창출은 더디게 진행된 것이 사실이다. 이러한 환경에서 본 연구에서 제시하는 영과잉분포모형에 기반한 네트워크모형은 전혀 진행되지 않았던 내용이지만, 현재까지 수행한 실증 연구를 통해 예상해 보자면 그 활용도가 매우 높을 것으로 생각된다. 특히 SNS에 기반한 인터넷 서비스나 기업의 마케팅 활동에서 잠재 고객의 발굴 등에 활용할 수 있고, 초중고교 내에서 이루어지는 집단 따돌림 등과 같은 사회적 현상에 대해 선제적 예방 조치를 취할 수 있는 정보를 제공할 수 있다는 점에서 사회적으로 매우 활용성이 크다고 할 수 있다.
  • 색인어
  • 네트워크 모형, 영과잉분포, 의사가능도함수, 지수확률그래프모형, 혼합물분포
  • 이 보고서에 대한 디지털 콘텐츠 목록
데이터를 로딩중 입니다.
  • 본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
  • 또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.
데이터 이용 만족도
자료이용후 의견
입력