연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

데이터마이닝을 이용한 사회지표조사의 효율적 분석에 관한 연구
A study of efficient analysis in society indicator survey using data mining
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 시간강사지원사업
연구과제번호 2012S1A5B5A07038102
선정년도 2012 년
연구기간 1 년 (2012년 09월 01일 ~ 2013년 08월 31일)
연구책임자 조광현
연구수행기관 국립창원대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 서울특별시 도봉구(2011)의 사회지표조사에서는 주거·생활, 교육, 경제, 여성·가족, 복지, 보건·위생, 문화·레저, 행정서비스 등 10개 분야 57문항 79항목을 조사하고 있다. 조사는 표본 추출된 지역 내 1,700여 가구를 대상으로 일대일 면접 방식으로 조사하며, 구민의 삶의 질과 복지정도, 주관적 의식에 대한 사항을 파악하기 위하여 사회지표 조사를 실시하고 있다. 부산광역시(2012)는 가구·가족, 교육, 주거·교통, 문화·여가, 환경, 정보·통신의 6개 부문에 대하여 부산내 17,784 표본가구 내 상주하는 만 15세 이상 가구원 38,661명을 대상으로 사회지표 조사를 실시하였다. 울산광역시(2011)는 인구·주택 등 7개 부문, 60개 항목에 대하여 구·군별 인구 비중에 따라 무작위 표본 추출한 191개 조사구 3,820 가구에 대해 조사원이 해당가구를 직접방문하여 사회적 관심에 대한 시민의식과 생활실태 등을 파악하고 지표화하여 각종 사회개발 정책 수립의 기초 자료로 활용하기 위하여 사회지표조사를 실시하였다. 경상남도(2011)는 소득∙소비, 고용∙노사, 교육, 보건∙체육, 주택, 환경∙교통, 사회, 정보화, 문화․여가, 그리고 안전부문 등 9개 분야에 대하여 조사대상 모집단을 경남 18개 시․군에 거주하는 17세 이상의 모든 도민과 가구로 하였다. 도내 총 가구 수에 대한 표본 수는 시간과 경비를 고려하여 총 가구수의 10%정도로 결정하여 사회지표조사를 실시하였다.
    이와 같이 사회지표조사는 주민들이 생각하는 사회 상태를 총체적이고도 집약적으로 나타내는 것으로, 변화하는 역사적 흐름 속에서 우리가 처해 있는 사회적 상태를 종합적으로 나타냄으로써 사회구성원들의 삶의 질을 전반적으로 파악하고 사회변화를 포착할 수 있는 척도라고 할 수 있다. 또한 사회지표조사는 주민들의 생활 수준, 사회의 종합적 상태, 사회변화의 예측, 사회개발정책의 성과 등을 측정하는 데 이용되고 있는 중요한 조사라고 할 수 있다. 이에 각 지차체에서는 많은 예산과 시간을 들여 사회지표조사를 실시하고 있다. 그러나 서울특별시 도봉구(2011), 부산광역시(2012), 울산광역시(2011), 경상남도(2011) 등의 사회지표조사 결과 보고서를 살펴보면 대부분의 분석 결과가 기술통계분석 또는 빈도분석의 기초통계분석 위주로 되어 있다. 이는 많은 시간과 비용을 들여 조사한 자료에 대하여 실태 파악 수준의 통계 분석만을 적용하므로 실제 사회지표 조사 자료를 제대로 활용하고 있지 못하고 있는 실정이다. 실제로 대부분의 사회지표조사 보고서의 통계 분석을 살펴보면 비율에 대한 응답 문항에는 평균 분석, 범주에 대한 응답 문항에는 범주의 빈도 분석으로 이루어져 있어, 사회지표조사의 원래 목적인 주민들의 전반적 생활수준 및 의식, 사회의 종합적 상태, 정책 결정 등의 자료로 활용하기에는 자료의 분석 수준이 너무 낮은 실정이다.
    또한 사회지표조사의 국내연구를 살펴보면 이계민 등(2009)은 사회지표조사에 대한 분석 및 제안점에 대하여 연구를 하였는데 그 주안점이 사회지표조사의 설문지 설계 및 표본 설계에 대한 내용이고, 수집된 자료에 대한 분석 방법에 대해서는 언급을 하지 않았다. 물론 사회지표조사에 필요한 설문지의 내용이나, 표본의 조사 방법 또한 매우 중요하나, 그 보다 더 중요한 것이 사회지표조사의 원 목적인 주민들의 생활 수준, 사회의 종합적 상태, 사회변화의 예측, 사회개발정책의 성과 등을 알아볼 수 있는 분석 자료를 추출하는 것이다. 이에 무엇보다 중요한 점은 사회의 생활수준 및 의식을 보다 자세하게 파악하고 보다 세분화된 지역여론을 반영한 시책을 수립하며, 한정된 투자재원을 더욱 더 효율적으로 배분하기 위해서는 사회지표조사 자료에 대한 분석을 보다 심층적으로 할 필요가 있다. 본 연구에서는 주민들의 사회 의식을 더욱더 총체적이고 효율적으로 분석하기 위하여 데이터 마이닝(data mining) 기법을 이용하여 사회지표조사를 분석하고자 하며, 데이터 마이닝을 이용하여 사회지표조사를 분석한 연구는 국, 내외적으로 연구된 바가 없다는 것으로 나타났다.
  • 기대효과
  • [1] 의사 결정의 기초 자료 활용
    본 연구는 여러 지방자치단체에서 매년 조사되고 있는 사회지표 조사 자료에 대하여 데이터 마이닝 기법을 적용하여 숨겨져 있는 의미 있는 정보를 도출하는데 그 목적이 있다. 본 연구의 결과를 토대로 주민들의 생활 의식 간의 연관성 유무, 주민 속성에 따른 생활 의식의 관련성 및 차이 유무, 주민 의식 세분화 및 분류 등의 이전에 발견되지 않았던 사회지표조사 자료의 의미 있는 내재된 정보를 탐색하고 도출할 수 있다. 이 결과를 바탕으로 주민들의 사회 전반적 생활수준 및 의식을 파악할 수 있고 지역 여론을 반영할 수 있는 자료를 도출할 수 있으므로 지역 개발 및 사회 개발에 따른 각종 정책 결정 시, 의사결정에 필요한 기본 자료로 활용할 수 있다.

    [2] 데이터 마이닝 모형화의 범용화
    현재 각 지방자치단체에서 실시하고 있는 사회지표조사는 해당 지자체에 따라 설문조사 문항이 다르다. 그러나 면밀히 살펴보면 거의 대부분의 지자체에서 조사하는 사회지표조사의 조사 분야 및 항목이 유사한 것을 알 수 있다. 이에 본 연구에서 적용한 경상남도 사회지표조사 자료에 대한 연관성 규칙 모형화, 군집분석 모형화, 의사결정나무 모형화, 하이브리드 데이터마이닝 모형화에 대한 분석 기법을 다른 지방자치단체의 사회지표조사에서도 그대로 적용할 수 있어 범용화된 분석 방법이라고 할 수 있다.

    [3] 각종 여론조사 등의 각종 사회 조사에 적용
    현재 데이터 마이닝은 기업의 마케팅, 금융업, 의학, 도·소매업 등에 다양하게 사용되고 있으나, 각종 만족도 조사, 수요 조사, 여론 조사 등의 다양한 사회 조사에서는 적용이 미비하다. 본 연구는 사회지표조사에 대한 데이터 마이닝 적용에 대한 연구라고 할 수 있지만 사회지표조사 또한 사회 조사의 한 분야라고 할 수 있다. 이에 본 연구의 데이터 마이닝 분석 모형을 바탕으로 다른 각종 사회 조사에 적용할 수 있으며, 각종 사회 조사 자료에 대한 데이터 마이닝의 적용으로 보다 효율적인 정보 추출 및 내재되어 있는 의미 있는 정보를 추출할 수 있어 그 활용 영역이 넓다고 할 수 있다.

    [4] 통계 조사 필요한 대학원 논문 통계에 적용
    일반적으로 인문대학, 사회과학대학 등의 대학원생의 경우 학위 논문(석사, 박사) 시, 통계 조사가 필요한 논문이 다수 있다. 이에 학위 논문들을 살펴보면 대부분이 어렵게 통계 조사를 실시 한 후 수집된 자료에 대한 통계 분석으로 평균, 분산 또는 빈도 분석 등의 기초 통계를 실시하거나 집단간 평균 차이 분석, 상관분석 등의 기본적인 분석들로만 논문 통계를 작성하고 있다. 이에 본 연구에서 제시하는 데이터 마이닝 기법을 논문 통계 과목에 접목하여 더욱더 다양하고 고급화된 정보를 추출할 수 있으며, 논문의 질을 더욱더 향상시킬 수 있으므로, 대학원 학위 취득 시 학생들에게 도움을 줄 수 있다.
  • 연구요약
  • 사회지표조사(society indicator survey)는 주민들이 생각하는 사회 상태를 총체적이고도 집약적으로 나타내는 것으로, 생활의 양적 측면은 물론 질적 측면까지도 측정하기 때문에 사회의 전반적 생활수준 및 의식을 파악할 수 있고 지역 여론을 반영할 수 있는 이점이 있다.
    사회지표조사는 주민들의 생활 수준, 사회의 종합적 상태, 사회변화의 예측, 사회개발정책의 성과 등을 측정하는 데 이용되고 있는 중요한 조사라고 할 수 있다. 이에 각 지차체에서는 많은 예산과 시간을 들여 사회지표조사를 실시하고 있다. 그러나 서울특별시 도봉구(2011), 부산광역시(2012), 울산광역시(2011), 경상남도(2011) 등의 사회지표조사 결과 보고서를 살펴보면 대부분의 분석 결과가 기술통계분석 또는 빈도분석의 기초통계분석 위주로 되어 있다. 이는 많은 시간과 비용을 들여 조사한 자료에 대하여 실태 파악 수준의 통계 분석만을 적용하므로 실제 사회지표 조사 자료를 제대로 활용하고 있지 못하고 있는 실정이다. 실제로 대부분의 사회지표조사 보고서의 통계 분석을 살펴보면 비율에 대한 응답 문항에는 평균 분석, 범주에 대한 응답 문항에는 범주의 빈도 분석으로 이루어져 있어, 사회지표조사의 원래 목적인 주민들의 전반적 생활수준 및 의식, 사회의 종합적 상태, 정책 결정 등의 자료로 활용하기에는 자료의 분석 수준이 너무 낮은 실정이다.
    이에 무엇보다 중요한 점은 사회의 생활수준 및 의식을 보다 자세하게 파악하고 보다 세분화된 지역여론을 반영한 시책을 수립하며, 한정된 투자재원을 더욱 더 효율적으로 배분하기 위해서는 사회지표조사 자료에 대한 분석을 보다 심층적으로 할 필요가 있다. 본 연구에서는 주민들의 사회 의식을 더욱더 총체적이고 효율적으로 분석하기 위하여 데이터 마이닝(data mining) 기법을 이용하여 사회지표조사를 분석하고자 하며 그 범위는 다음과 같다.
    1) 각 자료들간의 관련성을 알아보기 위한 연관성 규칙 적용.

    2) 유사한 속성을 지니는 주민들의 특성을 알아보기 위한 군집분석 적용.

    3) 각각의 사회 의식에 따라 주민들을 분류하기 위한 의사결정나무 적용.

    4) 주민들의 더욱더 다양하고 심도 있는 의식을 알아보기 위한 연관성 규칙, 군집분석, 의사결정나무 기법을 혼합한 하이브리드 데이터마이닝 적용.

    국내외적으로 마케팅, 유통, 전자상거래, 은행 등 금융권에서 데이터 마이닝 기법에 대한 연구가 고객관계를 관리하기 위한 차원에서 활발한 연구가 진행되고 있다. 그러나 현재 사회지표조사에 대하여 위의 데이터 마이닝 기법들에 대한 적용 연구는 거의 없는 실정이며, 본 연구에서는 사회지표조사에 대한 데이터 마이닝 기법을 이용한 분석 뿐만 아니라 데이터 마이닝 분석 모형을 제시하도록 한다. 본 연구의 전체적인 연구을 자세하게 설명하면 다음과 같다.
    [1] 자료의 선정
    분석에 사용할 사회지표조사 자료를 선정한다.
    [2] 데이터 정제 및 분석 자료 구축
    응답자가 무응답을 하거나 조사되지 않은 응답에 대해서는 결측치로 처리한 다음 정제된 DB를 구축한다.
    [3] 연관성 규칙 모형화 및 분석
    [4] 군집분석 모형화 및 분석
    [5] 의사결정나무 모형화 및 분석
    [6] 하이브리드 데이터마이닝 모형화 및 분석
    [7] 종합 분석
    위에서 분석한 연관성 규칙 모형화, 군집분석 모형화, 의사결정나무 모형화, 하이브리드 데이터마이닝 모형화에 대한 분석 결과를 종합한다.




  • 한글키워드
  • 사회지료조사, 데이터 마이닝, 연관성 규칙, 의사결정나무, 군집분석
  • 영문키워드
  • society indicator survey, data mining, association rule, clustering, dicision tree
결과보고시 연구요약문
  • 국문
  • 현재 경상남도는 도민들을 대상으로 3년 주기로 매년 설문 문항을 다르게 하여 사회지표조사를 실시하고 있다. 사회지표조사는 주민들이 생각하는 사회 상태를 전반적으로 파악할 수 있다. 또한 사회지표조사는 사회 변화의 중요한 척도라고 할 수 있으며, 여러 지자체(서울, 부산, 울산, 경상남도 등)에서 많은 시간과 비용을 들여 사회지표조사를 실시하고 있다. 그러나 대부분의 사회지표조사 분석 결과를 살펴보면 결과가 단순 기초통계분석 위주로 되어 있다. 이는 각 지자체에서 많은 시간과 비용을 들여 조사한 자료를 제대로 활용하고 있지 못하고 있는 실정이라고 할 수 있으며, 사회지표조사에 대하여 기초통계분석 외의 다양한 분석 방법의 적용이 필요하다. 이에 본 논문에서는 2010년 경상남도에서 조사한 사회지표 조사 자료에 대하여 데이터 마이닝 기법(연관성 규칙, 군집분석, 의사결정나무)을 이용하여 분석을 실시하고자 한다. 사회지표조사에 대한 데이터 마이닝 기법의 적용은 주민들의 사회 상태를 더욱더 총체적이고 효율적으로 분석 할 수 있을 것이다.
  • 영문
  • Currently, Gyeongnam province is executing the social index survey every year(per 3 year cycles) to the provincials. Social indicator survey can check the status of the whole society. Also, social indicator survey is an important measure of social change, and has been conducted in many municipalities(Seoul, Pusan, Ulsan, Gyeongnam etc). Social indicator survey is conducted a lot of time and expense. But, the results of social indicator survey analysis showed mainly the basic statistical analysis. This mean is the low utilization of survey data. We are necessary to apply a variety of ways in analysis of the social indicator survey. In this study, we analyze the 2010 Gyeongnam's social indicator survey data using data mining(association rule, clustering, decision tree). The results of this study can be analyzed much more efficiently social status.
연구결과보고서
  • 초록
  • 현재 경상남도는 매년 소득∙소비, 고용∙노사, 교육, 보건∙체육, 주택, 환경∙교통, 사회, 정보화, 문화․여가, 그리고 안전부문 등 9개 분야에 대하여 조사대상 모집단을 경남 18개 시․군에 거주하는 17세 이상의 모든 도민과 가구로 하여 사회지표조사(society indicator survey)를 실시하고 있다. 사회지표조사는 주민들이 생각하는 사회 상태를 총체적이고도 집약적으로 나타내는 것으로 사회의 전반적 생활수준 및 의식을 파악할 수 있고 지역 여론을 반영할 수 있는 이점이 있다.
    사회지표조사는 주민들이 생각하는 사회 상태를 총체적이고도 집약적으로 나타내는 것으로, 변화하는 역사적 흐름 속에서 우리가 처해 있는 사회적 상태를 종합적으로 나타냄으로써 사회구성원들의 삶의 질을 전반적으로 파악하고 사회변화를 포착할 수 있는 척도라고 할 수 있다. 또한 사회지표조사는 주민들의 생활수준, 사회의 종합적 상태, 사회변화의 예측, 사회개발정책의 성과 등을 측정하는 데 이용되고 있는 중요한 조사라고 할 수 있다.
    이에 서울특별시 도봉구(2011), 부산광역시(2012), 울산광역시(2011), 경상남도(2011) 등의 각 지차체에서는 많은 예산과 시간을 들여 사회지표조사를 실시하고 있다. 그러나 지자체의 사회지표조사 결과 보고서를 살펴보면 대부분의 분석 결과가 기술통계분석 또는 빈도분석의 기초통계분석 위주로 되어 있다. 이는 많은 시간과 비용을 들여 조사한 자료에 대하여 실태 파악 수준의 통계 분석만을 적용하므로 실제 사회지표 조사 자료를 제대로 활용하고 있지 못하고 있는 실정이다. 실제로 대부분의 사회지표조사 보고서의 통계 분석을 살펴보면 비율에 대한 응답 문항에는 평균 분석, 범주에 대한 응답 문항에는 범주의 빈도 분석으로 이루어져 있어, 사회지표조사의 원래 목적인 주민들의 전반적 생활수준 및 의식, 사회의 종합적 상태, 정책 결정 등의 자료로 활용하기에는 자료의 분석 수준이 너무 낮은 실정이다.
    이에 본 연구에서는 주민들의 사회의식을 더욱더 총체적이고 효율적으로 분석하기 위하여 데이터 마이닝(data mining) 기법을 이용하여 사회지표조사를 분석하고자 한다. 데이터마이닝이란 대용량의 관측 가능한 데이터를 기반으로 숨겨진 지식, 기대하지 못했던 패턴, 새로운 법칙과 관계를 발견하고 이를 바탕으로 의사결정 등을 위한 정보로 활용하고자 하는 것으로서, 데이터마이닝 기법으로는 연관성규칙(association rule), 군집분석(cluster analysis), 의사결정나무기법(decision tree) 등의 다양한 분석 기법이 있으며, 본 연구에서는 사회지표조사 자료에 대하여 데이터마이닝의 대표적인 기법인 연관성 규칙, 군집분석, 의사결정나무 분석을 적용하고자 한다. 사회지표조사에 대한 데이터마이닝 기법의 적용으로 주민들의 전반적인 생활수준 파악 및 총체적인 주민 의식에 대한 다양한 분석 자료들을 도출할 수 있으므로 지역 여론을 반영한 시책 개발에 대에 기여할 수 있을 것이다.
  • 연구결과 및 활용방안
  • 1) 의사 결정의 기초 자료 활용
    본 연구는 여러 지방자치단체에서 매년 조사되고 있는 사회지표 조사 자료에 대하여 데이터 마이닝 기법을 적용하여 숨겨져 있는 의미 있는 정보를 도출하는데 그 목적이 있다. 본 연구의 결과를 토대로 주민들의 생활 의식 간의 연관성 유무, 주민 속성에 따른 생활 의식의 관련성 및 차이 유무, 주민 의식 세분화 및 분류 등의 이전에 발견되지 않았던 사회지표조사 자료의 의미 있는 내재된 정보를 탐색하고 도출할 수 있다. 이 결과를 바탕으로 주민들의 사회 전반적 생활수준 및 의식을 파악할 수 있고 지역 여론을 반영할 수 있는 자료를 도출할 수 있으므로 지역 개발 및 사회 개발에 따른 각종 정책 결정 시, 의사결정에 필요한 기본 자료로 활용할 수 있다.

    2) 데이터 마이닝 모형화의 범용화
    현재 각 지방자치단체에서 실시하고 있는 사회지표조사는 해당 지자체에 따라 설문조사 문항이 다르다. 그러나 면밀히 살펴보면 거의 대부분의 지자체에서 조사하는 사회지표조사의 조사 분야 및 항목이 유사한 것을 알 수 있다. 이에 본 연구에서 적용한 경상남도 사회지표조사 자료에 대한 연관성 규칙 모형화, 군집분석 모형화, 의사결정나무 모형화, 하이브리드 데이터마이닝 모형화에 대한 분석 기법을 다른 지방자치단체의 사회지표조사에서도 그대로 적용할 수 있어 범용화된 분석 방법이라고 할 수 있다.

    3) 각종 여론조사 등의 각종 사회 조사에 적용
    현재 데이터 마이닝은 기업의 마케팅, 금융업, 의학, 도·소매업 등에 다양하게 사용되고 있으나, 각종 만족도 조사, 수요 조사, 여론 조사 등의 다양한 사회 조사에서는 적용이 미비하다. 본 연구는 사회지표조사에 대한 데이터 마이닝 적용에 대한 연구라고 할 수 있지만 사회지표조사 또한 사회 조사의 한 분야라고 할 수 있다. 이에 본 연구의 데이터 마이닝 분석 모형을 바탕으로 다른 각종 사회 조사에 적용할 수 있으며, 각종 사회 조사 자료에 대한 데이터 마이닝의 적용으로 보다 효율적인 정보 추출 및 내재되어 있는 의미 있는 정보를 추출할 수 있어 그 활용 영역이 넓다고 할 수 있다.

    4) 통계 조사 필요한 대학원 논문 통계에 적용
    일반적으로 인문대학, 사회과학대학 등의 대학원생의 경우 학위 논문(석사, 박사) 시, 통계 조사가 필요한 논문이 다수 있다. 이에 학위 논문들을 살펴보면 대부분이 어렵게 통계 조사를 실시 한 후 수집된 자료에 대한 통계 분석으로 평균, 분산 또는 빈도 분석 등의 기초 통계를 실시하거나 집단간 평균 차이 분석, 상관분석 등의 기본적인 분석들로만 논문 통계를 작성하고 있다. 이에 본 연구에서 제시하는 데이터 마이닝 기법을 논문 통계 과목에 접목하여 더욱더 다양하고 고급화된 정보를 추출할 수 있으며, 논문의 질을 더욱더 향상시킬 수 있으므로, 대학원 학위 취득 시 학생들에게 도움을 줄 수 있다.
  • 색인어
  • 데이터마이닝, 연관성 규칙, 군집분석, 의사결정나무, 사회지표조사
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력