Search
Search

연구성과물 검색 타이틀 이미지

HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10071892&local_id=10086813
다양한 경영활동에서 발생하는 대용량 데이터의 군집분석을 위한 방법론 개발
Reports NRF is supported by Research Projects( 다양한 경영활동에서 발생하는 대용량 데이터의 군집분석을 위한 방법론 개발 | 2016 Year 신청요강 다운로드 PDF다운로드 | 정영선(전남대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
사업별 신청요강보기
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number 2016S1A5A8017169
Year(selected) 2016 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2017년 09월 28일
Year type 결과보고
Year(final report) 2017년
Research Summary
  • Korean
  • 본 연구에서는 연구목표를 달성하기 위하여, 다음 다섯 단계의 연구들을 순차적으로 진행한다.
    (1) 기존 연구들에서 제안된 비계층적 알고리즘들을 엄밀하게 분석한다. 지금까지 개발된 CVI는 특정 알고리즘의 성능 평가를 위한 도구로 제안된 경우가 많았기 때문에, 특정 알고리즘의 특성을 반영할 수 있도록 설계된 CVI가 많이 존재한다. 따라서 비계층적 군집분석 알고리즘을 분석하면, 지금까지 제안된 CVI의 기본 원리를 이해할 수 있을 것이다. 연구계획서 작성 단계에서 조사된 비계층적 알고리즘의 특성은 보다 구체적으로 살펴보고, 또 다른 비계층적 알고리즘이 있는지 조사하여 분석한다.
    (2) 수치형 데이터의 비계층적 군집분석 알고리즘에 적용 가능한 CVI들을 구체적으로 조사하여 분석한다. 이 과정에서 기존 CVI들을 응집도와 분리도 측면에서 분해하고, 이들이 사용한 방법의 장단점을 분석함과 동시에 또 다른 대안은 없는지 브레인스토밍(Brain Storming) 기법을 통해 확인하며, CVI의 계산시간을 고려한 연구가 있는지도 확인한다.
    (3) 본 연구에서는 베이지안 통계 기반의 기계학습 방법론 (Bayesian Model based Data Description: BMDD)을 기반으로 하는 CVI를 개발하고자 하며, 군집분석에서 각 군집마다 개발된 CVI를 적용하고자 한다. 따라서 BMDD 기반의 CVI (BMDD-CVI)를 군집분석 문제에 이용하는 것에 문제가 없는지 살펴보고, 제안하는 CVI의 응집도 및 분리도가 갖는 특성을 반영해 줄 수 있는지 확인한다. 또한 BMDD-CVI에 대한 이론적 검토가 충분히 이루어져야 하므로 중요한 연구내용이 된다.
    (4) 기존 CVI에서 사용하였거나 두 번째 단계의 브레인스토밍 과정에서 도출된 응집도와 분리도 계산 방법만으로 새로운 CVI의 프로토타입(Prototype)을 생성하고, 이것이 갖는 장단점을 우선적으로 파악한다. 단점을 극복하여 하나의 새로운 CVI를 완성한 후, 여기에 제안한 CVI 개념이 포함될 수 있도록 CVI의 수리모형을 변형한다. 수리모형이 이론적으로 완전한 형태를 갖는지에 대한 검증도 이루어진다.
    (5) 마지막 단계에서는 테스트 문제 및 실제 데이터를 이용하여 개발한 CVI의 성능을 검증하고 분석하고자 한다. CVI의 성능 분석에서 중요하게 다루어져야 할 것은 어떤 특성을 갖는 데이터를 사용할 것인지와 CVI의 성능을 어떻게 보일 것인지에 관한 문제이다.
  • English
  • The proposed research plan includes two coherent tasks, including (1) modeling a novel clustering validity index (CVI) based on support vector data descriptions methods, (2) applying the proposed CVI for diverse applications. The specific tasks are described below.

    Task 1: Model a novel clustering validity index (CVI) based on support vector data descriptions methods
    This research suggests a new CVI based on the concept of support vector data description (SVDD) and Bayesian SVDD, which are popular methods in machine learning applications. By using kernel function, the proposed CVIs can overcome the sensitivity of arbitrary shape, which have caused in most of existing indices.

    Task 2: Apply the proposed CVI for diverse applications
    By using the diverse benchmarking data sets including high dimension, sub-cluster, and arbitrary shape, the proposed CVIs show the excellence by comparing the performances of several existing clustering validity indices using K-means algorithm. For example, in semiconductor manufacturing, the identification of defect clusters on wafers is critical because spatial patterns of defective chips provide important information to process engineers to understand the ongoing manufacturing processes. It is important not only to identify defect patterns, but also to correctly evaluate the number of defect clusters on wafers. In this research, we apply the proposed CVI for wafer data to identify the accurate number of defect clusters.
Research result report
  • Abstract
  • 군집분석의 연구 분야는 1) 대용량 데이터를 특성(예: 수치형, 범주형, 순위형 등)에 맞도록 분류하는 알고리즘 개발, 2) 군집분석 결과에 대한 유효성(validity)을 판단할 수 있는 지수 개발, 3) 주어진 목적함수에 대한 최적 군집 상태(군집의 수와 각 군집 데이터 집합)를 구하기 위한 최적화, 4) 다양한 응용분야의 실제 문제를 군집화하고 현실적인 시사점을 제시해 주는 연구 등, 크게 4가지 분야로 구분할 수 있다. 본 연구에서는 군집분석 유효성 지수 개발과 다양한 경영활동 중에 발생하는 대용량 데이터의 군집분석 문제에 관하여 다루었다.
    군집화 유효성 지수(CVI: Clustering Validity Index)는 주어진 데이터에 대하여 다양한 군집 수 및 형태를 구하고, 그 결과로부터 계산된 지수 값에 근거하여 가장 선호되는 군집의 수 및 형태를 선택하는데 사용되는 평가기준이다. 현재까지 통계적 기법 또는 직관적·경험적 사실에 기반을 두어 다양한 CVI들이 제시되어 있으나, 모든 데이터 구조와 알고리즘에 대해 절대적으로 통용되는 지수는 존재하기 어렵다. 본 연구에서는 수치형(Numerical) 데이터를 비계층적(Non-hierarchical) 군집분석 알고리즘으로 군집화 할 때 적용 가능한 CVI를 제안하고자 한다. 비계층적 군집분석 알고리즘은 전체 데이터를 사전에 주어진 군집의 수로 직접 분할하는 방법이다. 이 방법은 모든 데이터를 서로 다른 군집에 할당하여 구한 초기 해를 이용하여 유사한 군집들을 합병해 가거나, 전체 데이터를 하나의 군집으로 구성한 후 점차적으로 분할해 가는 계층적(Hierarchical) 군집분석 알고리즘에 비해 계산 소요시간 측면에서 유리하여 다양한 분야에 적용되고 있다.
    연구 목표를 달성하기 위해서 본 연구에서는 베이지안 기반 데이터 표현(Bayesian Model Based Data Description: BMDD) 개념을 기반으로 하는 새로운 CVI를 제안한다. BMDD는 베이지안 통계 기반의 기계학습 알고리즘 중에 최근에 등장하여 여러 가지 문제에 대하여 우수한 해결능력을 보여주는 비선형 SVM(Support Vector Machine)의 응용 형태로 단일 클래스 분류(One-class Classification)를 위한 대표적인 방법이다. BMDD는 정해진 조건을 기준으로 정상 데이터와 비정상 데이터를 분류하여 이상치(Outlier)를 찾아내기 위한 기법으로 빈번하게 사용된다. 본 연구에서 다루는 CVI는 다양한 경영활동에 발생하는 대용량의 데이터를 군집분석 알고리즘을 활용하여 정확하게 분석하기 위해서 반드시 필요한 요소이다. 특히, 대용량의 다차원 속성 데이터에 존재하는 군집 수를 사전에 인지하는 것은 사실상 불가능하기 때문에 CVI는 반드시 사용되어야 한다. 그럼에도 불구하고, CVI와 관련한 선행 연구들을 조사한 바에 의하면 군집분석의 여러 연구들에 비하여 상대적으로 연구 비중이 낮은 것으로 확인되었다.
  • Research result and Utilization method
  • 본 연구결과는 데이터 분석가들의 결과에 대한 신뢰도를 향상시키는데 좋은 도구로 활용될 수 있으리라 확신한다. 또한, 다양한 경영활동에서 발생하는 데이터를 정확하게 분석하는데 크게 활용될 수 있을 것으로 기대된다. 경영활동의 각 분야별 사례 연구를 살펴보면 다음과 같다.

    - 재무 분야 사례문제
    재무 분야에서는 주식과 같은 투자기회에 대한 데이터를 이용하여 균형 있는 투자항목을 선택하는 균형 포트폴리오(balanced portfolio)와 기업의 성장률, 수익성, 시장크기, 생산규모 등과 같은 기업의 특징을 나타내는 데이터에 근거하여 같은 군집에 속한 기업들의 산업구조를 이해하는 산업분석(industry analysis)에 활용될 수 있을 것으로 기대된다.

    - 마케팅 분야 사례문제
    마케팅 분야에서는 경쟁 유사도와 관련한 데이터를 이용하여 유사한 제품을 식별하는 시장구조분석(market structure analysis)과 고객 정보에 기초하여 고객 집단을 세분화하는 고객세분화(segmentation) 등에 군집분석을 활용하고 있다. 시장구조분석에 의해 도출된 결과는 제품이나 서비스의 잠재적인 요구를 추정하는 데 사용될 수 있고, 고객 세분화에 의한 결과는 성향이 유사한 고객 군을 도출하여 고객 집단별로 특화된 마케팅 전략을 수립하는데 이용될 수 있다.

    - 생산관리 분야 사례문제
    생산관리 분야에서는 불량품을 유발하는 조업패턴 및 공정변수에 대한 데이터를 바탕으로 결함의 종류를 결정하여 공정시스템에 반영하는 품질개선(quality improvement)에 군집분석을 활용하고 있다. 품질개선에 활용되는 사례로 반도체 제조공정에서 생산하는 웨이퍼 표면에 나타나는 결함의 위치 및 형태에 관한 데이터를 군집분석 알고리즘을 통해 분석할 수 있다. 결함의 형태를 추출하고 결함들이 군집을 형성하는지를 판단하여, 불량의 원인이 유사한 결함을 식별하고 결함과 관련된 공정 및 시스템을 인식함으로써 불량품을 유발하는 조업개선 및 수율증대를 위한 공정변수 발견 연구에 활용될 수 있다.
  • Index terms
  • 빅 데이터; 데이터 마이닝; 경영활동; 군집분석; 군집화 유효성 지수; 베이지안 모형
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력
트위터 페이스북
NRF Daejeon
(34113) 201, Gajeong-ro, Yuseong-gu, Daejeon, Korea
Tel: 82-42-869-6114 / Fax: 82-42-869-6777
NRF Seoul
(06792) 25, Heonreung-ro, Seocho-gu, Seoul, Korea
Tel: 82-2-3460-5500 / Fax: 82-2-3460-5759
KRM Help Center
Tel : 042-710-4360
E-mail : krmcenter@nrf.re.kr / Fax : 042-861-4380