보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007013&local_id=10010716

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007013&local_id=10010716

대용량 스트림 데이터와 데이터마이닝을 위한 최적화 데이터 축소기법

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 대용량 스트림 데이터와 데이터마이닝을 위한 최적화 데이터 축소기법 | 2004 년 신청요강 다운로드

| 서성보(충북대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	D00050
선정년도	2004 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2006년 03월 30일
연차구분	결과보고
결과보고년도	2006년

결과보고시 연구요약문

국문
최근 센서와 무선 네트워크 기술의 발달로 인해 시간과 공간의 제약성 없이 데이터를 실시간 수집하고 분석하여 의사결정에 반영할 수 있게 되었다. 센서 네트워크의 노드는 제한된 메모리, 소형 프로세서, 배터리 기반 전력 특성, 제한된 통신 범위와 대역폭의 제약성을 ...

최근 센서와 무선 네트워크 기술의 발달로 인해 시간과 공간의 제약성 없이 데이터를 실시간 수집하고 분석하여 의사결정에 반영할 수 있게 되었다. 센서 네트워크의 노드는 제한된 메모리, 소형 프로세서, 배터리 기반 전력 특성, 제한된 통신 범위와 대역폭의 제약성을 가지기 때문에 센서 노드가 완전한 데이터를 수집하거나 수집된 데이터를 다른 노드에 모두 전송하는 것은 쉽지 않다. 게다가 데이터를 전송하는 비용이 데이터를 처리하는 비용보다 전력 소모가 매우 크다. 따라서 제한된 전력과 무선 통신 환경에 적합하게 대용량의 스트림 데이터를 처리하는 연구는 매우 중요하다.
이 논문에서는 데이터 중심의 센서 애플리케이션에서 수집되는 대용량 다변량 스트림 데이터를 처리하기 위한 기법을 제안한다. 제안하는 다변량 스트림 데이터 처리 기법은 다변량 데이터 축소 기법, 윈도우 기반 데이터 분류와 상태 기반 시간 분류 기법으로 크게 구분된다. 다변량 데이터 축소 기법 연구에서는 기존의 다변량 축소 기법을 다양한 실험 데이터를 적용하여 비교 평가하였다. 윈도우 기반 데이터 분류 기법은 다차원 스트림 데이터를 문자열로 변환하는 전처리 과정을 통해 문서 분류 알고리즘을 사용한다. 마지막으로 상태 기반 시간 분류 기법은 스트림 데이터를 고정된 윈도우 크기만큼 분할하고, 각 윈도우마다 분류된 윈도우 클래스 리스트를 생성한다. 모델 생성 단계에서, 최대 순차 패턴을 발견하는 AprioriAll 알고리즘을 사용하여 트레이닝 스트림 데이터 집합으로부터 순차 클래스 패턴을 발견한다. 순차 클래스 패턴과 클래스 사이에 시간 제약성을 이용하여 시간 분류 모델과 관련되어 각각의 TPN(Time Petri Net) 모델이 구성된다. 분류 단계에서, 입력 데이터는 윈도우 클래스 리스트로 변환되고, 리스트의 클래스는 시간 분류 모델로 구성된 TPN의 토큰으로서 입력되어 검증된다. 이 논문의 주요 연구 내용은 다음과 같다.
센서 네트워크 구조와 데이터 모델 분석: 일반적인 센서 네트워크는 분산 환경에서 계층적 구조를 가진다. 이 구조는 단말 노드인 센서에서 상위 노드인 내부 노드를 통해 서버 노드까지 지리적 또는 개념적으로 데이터의 전송 및 저장 구조가 상이하다. 이 논문에서는 WSN 응용 분야에 따라 데이터 특성, 저장 구조, 질의 유형과 응용 특성을 분석하여 일반적인 WSN 시스템 구조와 데이터 모델을 제시한다.
다변량 데이터 축소 기법 비교 평가: 무선 디바이스와 소형 센서로 구성된 센서 네트워크는 제한된 통신 대역폭, 마이크로 프로세서, 적은 전력과 실시간으로 데이터를 처리해야 하는 제약성이 있다. 이 문제를 해결하기 위한 기법으로 네트워크 내부 단계에서 정제, 필터링, 근사적 데이터, 축소 연구가 수행되었다. 이 논문에서는 윈도우 크기의 다변량 스트림 데이터를 데이터 특성에 따라 기존 표준 축소 기법들을 이용하여 성능을 평가하고 결과를 제시한다.
윈도우 기반 다변량 데이터 분류 기법: 센서 네트워크의 데이터는 윈도우 기반의 다변량이며 각 속성은 연속된 시그널 값을 가지므로 기존의 튜플 기반 분류 기법(예: 의사결정트리, 베이지안 모델 등)에 직접 적용하는 것은 불가능하다. 이 문제를 해결하기 위해 우리는 2단계 접근 기법을 제안한다. 1단계에서 윈도우 내부의 다변량 데이터를 시그널 데이터의 증감 변화에 따라 기호 시퀀스로 변환한 후 각 시퀀스에 대해 n-gram 기법으로 부분 시퀀스 문자열 집합을 생성하였다. 2단계에서 스트림 데이터가 부분 문자열의 집합으로 변환되면 표준 문서 분류 기법을 적용하여 윈도우 기반 데이터를 분류한다.
상태 기반 시간 분류 패턴 탐사: 연속된 스트림 데이터는 인접한 단위 윈도우 사이에 강한 시간적 의존도와 인과 관계를 가진다. 이전의 시계열 분석, 시퀀스 패턴 및 시간 분류 기법 연구는 개별 윈도우 단위로 분석되거나 단순히 시간적 순서와 반복 지식을 탐사하기 때문에 일정한 시간 동안 연속된 데이터의 상태 변화를 파악해야 하는 스트림 데이터 패턴 분석에 한계가 있다. 이 논문에서는 TPN 모델을 이용한 시간 분류 지식 모델과 이진 클래스 사이에 의존 강도 계수를 이용한 시간 분류 규칙 탐사 기법을 제안한다.
이 논문에서 제안된 WSN의 시스템 구조와 데이터 모델, 다변량 데이터 축소 기법 비교 평가, 윈도우 기반 데이터 분류 기법, 상태 기반 시간 데이터 분류 기법은 무선 센서 네트워크 환경에서 대용량의 다변량 스트림 데이터를 효과적으로 처리할 수 있다. 아울러 제안된 다변량 스트림 데이터 축소 및 분류 기법의 용용 분야는 동식물 생태 모니터링, 대기 및 해양 기후 모니터링, 이동객체 추적과 감시, 재난 및 응급 관리 분야 등에 적용될 수 있다.

영문
The recent advance in sensor and wireless network technologies enables us to overcome the limitation imposed by space and time in collecting and monitoring data in real time for decision making. Due to its resource constraints such as built-in memory, ...

The recent advance in sensor and wireless network technologies enables us to overcome the limitation imposed by space and time in collecting and monitoring data in real time for decision making. Due to its resource constraints such as built-in memory, microprocessor, battery based power, and limited network bandwidth in wireless sensor networks, it is not easy for a sensor node to send its entire data to other nodes and to collect large volume of data from other nodes. In addition, the communication cost is usually higher than the data processing cost in energy consumption aspect. Therefore, stream data processing research is very important under the limited power and wireless communication environment.
In this dissertation, we propose several data processing techniques for multivariate stream data collected from a data centric application area. The proposed multivariate stream data processing techniques contain multivariate stream data reduction, window-based data classification and state-based temporal classification methods. In the studies of multivariate stream data reduction, the existing data reduction techniques have been compared each other and evaluated using the various experimental data. The proposed window-based data classification method uses document classification algorithms for which multivariate stream data are preprocessed into strings. Finally, in the state-based temporal classification, stream data are segmented into fixed-size windows and then they are transformed into a window-class list. In classification model construction, sequence-class patterns are found from a set of training stream data with help of AprioriAll algorithm which finds maximum sequential patterns. From the sequence-class patterns and associated timing constraints on state classes, TPN (Time Petri Net) model is constructed each of which corresponds to a classification model. In the course of classification, sample data are translated into a window-class list each element of which is fed into the constructed TPN as a token. This dissertation addresses the following subjects in details.
Analysis of the sensor network architectures and data model: The hierarchical/distributed clustering is a general architecture in sensor networks. In a hierarchical sensor network, from leaf node to server node, data transmission strategy and data storage type are different in a viewpoint of spatial or conceptual aspect. In this dissertation, we present a general WSN architecture and a data model developed with the consideration of sensor data type, storage structure, query type, and application characteristics.
Evaluation of multivariate stream data reduction methods: A typical wireless sensor network composed of wireless devices and sensors has restrictions in handling stream data due to limited network bandwidth, microprocessor, battery power, and real-time reaction requirement. To solve these problems, many researchers have studied data cleaning, filtering, approximate data, and data reduction in sensor networks. In this dissertation, we evaluate the existing multivariate data reduction techniques according to the fixed window size-based data characteristics and then show the experimental results.
A window based multivariate stream data classification: Since the stream data in sensor network is window-based multivariate data and each attribute has continuous signal values, it is impossible to apply existing tuple based data classification methods to stream data directly (such as: Decision tree and Bayesian classifier) without data pre-processing. To handle these problems, we propose a two-step method. In the first step, a continuous sensor stream is transformed into a sequence of symbols based on the data changes, and then from the sequence subsequences are generated by the n-gram method. In the second step, in order to classify the stream data, text classification algorithms are applied to the collection of the generated subsequences.


연구결과보고서

초록
최근 센서와 무선 네트워크 기술의 발달로 인해 시간과 공간의 제약성 없이 데이터를 실시간 수집하고 분석하여 의사결정에 반영할 수 있게 되었다. 센서 네트워크의 노드는 제한된 메모리, 소형 프로세서, 배터리 기반 전력 특성, 제한된 통신 범위와 대역폭의 제약성을 ...

최근 센서와 무선 네트워크 기술의 발달로 인해 시간과 공간의 제약성 없이 데이터를 실시간 수집하고 분석하여 의사결정에 반영할 수 있게 되었다. 센서 네트워크의 노드는 제한된 메모리, 소형 프로세서, 배터리 기반 전력 특성, 제한된 통신 범위와 대역폭의 제약성을 가지기 때문에 센서 노드가 완전한 데이터를 수집하거나 수집된 데이터를 다른 노드에 모두 전송하는 것은 쉽지 않다. 게다가 데이터를 전송하는 비용이 데이터를 처리하는 비용보다 전력 소모가 매우 크다. 따라서 제한된 전력과 무선 통신 환경에 적합하게 대용량의 스트림 데이터를 처리하는 연구는 매우 중요하다.

이 논문에서는 데이터 중심의 센서 애플리케이션에서 수집되는 대용량 다변량 스트림 데이터를 처리하기 위한 기법을 제안한다. 제안하는 다변량 스트림 데이터 처리 기법은 다변량 데이터 축소 기법, 윈도우 기반 데이터 분류와 상태 기반 시간 분류 기법으로 크게 구분된다. 다변량 데이터 축소 기법 연구에서는 기존의 다변량 축소 기법을 다양한 실험 데이터를 적용하여 비교 평가하였다. 윈도우 기반 데이터 분류 기법은 다차원 스트림 데이터를 문자열로 변환하는 전처리 과정을 통해 문서 분류 알고리즘을 사용한다. 마지막으로 상태 기반 시간 분류 기법은 스트림 데이터를 고정된 윈도우 크기만큼 분할하고, 각 윈도우마다 분류된 윈도우 클래스 리스트를 생성한다. 모델 생성 단계에서, 최대 순차 패턴을 발견하는 AprioriAll 알고리즘을 사용하여 트레이닝 스트림 데이터 집합으로부터 순차 클래스 패턴을 발견한다. 순차 클래스 패턴과 클래스 사이에 시간 제약성을 이용하여 시간 분류 모델과 관련되어 각각의 TPN(Time Petri Net) 모델이 구성된다. 분류 단계에서, 입력 데이터는 윈도우 클래스 리스트로 변환되고, 리스트의 클래스는 시간 분류 모델로 구성된 TPN의 토큰으로서 입력되어 검증된다. 이 논문의 주요 연구 내용은 다음과 같다.

센서 네트워크 구조와 데이터 모델 분석: 일반적인 센서 네트워크는 분산 환경에서 계층적 구조를 가진다. 이 구조는 단말 노드인 센서에서 상위 노드인 내부 노드를 통해 서버 노드까지 지리적 또는 개념적으로 데이터의 전송 및 저장 구조가 상이하다. 이 논문에서는 WSN 응용 분야에 따라 데이터 특성, 저장 구조, 질의 유형과 응용 특성을 분석하여 일반적인 WSN 시스템 구조와 데이터 모델을 제시한다.

다변량 데이터 축소 기법 비교 평가: 무선 디바이스와 소형 센서로 구성된 센서 네트워크는 제한된 통신 대역폭, 마이크로 프로세서, 적은 전력과 실시간으로 데이터를 처리해야 하는 제약성이 있다. 이 문제를 해결하기 위한 기법으로 네트워크 내부 단계에서 정제, 필터링, 근사적 데이터, 축소 연구가 수행되었다. 이 논문에서는 윈도우 크기의 다변량 스트림 데이터를 데이터 특성에 따라 기존 표준 축소 기법들을 이용하여 성능을 평가하고 결과를 제시한다.

윈도우 기반 다변량 데이터 분류 기법: 센서 네트워크의 데이터는 윈도우 기반의 다변량이며 각 속성은 연속된 시그널 값을 가지므로 기존의 튜플 기반 분류 기법(예: 의사결정트리, 베이지안 모델 등)에 직접 적용하는 것은 불가능하다. 이 문제를 해결하기 위해 우리는 2단계 접근 기법을 제안한다. 1단계에서 윈도우 내부의 다변량 데이터를 시그널 데이터의 증감 변화에 따라 기호 시퀀스로 변환한 후 각 시퀀스에 대해 n-gram 기법으로 부분 시퀀스 문자열 집합을 생성하였다. 2단계에서 스트림 데이터가 부분 문자열의 집합으로 변환되면 표준 문서 분류 기법을 적용하여 윈도우 기반 데이터를 분류한다.

상태 기반 시간 분류 패턴 탐사: 연속된 스트림 데이터는 인접한 단위 윈도우 사이에 강한 시간적 의존도와 인과 관계를 가진다. 이전의 시계열 분석, 시퀀스 패턴 및 시간 분류 기법 연구는 개별 윈도우 단위로 분석되거나 단순히 시간적 순서와 반복 지식을 탐사하기 때문에 일정한 시간 동안 연속된 데이터의 상태 변화를 파악해야 하는 스트림 데이터 패턴 분석에 한계가 있다. 이 논문에서는 TPN 모델을 이용한 시간 분류 지식 모델과 이진 클래스 사이에 의존 강도 계수를 이용한 시간 분류 규칙 탐사 기법을 제안한다.

연구결과 및 활용방안
이 논문에서 제안된 WSN의 시스템 구조와 데이터 모델, 다변량 데이터 축소 기법 비교 평가, 윈도우 기반 데이터 분류 기법, 상태 기반 시간 데이터 분류 기법은 무선 센서 네트워크 환경에서 대용량의 다변량 스트림 데이터를 효과적으로 처리할 수 있다. 아울러 제안된 ...

이 논문에서 제안된 WSN의 시스템 구조와 데이터 모델, 다변량 데이터 축소 기법 비교 평가, 윈도우 기반 데이터 분류 기법, 상태 기반 시간 데이터 분류 기법은 무선 센서 네트워크 환경에서 대용량의 다변량 스트림 데이터를 효과적으로 처리할 수 있다. 아울러 제안된 다변량 스트림 데이터 축소 및 분류 기법의 용용 분야는 동식물 생태 모니터링, 대기 및 해양 기후 모니터링, 이동객체 추적과 감시, 재난 및 응급 관리 분야 등에 적용될 수 있다.

색인어
센서 네트워크, 스트림 데이터, 데이터 분류, 데이터 축소

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 공학 > 컴퓨터학 > 데이터베이스 > 데이터베이스이론
2순위 : 공학 > 컴퓨터학 > 데이터베이스 > 데이터베이스시스템
3순위 : 공학 > 컴퓨터학 > 데이터베이스 > 데이터베이스관리

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.