Search
Search

연구성과물 검색 타이틀 이미지

HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007129&local_id=10013064
시간경로 유전자발현 자료의 전처리와 판별분석
Reports NRF is supported by Research Projects( 시간경로 유전자발현 자료의 전처리와 판별분석 | 2004 Year 신청요강 다운로드 PDF다운로드 | 김경숙(전남대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
사업별 신청요강보기
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number C00004
Year(selected) 2004 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2007년 08월 08일
Year type 결과보고
Year(final report) 2007년
Research Summary
  • Korean
  • 시간경로 마이크로어레이 유전자 발현 자료는 마이크로어레이 칩(chip)을 이용하여 시간의 흐름에 따라 관측된다. 복잡하고 까다로운 실험 과정을 거쳐 동시에 수천 개의 유전자에 대한 발현 수준들이 측정되므로, 관측되는 자료의 크기는 매우 크며 결측치가 많이 발생된다. 시간에 따른 발현 수준의 변화가 매우 작거나 결측률이 높은 유전자들은 불필요한 계산 양을 증가 시키며 잘못된 결론을 이끌 수도 있다. 한편 대부분의 통계 분석 방법들은 하나 이상의 결측치를 포함하는 자료들을 분석에서 모두 제외시키므로, 자료의 효율적인 이용을 위해서는 결측률이 비교적 작은 유전자들에 대해 정확한 추정치로 결측치를 대체 시키는 것이 바람직할 것이다.
    따라서 관심 있는 유전 정보(heredity information)를 관측 자료로부터 효율적이고 정확하게 도출하기 위해서는 핵심적인 본(main) 분석 이전에 전처리(preprocessing) 단계가 필요하다. 본 논문에서는 시간경로 유전자 발현 자료에 대해 먼저 두 가지의 전처리 방법을 제안한다. 하나는 무 변화 발현 패턴을 갖는 유전자를 걸러내기 위한 붓스트랩 표본을 이용한 필터링 방법이고, 또 하나는 유전자 내의 결측치 추정을 위한 순차적 부분최소제곱(sequential partial least squares) 회귀적합 방법이다. 다음으로, 유전자 발현 자료 분석에서 주요 이슈 중 하나인 유전자에 대한 판별분석 방법으로서 함수적(functional) 정준상관분석에 의해 추출된 특징변수를 판별분석에 이용하는 방법을 제안한다. 제안된 각 방법은 모의실험 되고 여러 가지의 이스트(yeast) 자료에 적용되며, 또한 기존의 여러 방법들과 비교 평가된다.
  • English
  • Time course microarray gene expression data is observed over time using the microarray chip. Since the expression levels of the thousands of genes are simultaneously measured through complicated experiment process, the size of the observed data is very big and many missing values are also occurred. If there are the genes with very little variation or many missing values in the observed expression profiles, those may increase the amount of needless calculation as well as the possibility to induce a wrong conclusion. However, most statistical analysis methods don't include data with missing values in analysis. If there are the genes having a few missing values, for the efficient use of data, it will be desirable that those missing values are replaced with the accurate estimates.
    Therefore, before the main analyses the preprocessing stage is needed to derive efficiently and accurately interesting heredity information from the observed data. In this paper, first are proposed two preprocess methods for time course gene expression data. One is the method to filter out the genes with flat pattern using the bootstrap samples. The other is sequential partial least squares(SPLS) regression fitting method to estimate missing values in the gene expression profile. Next, for the discriminant analysis of genes which is one of the essential main issues in gene expression data analysis, the method using the features selected by the functional canonical correlation analysis(FCCA) is proposed. Each suggested method is simulated and applied to some yeast data, also is assessed and compared with the former several methods.
Research result report
  • Abstract
  • 시간경로 마이크로어레이 유전자 발현 자료는 마이크로어레이 칩(chip)을 이용하여 시간의 흐름에 따라 관측된다. 복잡하고 까다로운 실험 과정을 거쳐 동시에 수천 개의 유전자에 대한 발현 수준들이 측정되므로, 관측되는 자료의 크기는 매우 크며 결측치가 많이 발생된다. 시간에 따른 발현 수준의 변화가 매우 작거나 결측률이 높은 유전자들은 불필요한 계산 양을 증가 시키며 잘못된 결론을 이끌 수도 있다. 한편 대부분의 통계 분석 방법들은 하나 이상의 결측치를 포함하는 자료들을 분석에서 모두 제외시키므로, 자료의 효율적인 이용을 위해서는 결측률이 비교적 작은 유전자들에 대해 정확한 추정치로 결측치를 대체 시키는 것이 바람직할 것이다.
    따라서 관심 있는 유전 정보(heredity information)를 관측 자료로부터 효율적이고 정확하게 도출하기 위해서는 핵심적인 본(main) 분석 이전에 전처리(preprocessing) 단계가 필요하다. 본 논문에서는 시간경로 유전자 발현 자료에 대해 먼저 두 가지의 전처리 방법을 제안한다. 하나는 무 변화 발현 패턴을 갖는 유전자를 걸러내기 위한 붓스트랩 표본을 이용한 필터링 방법이고, 또 하나는 유전자 내의 결측치 추정을 위한 순차적 부분최소제곱(sequential partial least squares) 회귀적합 방법이다. 다음으로, 유전자 발현 자료 분석에서 주요 이슈 중 하나인 유전자에 대한 판별분석 방법으로서 함수적(functional) 정준상관분석에 의해 추출된 특징변수를 판별분석에 이용하는 방법을 제안한다. 제안된 각 방법은 모의실험 되고 여러 가지의 이스트(yeast) 자료에 적용되며, 또한 기존의 여러 방법들과 비교 평가된다.
  • Research result and Utilization method
  • 본 연구는 시간경로 마이크로어레이 유전자 발현 자료에 대해 핵심적인 본(main) 분석 이전에 필요한 두 가지의 전처리 방법과 유전자 발현 자료에 대한 분석에 있어서 주요 이슈 중의 하나인 유전자에 대한 판별분석에 주된 관심을 두었다.
    첫 번째 전처리 방법은 무 변화 패턴을 갖는 유전자를 필터링 하는 방법이었다. 여러 가지 필터링 함수 중에서 직관적으로 쉽게 사용 가능한 몇 가지 함수를 중심으로 하여 본 논문에서 제안된 붓스트랩 표본에 대한 백분위수 기준 방법과 기존에 흔히 사용되어 오던 관측 표본에 대한 백분위수 기준 방법을 비교 검토하였다. 전처리 단계에서 제거된 유전자는 핵심적인 본 연구에 참여될 기회를 잃게 되므로, 어느 한 유전자가 무 변화 패턴을 가지는 것으로 결정하는 일은 신중하게 처리되어야 한다. 이러한 측면에서 보자면 보수적이고 보다 안정적인 경향을 보여준 붓스트랩 표본에 기초한 백분위수 방법을 적용하고 이때 필터링 함수로는 분산 함수를 사용할 것을 권한다.
    두 번째 전처리 방법은 관측된 자료의 유용성을 높이기 위해 소수의 결측치가 있는 유전자들에 대해 결측치를 적절한 추정치로 대체하여 완전한 자료로 만들어 주는 것이다. 본 논문에서 제안된 방법은 부분최소제곱(PLS) 회귀적합 방법에 순차적 방법을 결합시킨 순차적 부분최소제곱(SPLS) 회귀적합 방법이다. SPLS 방법과 기존의 여러 방법들을 비교 실험한 결과 SPLS 방법이 전반적으로 가장 좋은 적합수준을 보였다. 또한 SPLS를 수행하는데 있어서 gene-wise 방법과 array-wise 방법 간에는 자료의 국부적 유사성 구조에 따라 우수한 방법이 다르게 나타났다. 즉, 관측 시점 간 국부적 유사성이 클수록 SPLSarray 방법이, 유전자 간 국부적 유사성이 클수록 SPLSgene 방법이, 두 측면 모두에서 어느 정도의 상관성이 내재하면 두 방법을 결합시키는 SPLScombined 방법이 결측치 추정에 좋은 결과를 줄 것으로 판단된다. 한편, 기존 방법과의 비교 결과에서 살펴보았듯이 array 간 상관성이 높지 않은 시간경로 자료, 또는 시간경로 자료가 아닌 경우에 대해서도 SPLS 방법은 기존 방법보다 더 개선된 결과를 줄 것으로 판단된다. 결측치 추정시 한 가지 주목할 사항은 결측치를 추정하는 단계에서 발생한 오차는 뒤따르는 다음 단계의 분석 결과에 영향을 미치게 된다는 것이다. 따라서 결측치 추정에 있어서 정확성 정도는 매우 중요한 문제이다. 주어진 자료에 대한 최적의 결측 추정치는 궁극적으로 볼 때 핵심적인 본 분석에 가장 적절한 결과를 주는 값으로 결정하는 것이 합당할 것으로 본다. 예를 들면 판별분석을 목적으로 하는 경우는 판별력을 가장 높게 해주는 방향으로 결측치 추정하는 방법을 고려해야 할 것이다. 또한 추정된 결측치를 이용함에 있어서 중요한 생물학적 결론을 이끌 때에는 주의를 요할 필요가 있다.
    마지막으로, 마이크로어레이 유전자 발현 자료에 대한 주된 이슈 중의 하나인 유전자의 판별 및 분류에 관한 문제를 살펴보았다. 시간경로 자료는 각 시점에서 관측된 자료들 간에 상관성을 내포하므로 잠재적인 함수 관계 또는 곡선(curve) 형태의 자료 구조를 가정할 수 있다. 본 연구에서는 시간의 흐름에 따라 관측된 자료를 독립된 다변량이 아니라 하나의 함수나 곡선 형태의 개체로서 간주하여 자료의 함수적 관계성을 바탕으로 하는 함수적 자료분석(FDA) 방법을 적용하였다. 이는 이산적 관측자료를 평활된(smoothed) 함수적 자료로 변환하여 분석에 이용하므로 오차 문제를 어느 정도 해결할 수 있는 장점이 있다. 본 논문에서는 함수적 정준상관분석(FCCA)을 통해 정준변량을 추출하고 이를 이용한 판별분석 방법을 제안하였다. 제안된 방법과 다변량 CCA를 통해 정준변량을 추출하고 이를 이용한 판별분석 방법의 성능을 비교 평가한 결과, 함수적 관계가 크게 흐트러지지 않는 정도의 오차 수준을 갖는 자료의 경우에는 FCCA에 의한 판별분석 방법이 다변량 CCA에 의한 판별분석 방법보다 더 좋은 결과를 보였다. 한편, 오차 수준이 매우 작아 잠재적 함수의 특성이 뚜렷이 드러나는 자료라든지, 오차 수준이 너무 커서 잠재적 함수의 특성이 거의 드러나지 못하는 자료의 경우에는 FDA 방법의 장점이 드러나지 못하므로 FCCA에 의한 판별분석 방법과 다변량 CCA에 의한 판별분석 방법은 거의 비슷한 수준의 결과를 보였다.
  • Index terms
  • 마이크로어레이, 시간경로 자료, 유전자 발현 자료, 전처리 방법, preprocessing, 무 변화 패턴, 붓스트랩 표본, 필터링 방법, 결측치 추정, 결측치 대체, 순차적 부분최소제곱 회귀적합 방법, sequential partial least squares, SPLS, PLS, 함수적 정준상관분석, functional canonical correlation analysis, 함수적 자료분석, functional data analysis, 판별분석, 이스트 자료, yeast 자료.
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력
트위터 페이스북
NRF Daejeon
(34113) 201, Gajeong-ro, Yuseong-gu, Daejeon, Korea
Tel: 82-42-869-6114 / Fax: 82-42-869-6777
NRF Seoul
(06792) 25, Heonreung-ro, Seocho-gu, Seoul, Korea
Tel: 82-2-3460-5500 / Fax: 82-2-3460-5759
KRM Help Center
Tel : 042-710-4360
E-mail : krmcenter@nrf.re.kr / Fax : 042-861-4380