보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007129&local_id=10013064

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007129&local_id=10013064

시간경로 유전자발현 자료의 전처리와 판별분석

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 시간경로 유전자발현 자료의 전처리와 판별분석 | 2004 년 신청요강 다운로드

| 김경숙(전남대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	C00004
선정년도	2004 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2007년 08월 08일
연차구분	결과보고
결과보고년도	2007년

결과보고시 연구요약문

국문
시간경로 마이크로어레이 유전자 발현 자료는 마이크로어레이 칩(chip)을 이용하여 시간의 흐름에 따라 관측된다. 복잡하고 까다로운 실험 과정을 거쳐 동시에 수천 개의 유전자에 대한 발현 수준들이 측정되므로, 관측되는 자료의 크기는 매우 크며 결측치가 많이 발생된 ...

시간경로 마이크로어레이 유전자 발현 자료는 마이크로어레이 칩(chip)을 이용하여 시간의 흐름에 따라 관측된다. 복잡하고 까다로운 실험 과정을 거쳐 동시에 수천 개의 유전자에 대한 발현 수준들이 측정되므로, 관측되는 자료의 크기는 매우 크며 결측치가 많이 발생된다. 시간에 따른 발현 수준의 변화가 매우 작거나 결측률이 높은 유전자들은 불필요한 계산 양을 증가 시키며 잘못된 결론을 이끌 수도 있다. 한편 대부분의 통계 분석 방법들은 하나 이상의 결측치를 포함하는 자료들을 분석에서 모두 제외시키므로, 자료의 효율적인 이용을 위해서는 결측률이 비교적 작은 유전자들에 대해 정확한 추정치로 결측치를 대체 시키는 것이 바람직할 것이다.
따라서 관심 있는 유전 정보(heredity information)를 관측 자료로부터 효율적이고 정확하게 도출하기 위해서는 핵심적인 본(main) 분석 이전에 전처리(preprocessing) 단계가 필요하다. 본 논문에서는 시간경로 유전자 발현 자료에 대해 먼저 두 가지의 전처리 방법을 제안한다. 하나는 무 변화 발현 패턴을 갖는 유전자를 걸러내기 위한 붓스트랩 표본을 이용한 필터링 방법이고, 또 하나는 유전자 내의 결측치 추정을 위한 순차적 부분최소제곱(sequential partial least squares) 회귀적합 방법이다. 다음으로, 유전자 발현 자료 분석에서 주요 이슈 중 하나인 유전자에 대한 판별분석 방법으로서 함수적(functional) 정준상관분석에 의해 추출된 특징변수를 판별분석에 이용하는 방법을 제안한다. 제안된 각 방법은 모의실험 되고 여러 가지의 이스트(yeast) 자료에 적용되며, 또한 기존의 여러 방법들과 비교 평가된다.

영문
Time course microarray gene expression data is observed over time using the microarray chip. Since the expression levels of the thousands of genes are simultaneously measured through complicated experiment process, the size of the observed data is ver ...

Time course microarray gene expression data is observed over time using the microarray chip. Since the expression levels of the thousands of genes are simultaneously measured through complicated experiment process, the size of the observed data is very big and many missing values are also occurred. If there are the genes with very little variation or many missing values in the observed expression profiles, those may increase the amount of needless calculation as well as the possibility to induce a wrong conclusion. However, most statistical analysis methods don't include data with missing values in analysis. If there are the genes having a few missing values, for the efficient use of data, it will be desirable that those missing values are replaced with the accurate estimates.
Therefore, before the main analyses the preprocessing stage is needed to derive efficiently and accurately interesting heredity information from the observed data. In this paper, first are proposed two preprocess methods for time course gene expression data. One is the method to filter out the genes with flat pattern using the bootstrap samples. The other is sequential partial least squares(SPLS) regression fitting method to estimate missing values in the gene expression profile. Next, for the discriminant analysis of genes which is one of the essential main issues in gene expression data analysis, the method using the features selected by the functional canonical correlation analysis(FCCA) is proposed. Each suggested method is simulated and applied to some yeast data, also is assessed and compared with the former several methods.

연구결과보고서

초록
시간경로 마이크로어레이 유전자 발현 자료는 마이크로어레이 칩(chip)을 이용하여 시간의 흐름에 따라 관측된다. 복잡하고 까다로운 실험 과정을 거쳐 동시에 수천 개의 유전자에 대한 발현 수준들이 측정되므로, 관측되는 자료의 크기는 매우 크며 결측치가 많이 발생된 ...

시간경로 마이크로어레이 유전자 발현 자료는 마이크로어레이 칩(chip)을 이용하여 시간의 흐름에 따라 관측된다. 복잡하고 까다로운 실험 과정을 거쳐 동시에 수천 개의 유전자에 대한 발현 수준들이 측정되므로, 관측되는 자료의 크기는 매우 크며 결측치가 많이 발생된다. 시간에 따른 발현 수준의 변화가 매우 작거나 결측률이 높은 유전자들은 불필요한 계산 양을 증가 시키며 잘못된 결론을 이끌 수도 있다. 한편 대부분의 통계 분석 방법들은 하나 이상의 결측치를 포함하는 자료들을 분석에서 모두 제외시키므로, 자료의 효율적인 이용을 위해서는 결측률이 비교적 작은 유전자들에 대해 정확한 추정치로 결측치를 대체 시키는 것이 바람직할 것이다.
따라서 관심 있는 유전 정보(heredity information)를 관측 자료로부터 효율적이고 정확하게 도출하기 위해서는 핵심적인 본(main) 분석 이전에 전처리(preprocessing) 단계가 필요하다. 본 논문에서는 시간경로 유전자 발현 자료에 대해 먼저 두 가지의 전처리 방법을 제안한다. 하나는 무 변화 발현 패턴을 갖는 유전자를 걸러내기 위한 붓스트랩 표본을 이용한 필터링 방법이고, 또 하나는 유전자 내의 결측치 추정을 위한 순차적 부분최소제곱(sequential partial least squares) 회귀적합 방법이다. 다음으로, 유전자 발현 자료 분석에서 주요 이슈 중 하나인 유전자에 대한 판별분석 방법으로서 함수적(functional) 정준상관분석에 의해 추출된 특징변수를 판별분석에 이용하는 방법을 제안한다. 제안된 각 방법은 모의실험 되고 여러 가지의 이스트(yeast) 자료에 적용되며, 또한 기존의 여러 방법들과 비교 평가된다.

연구결과 및 활용방안
본 연구는 시간경로 마이크로어레이 유전자 발현 자료에 대해 핵심적인 본(main) 분석 이전에 필요한 두 가지의 전처리 방법과 유전자 발현 자료에 대한 분석에 있어서 주요 이슈 중의 하나인 유전자에 대한 판별분석에 주된 관심을 두었다.
첫 번째 전처리 방법은 무 ...

본 연구는 시간경로 마이크로어레이 유전자 발현 자료에 대해 핵심적인 본(main) 분석 이전에 필요한 두 가지의 전처리 방법과 유전자 발현 자료에 대한 분석에 있어서 주요 이슈 중의 하나인 유전자에 대한 판별분석에 주된 관심을 두었다.
첫 번째 전처리 방법은 무 변화 패턴을 갖는 유전자를 필터링 하는 방법이었다. 여러 가지 필터링 함수 중에서 직관적으로 쉽게 사용 가능한 몇 가지 함수를 중심으로 하여 본 논문에서 제안된 붓스트랩 표본에 대한 백분위수 기준 방법과 기존에 흔히 사용되어 오던 관측 표본에 대한 백분위수 기준 방법을 비교 검토하였다. 전처리 단계에서 제거된 유전자는 핵심적인 본 연구에 참여될 기회를 잃게 되므로, 어느 한 유전자가 무 변화 패턴을 가지는 것으로 결정하는 일은 신중하게 처리되어야 한다. 이러한 측면에서 보자면 보수적이고 보다 안정적인 경향을 보여준 붓스트랩 표본에 기초한 백분위수 방법을 적용하고 이때 필터링 함수로는 분산 함수를 사용할 것을 권한다.
두 번째 전처리 방법은 관측된 자료의 유용성을 높이기 위해 소수의 결측치가 있는 유전자들에 대해 결측치를 적절한 추정치로 대체하여 완전한 자료로 만들어 주는 것이다. 본 논문에서 제안된 방법은 부분최소제곱(PLS) 회귀적합 방법에 순차적 방법을 결합시킨 순차적 부분최소제곱(SPLS) 회귀적합 방법이다. SPLS 방법과 기존의 여러 방법들을 비교 실험한 결과 SPLS 방법이 전반적으로 가장 좋은 적합수준을 보였다. 또한 SPLS를 수행하는데 있어서 gene-wise 방법과 array-wise 방법 간에는 자료의 국부적 유사성 구조에 따라 우수한 방법이 다르게 나타났다. 즉, 관측 시점 간 국부적 유사성이 클수록 SPLSarray 방법이, 유전자 간 국부적 유사성이 클수록 SPLSgene 방법이, 두 측면 모두에서 어느 정도의 상관성이 내재하면 두 방법을 결합시키는 SPLScombined 방법이 결측치 추정에 좋은 결과를 줄 것으로 판단된다. 한편, 기존 방법과의 비교 결과에서 살펴보았듯이 array 간 상관성이 높지 않은 시간경로 자료, 또는 시간경로 자료가 아닌 경우에 대해서도 SPLS 방법은 기존 방법보다 더 개선된 결과를 줄 것으로 판단된다. 결측치 추정시 한 가지 주목할 사항은 결측치를 추정하는 단계에서 발생한 오차는 뒤따르는 다음 단계의 분석 결과에 영향을 미치게 된다는 것이다. 따라서 결측치 추정에 있어서 정확성 정도는 매우 중요한 문제이다. 주어진 자료에 대한 최적의 결측 추정치는 궁극적으로 볼 때 핵심적인 본 분석에 가장 적절한 결과를 주는 값으로 결정하는 것이 합당할 것으로 본다. 예를 들면 판별분석을 목적으로 하는 경우는 판별력을 가장 높게 해주는 방향으로 결측치 추정하는 방법을 고려해야 할 것이다. 또한 추정된 결측치를 이용함에 있어서 중요한 생물학적 결론을 이끌 때에는 주의를 요할 필요가 있다.
마지막으로, 마이크로어레이 유전자 발현 자료에 대한 주된 이슈 중의 하나인 유전자의 판별 및 분류에 관한 문제를 살펴보았다. 시간경로 자료는 각 시점에서 관측된 자료들 간에 상관성을 내포하므로 잠재적인 함수 관계 또는 곡선(curve) 형태의 자료 구조를 가정할 수 있다. 본 연구에서는 시간의 흐름에 따라 관측된 자료를 독립된 다변량이 아니라 하나의 함수나 곡선 형태의 개체로서 간주하여 자료의 함수적 관계성을 바탕으로 하는 함수적 자료분석(FDA) 방법을 적용하였다. 이는 이산적 관측자료를 평활된(smoothed) 함수적 자료로 변환하여 분석에 이용하므로 오차 문제를 어느 정도 해결할 수 있는 장점이 있다. 본 논문에서는 함수적 정준상관분석(FCCA)을 통해 정준변량을 추출하고 이를 이용한 판별분석 방법을 제안하였다. 제안된 방법과 다변량 CCA를 통해 정준변량을 추출하고 이를 이용한 판별분석 방법의 성능을 비교 평가한 결과, 함수적 관계가 크게 흐트러지지 않는 정도의 오차 수준을 갖는 자료의 경우에는 FCCA에 의한 판별분석 방법이 다변량 CCA에 의한 판별분석 방법보다 더 좋은 결과를 보였다. 한편, 오차 수준이 매우 작아 잠재적 함수의 특성이 뚜렷이 드러나는 자료라든지, 오차 수준이 너무 커서 잠재적 함수의 특성이 거의 드러나지 못하는 자료의 경우에는 FDA 방법의 장점이 드러나지 못하므로 FCCA에 의한 판별분석 방법과 다변량 CCA에 의한 판별분석 방법은 거의 비슷한 수준의 결과를 보였다.

색인어
마이크로어레이, 시간경로 자료, 유전자 발현 자료, 전처리 방법, preprocessing, 무 변화 패턴, 붓스트랩 표본, 필터링 방법, 결측치 추정, 결측치 대체, 순차적 부분최소제곱 회귀적합 방법, sequential partial least squares, SPLS, PLS, 함수적 정준상관분석, functional canonical correlation analysis, 함수적 자료분석, functional data analysis, 판별분석, 이스트 자료, yeast 자료.

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 자연과학 > 통계학 > 분야별통계 > 생물통계
2순위 : 자연과학 > 통계학 > 다변량통계
3순위 : 의약학 > 임상병리학 > 검사정보학 > 생명정보학

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.