보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011509&local_id=10014403

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011509&local_id=10014403

효율적인 영상처리를 위한 내장형 SIMD 코프로세서 구조 설계 및 분석

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 효율적인 영상처리를 위한 내장형 SIMD 코프로세서 구조 설계 및 분석 | 2005 년 신청요강 다운로드

| 김정길(연세대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	D00053
선정년도	2005 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2008년 02월 20일
연차구분	결과보고
결과보고년도	2008년

연구결과보고서

초록
본 논문의 목표는 고성능의 다양한 차세대 멀티미디어 응용시스템을 위한 SIMD(Single Instruction, Multiple Data streams) 기반의 가속기 구조를 설계하고 운용하는데 있다. 고속의 영상처리 응용에서 요구되는 연산의 공통적 특징은 연속적인 스트림(Stream) 데이터의 ...

본 논문의 목표는 고성능의 다양한 차세대 멀티미디어 응용시스템을 위한 SIMD(Single Instruction, Multiple Data streams) 기반의 가속기 구조를 설계하고 운용하는데 있다. 고속의 영상처리 응용에서 요구되는 연산의 공통적 특징은 연속적인 스트림(Stream) 데이터의 입출력과 그에 따른 연산이 실시간에 이루어져야 하므로 많은 연산 능력을 요구하게 된다. 그러나 이러한 연산은 몇 단계의 루프에서 대부분의 단순한 연산이 반복 되며, 이때 필요한 데이터는 블록 및 프레임 단위로 공급되어 루프 내부의 연산은 상호 독립적인 데이터간에 행해지게 된다. 이는 데이터 단위의 병렬성(Data Level Parallelism)을 적용 가능하게 하며, SIMD 스타일의 벡터 연산 모델을 이용하여 가장 적은 비용으로 높은 성능을 가져올 수 있는 병렬 가속 시스템을 설계 가능하게 한다. 이전까지의 특정 응용에 대한 칩개발은 해당 응용의 로직을 하드웨어로 직접 설계하는 ASIC 형태로 이루어져 왔다. 이러한 설계방식에 의한 프로세서는 성능을 포함하여 생산비용, 전력소모, 크기 모든 면에 있어서 가장 높은 효율을 보이게 된다. 하지만, 최근 들어 다양한 응용의 통합 및 개발시간/비용의 극심한 증가에 따라 한계점을 보이며, 프로그래밍 제약, 성능 및 기능적 측면에서 확장이 불가능한 단점을 기지고 있다. 따라서 범용적 가속기의 설계가 필요한 상황이며, SIMD Array를 이용한 가속기의 구조는 최적의 선택이 될 수 있다. 이러한 SIMD Array를 이용하여 효율적인 가속 시스템을 구현하기 위해서는 해당 미디어 응용군에 적용 가능한 최적화된 알고리즘, 이를 효율적으로 반영한 고성능 하드웨어 가속기 구조 및 설계 환경에 대한 연구가 필요하다.

제3장에서 제시된 첫 SIMD Array는 콘트롤 유닛(control unit)과 이차원 배열구조의 처리소자(two dimensional array of processing units)들로 구성된 모듈로서 범용성(general purpose)의 메인 프로세서와 단일칩에 결합되어 있는 SIMD 코프로세서(co-processor) 구조이다. SIMD 모듈은 동일한 연산이 다수의 데이터 스트림(streamed data)들에서 연속적으로 처리되는 관계로 외부로부터 원활한 데이터의 공급이 중요한 사항이다. 이를 위하여 512-byte의 적은 용량의 이중 버퍼시스템이 제안되었다, 제안된 이중 버퍼시스템은 SIMD모듈의 연산과 메모리접근(memory access)을 효율적으로 감춤(hiding)으로써 전체적인 연산시간을 빠르게 한다.

제 4장에서 제시된 두번째 SIMD Array는 일차원 Array 가속기 구조로 N개의 동일한 처리소자(PU : processing unit)와 제어 유닛(CU: control unit), 네 개의 공통 버스(common bus), 링(ring), 전역메모리(GM: global memory), 비선형함수 유닛(NFU: nonlinear functional unit)으로 구성 되어 있다. PU는 가속기의 기본 계산 단위로서 각각 지역메모리(LM, local memory)와
주소변환기(AM, address modifier)를 구비 하였으며 하나의 가속기 내에 16개의 PU가 내장 되어있다. 구조적 특징으로는 버스기반 구조(bus based architecture)와 링기반 구조(ring based architecture)의 장점을 모두 활용 가능한 하이브리드 버스-링 구조(hybrid bus-ring architecture)를 제안하였다.

마지막으로 제5장에서 제시된 SIMD Array는 두 개의 일차원 Array가 병렬로 구성되는 가속기 구조로 일반적인 2차원 분리가능 변환(2D separable transform) 연산에 범용적으로 적용 가능한 구조이다. 즉, M×N 행렬 데이터를 분리 연산하는 X-Array와 Y-Array로 구성되어 각각 열우 선, 행우선 연산이 가능하게 한다. 제안된 구조의 성능 검증을 위하여 위상기반(phase-base) 스테레오정합 알고리즘을 이용, 실시간으로 dense disparity map을 추출 가능한 고성능 병렬 프로세서(pipelined array processor) 구조를 설계하였다. 채택된 알고리즘은 Local Weighted Phase Correlation(LWPC) 스테레오정합 알고리즘으로서 기본적으로 잡음에 강하면서 불연속이 존재하는 부분에서 오정합의 발생을 줄여 줄 수 있는 장점이 있으며, 주요 연산은 이차원 컨벌루션(2D Convolution)으로서 분리가능 변환이다.

연구결과 및 활용방안
본 연구의 결과는 멀티미디어 응용시스템을 위한 SIMD(Single Instruction, Multiple Data streams) 기반의 효율적 가속기 구조를 설계로서 향후 FPGA 칩으로 구현 검증 후 최적화 과정을 거친 후 사용칩으로 설계 가능

본 연구의 결과는 멀티미디어 응용시스템을 위한 SIMD(Single Instruction, Multiple Data streams) 기반의 효율적 가속기 구조를 설계로서 향후 FPGA 칩으로 구현 검증 후 최적화 과정을 거친 후 사용칩으로 설계 가능

색인어
코프로세서 아키텍처, 배열 프로세서, 심드 병렬처리, 영상처리, 멀티미디어 내장형 시스템, 이차원 분리가능 변환

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 공학 > 컴퓨터학 > 컴퓨터구조 > 프로세서구조
2순위 : 공학 > 컴퓨터학 > 컴퓨터시스템 > 내장형시스템

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.