보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007220&local_id=10011300

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10007220&local_id=10011300

독-한 병렬 코퍼스의 구축과 활용에 관한 연구

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 독-한 병렬 코퍼스의 구축과 활용에 관한 연구 | 2004 년 신청요강 다운로드

| 안인경(한국외국어대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00091
선정년도	2004 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2006년 05월 30일
연차구분	결과보고
결과보고년도	2006년

결과보고시 연구요약문

국문
이 연구는 독일어-한국어 병렬코퍼스(German-Korean parallel corpus)의 구축을 최초로 시도하고 이를 활용할 수 있는 방법론과 모델을 개발함으로써 이것이 독일어 교육 및 통ㆍ번역, 사전 편찬, 독일어-한국어 비교 연구, 자동번역 등 여러 분야에서 유용하게 이용될 수 ...

이 연구는 독일어-한국어 병렬코퍼스(German-Korean parallel corpus)의 구축을 최초로 시도하고 이를 활용할 수 있는 방법론과 모델을 개발함으로써 이것이 독일어 교육 및 통ㆍ번역, 사전 편찬, 독일어-한국어 비교 연구, 자동번역 등 여러 분야에서 유용하게 이용될 수 있는 기반을 마련할 목적에서 수행되었다. 본 연구는 1) 병렬코퍼스 구축을 위한 텍스트 선정 지침 연구, 2) 코퍼스 텍스트의 수집 및 OCR 작업, 3) 독-한 병렬코퍼스 구축을 위한 정렬 작업(목표치: 독일어, 한국어 각각 50만 어절), 4) 병렬코퍼스 검색도구 연구, 5) 병렬코퍼스의 활용방안 연구 등으로 목표가 세분화되어 수행되었다. 각 연구의 수행내용과 연구결과는 다음과 같이 요약할 수 있다. 1) 병렬코퍼스 구축을 위한 텍스트 선정 지침 연구: 채택한 양방향 병렬코퍼스 유형의 성격에 맞게 텍스트 선정 지침을 정하고 테스트 조사 및 수집을 진행하였다. 2) 텍스트를 기계 가독형 자료로 변환하는 작업은 OCR 방식과 직접 입수 방식을 취하였다. 3) 독-한 병렬코퍼스 구축을 위한 정렬 작업: 본 연구에서 채택한 병렬코퍼스 정렬(alignment) 작업은 원문과 번역문을 일일이 대조해 가며 정렬 소프트웨어나 텍스트 에디터의 도움으로 문장 대 문장 대응을 시켜 원문 텍스트와 번역문 텍스트를 한 문서에 통합시키는 방법이다. 이렇게 해서 2004년 12월부터 2005년 11월까지 독일어 약 74만 어절, 한국어 약 59만 어절 규모의 병렬코퍼스를 구축했다. 4) 병렬코퍼스 검색도구 연구: 본 연구에서는 독일어와 한국어를 동시에 잘 보여줄 수 있는 이중언어 콘코던스 프로그램을 조사해 보았으나, 기존의 상용 소프트웨어들의 문제를 확인하고, 유니코드와 정규표현이 지원되고, 검색 기능을 이용할 수 있는 EmEditor를 이중언어 콘코던스 프로그램으로 활용하였다. 5) 병렬코퍼스의 활용방안 연구: 본 연구에서는 표본적으로 코퍼스 기반 번역을 중심으로 병렬코퍼스의 구체적인 활용 가능성을 점검해 보았다. 먼저 본 연구과제에서 구축한 병렬 코퍼스의 일부를 직접 이용하여 특히 번역 방향이 한국어-독일어인 경우에 그 유용성을 확인해 보기 위한 번역 실험을 실시하였는데, 여기서 종래 번역 방식의 문제점과 병렬코퍼스의 유용성을 확인할 수 있었다. 이어서 병렬코퍼스를 통해 한국어-독일어 번역에 도움을 받을 수 있는 구체적인 방안들을 연구하였다.

영문
This research was aimed to initiate the construction of a German-Korean parallel corpus and develop the methodology for practical applications in the fields of German language teaching, translation and interpreting, dictionary compilation, comparative ...

This research was aimed to initiate the construction of a German-Korean parallel corpus and develop the methodology for practical applications in the fields of German language teaching, translation and interpreting, dictionary compilation, comparative study of German-Korean, computer-aided translation, etc.

Parallel corpus is defined as a multi-lingual translation process with the display of one language aligned in parallel with its translation into another language. Under the circumstance that the globalization is being accelerated and political, economical, cultural exchanges are rapidly growing, parallel corpus contributes to the efficiency in information exchange between languages through practical applications in translation, interpreting, computer-aided translation, etc. Parallel corpus plays a significant role in the fields as contrastive analysis of different languages, dictionary compilations, literary stylistics, interpreter and translator training.

Significance of parallel corpus drew attention in overseas where vigorous efforts have been made for the construction and expansion of large-scale parallel corpora and their application. On the contrary, the importance of parallel corpus was realized only by a minority in Korea, the methodology being almost undeveloped. By the end of 1990s, a recognition on the necessity of parallel corpus led to a government funded project, the 21st Century Sejong Project, to start the study on the construction of Korean-English, Korean-Japanese, Korean-Chinese, Korean-Russian, Korean-French parallel corpora but Korean-German was not included in the project. This research is essential at this point as an initial attempt to construct a German-Korean parallel corpus and to study its application.

This research was originally proposed as a 3-year project of international cooperative research program in 2004 but the approval was given for a 1-year project, necessitating an adjustment of the research goal. The research has been carried out with its focus on: 1) study to establish a guideline for text selection, 2) collection of corpus texts and OCR works, 3) text alignment works for German-Korean parallel corpus construction (Goal: 500,000 words each from German and Korean), 4) study for searching tools of parallel corpus, 5) study on the applications of parallel corpus.

연구결과보고서

초록
이 연구는 독일어-한국어 병렬코퍼스(German-Korean parallel corpora)의 구축을 최초로 시도하고 이를 활용할 수 있는 방법론과 모델을 개발함으로써 이것이 독일어 교육 및 통ㆍ번역, 사전 편찬, 독일어-한국어 비교 연구, 자동번역 등 여러 분야에서 유용하게 이용될 수 ...

이 연구는 독일어-한국어 병렬코퍼스(German-Korean parallel corpora)의 구축을 최초로 시도하고 이를 활용할 수 있는 방법론과 모델을 개발함으로써 이것이 독일어 교육 및 통ㆍ번역, 사전 편찬, 독일어-한국어 비교 연구, 자동번역 등 여러 분야에서 유용하게 이용될 수 있는 기반을 마련할 목적에서 수행되었다.
병렬코퍼스(parallel corpus)는 한 언어의 텍스트와 그것을 다른 언어로 번역한 텍스트가 정렬된 형태로 이루어지는 다중언어 코퍼스이다. 오늘날 글로벌화가 가속화되고 정치, 경제, 문화 등의 각 분야의 교류가 활발해지면서 통역과 번역의 필요성도 급속하게 커지고 있는 상황에서, 병렬코퍼스는 언어간의 효율적인 정보소통을 위한 통역, 번역, 자동번역 등의 실용적인 측면에서 크게 기여할 수 있을 뿐 아니라, 언어간의 상이한 특징을 비교하는 언어 대조분석 연구와 사전편찬학, 문체론, 그리고 외국어 및 통ㆍ번역 교육에서도 중요한 역할을 한다.
외국에서는 일찍이 이러한 병렬코퍼스의 중요성에 주목하여 대규모의 병렬코퍼스를 구축, 확장 중에 있으며 이미 구축된 코퍼스를 활용하기 위한 방법론을 개발하는 데에도 노력을 집중하고 있다. 이와는 달리, 국내에서는 한국어를 기반으로 하는 병렬코퍼스의 중요성을 일부에서만 인식하고 있을 뿐, 연구방법론조차 제대로 마련되어 있지 못한 실정이었다. 그러다가 90년대 말부터 병렬코퍼스 구축에 대한 필요성을 절감하고 국책사업인 세종계획에서 한-영, 한-일, 한-중, 한-러, 한-프 병렬코퍼스의 구축 연구를 진행하고 있으나, 한국어-독일어 병렬코퍼스 구축 계획은 없는 실정이다. 이러한 이유에서 이 연구과제에서 처음으로 시도하는 독-한 병렬코퍼스의 구축과 활용에 대한 연구는 그 시의성과 필요성이 충분하다고 하겠다.
이 연구과제는 2004년도 협동연구(국제적 협동연구)의 3년 과제로 신청된 것이었으나 1년 과제로 축소되어 승인되었기 때문에 본 연구과제의 목표 설정에도 조정이 있었다. 본 연구의 목표는 ① 병렬코퍼스 구축을 위한 텍스트 선정 지침 연구, ② 코퍼스 텍스트의 수집 및 OCR 작업, ③ 독-한 병렬코퍼스 구축을 위한 정렬 작업(목표치: 독일어, 한국어 각각 50만 어절), ④ 병렬코퍼스 검색도구 연구, ⑤ 병렬코퍼스의 활용방안 연구 등으로 세분화되어 연구가 진행되었다.

연구결과 및 활용방안
본 과제의 각 연구 목표에 따른 연구수행내용과 연구결과는 다음과 같이 요약할 수 있다. ① 병렬코퍼스 구축을 위한 텍스트 선정 지침 연구: 본 연구에서 선택한 병렬코퍼스의 유형(독-한/한-독 양방향 병렬코퍼스)에 맞게 텍스트 선정의 지침을 정하고 그에 따른 테스트 ...

본 과제의 각 연구 목표에 따른 연구수행내용과 연구결과는 다음과 같이 요약할 수 있다. ① 병렬코퍼스 구축을 위한 텍스트 선정 지침 연구: 본 연구에서 선택한 병렬코퍼스의 유형(독-한/한-독 양방향 병렬코퍼스)에 맞게 텍스트 선정의 지침을 정하고 그에 따른 테스트 조사 및 수집을 진행하였다. 텍스트는 1980년대 이후에 생산된 글말(문어), 산문 가운데서 추출했는데 문학 텍스트와 비문학 텍스트의 비중을 60대 40정도로 정했고, 비문학 텍스트(교양, 실용, 학술)는 가능한 한 다양한 주제 영역이 포함될 수 있도록 코퍼스의 표본 텍스트들을 추출했다. 여기에는 텍스트 종류와 주제가 다양한 신문, 잡지도 포함되었다. ② 문서 자료를 기계 가독형의 디지털화된 자료로 변환하는 작업은 OCR 방식과 직접 입수 방식을 취하였다. ③ 독-한 병렬코퍼스 구축을 위한 정렬 작업(목표치: 독일어, 한국어 각각 50만 어절): 본 연구에서 채택한 병렬코퍼스 정렬(alignment) 작업은 시간과 비용을 고려하여 CES(Corpus Encoding Standard) 방식을 쓰지 않고, 통번역 교육을 받고 있는 전문 인력이 직접 원문과 번역문을 일일이 대조해 가며 정렬 소프트웨어(aligner)나 경우에 따라서는 텍스트 에디터의 도움으로 문장 대 문장 대응을 시켜 원문 텍스트와 번역문 텍스트를 한 문서에 통합시키는 방법이다. 이러한 정렬 방법을 이용하여 2004년 12월부터 2005년 11월까지 독일어 약 74만 어절, 한국어 약 59만 어절 규모의 독-한/한-독 양방향 병렬코퍼스를 구축했다. ④ 병렬코퍼스 검색도구 연구: 구축된 병렬코퍼스를 활용하기 위해서는 원문과 번역문을 동시에 보여줄 수 있는 검색도구가 필요하다. 본 연구에서는 독일어와 한국어를 동시에 잘 보여줄 수 있는 이중언어 콘코던스 프로그램을 조사해 보았으나, 기존의 상용 소프트웨어들은 두 언어의 동시 재현에 문제가 있음을 확인하였다. 그래서 유니코드와 정규표현이 지원되고, 검색 기능(Find in Files)을 이용할 수 있는 EmEditor를 이중언어 콘코던스 프로그램으로 활용하였다. ⑤ 병렬코퍼스의 활용방안 연구: 병렬코퍼스의 활용 분야는 다양하지만, 본 연구에서는 표본적으로 코퍼스 기반 번역을 중심으로 병렬코퍼스의 구체적인 활용 가능성을 점검해 보았다. 이 연구에서는 인간이 번역을 수행하면서 병렬코퍼스와 코퍼스 검색 도구를 이용하게 될 때 어느 정도까지 번역의 질을 높일 수 있는지를 한국어-독일어 번역의 경우를 중심으로 검토해 보았다. 먼저 본 연구과제에서 구축한 병렬 코퍼스의 일부를 직접 이용하여 특히 번역 방향이 한국어-독일어인 경우에 그 유용성을 확인해 보기 위한 번역 실험을 실시하였는데, 여기서 종래 번역 방식의 문제점과 병렬코퍼스의 유용성을 확인할 수 있었다. 이어서 병렬코퍼스를 통해 한국어-독일어 번역에 도움을 받을 수 있는 구체적인 방안들을 연구하였다.

색인어
코퍼스 언어학, 코퍼스, 말뭉치, 병렬코퍼스, 양방향 병렬코퍼스, 균형코퍼스, OCR, 정렬, 콘코던스 프로그램, 독일어, 한국어, 번역, 통역, 한국어-독일어 번역, 독일어-한국어 번역, 컴퓨터 지원 번역, 코퍼스 기반 번역, 이중언어 사전

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 독일어와문학 > 독일어교육
2순위 : 인문학 > 독일어와문학 > 독일어학 > 기타독일어학
3순위 : 인문학 > 독일어와문학 > 독일어학 > 통사론(독일어학)

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.