연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

통합적 언어지식베이스를 이용한 불-한 전문분야 기계보조번역 워크벤치의 구현 및 적용(3차)
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 선도연구자지원 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2004-041-A00512
선정년도 2004 년
연구기간 2 년 (2004년 12월 01일 ~ 2006년 11월 30일)
연구책임자 윤애선
연구수행기관 부산대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 본 연구의 목적은 ① 기계보조번역(Computer-Assisted Translation)에 사용할 수 있는 불-한 언어 지식 베이스(French-to-Korean Linguistic Knowledge Base)를 구축하고, ② 이를 기반으로 전문 분야의 기계보조번역을 효율적으로 지원하기 위한 불-한 전문 분야 번역 워크벤치(workbench)를 구현하며, ③ 불-한 언어지식 베이스와 워크벤치의 성능을 평가하기 위해 프랑스의 대표적인 문화 분야인 요리의 조리법(recipe)에 적용하여 시제품(prototype)을 개발하는데 있다. 방대한 본 연구의 목적을 이루기 위해, 선․후행성을 고려하여 연구 내용을 상호 유기적인 3단계로 구분하여 5개의 세부 목표를 설정하고 이를 5년에 걸쳐 순차적으로 진행하고자 하였고 2004년에는 3차년도 연구에 들어서게 된다.<n><n>
    ① 전체 연구의 기반이 되는 1단계에는 '불-한 언어지식 베이스의 구축'을 목적으로 하며 다음과 같이 3년에 걸쳐 진행된다.<n>
    ㉮ 2002년에 개시된 1차년도에는 ‘불어 문장 분절(segmentation) 규칙 연구 및 불어 분석 모듈 구현’을 목표로 하며, 불어 분석을 위한 규칙 설정 및 언어 정보 기술이 중점적으로 이루어졌다.<n>
    ㉯ 2003년에 시작하여 진행 중인 2차년도에는 ‘불-한 변환 용 언어지식 베이스 개발을 위한 패턴 분석 및 기술’을 목표로 하며, 불-한 구조 패턴 분석 및 유형화(tokenization)를 수행하고 있다.<n>
    ㉰ 2004년에 계획하는 3차년도에는 문장 분석 및 변환 규칙의 설정과 기술에 치중했던 1, 2차 년도의 연구 내용을 토대로 하여 대응 관계(correspondence)와 통계를 이용하여 불-한 언어지식 베이스를 구축함으로써 불-한 변환 모듈을 구현한다.<n><n>
    ② 본 연구의 전반부에 해당하는 1, 2, 3차년 연구 내용이 국내에서는 아직까지 이루어지지 않은 자동처리를 위한 불어 분석 및 기초적인 불-한 언어지식 베이스 구축에 역점을 두었다면, 2단계이자 4차 년도에는 전반부 연구 결과를 효과적으로 기계보조번역에 이용할 수 있도록 ‘실시간(real-time) 불-한 전문 분야 기계보조번역 워크벤치를 구현’하는데 그 목적이 있다.<n>
    ③ 3단계이자 5차년도에는 1, 2단계의 연구 결과물인 불-한 언어지식베이스와 불-한 전문분야 컴퓨터보조 워크벤치의 성능과 실용성을 평가하는 단계로, '조리법(recipe)' 분야에 적용하여 불-한 기계보조번역 시스템의 시제품을 개발한다.
  • 기대효과
  • 지금까지 국내외의 불-한 자동처리나 기계번역에 관한 연구는 인간 사용자용 전자 사전, 형태소 처리기 등 기초 자료 구축이나 매우 제한된 통사 처리 정도에 머무르고 있다. 특히 프랑스에서 개발한 언어처리 시스템은 지적 재산권 장벽이 아주 높거나 이식성이 낮아 국내의 실용화된 시스템 개발하에 이용할 수 없었다. 이와 함께 국내 외국어 교육에서 영어, 일본어, 중국어 쏠림 현상은 불어, 독어 등과 같이 국제 사회에서는 수요가 크나 국내 수요가 작아 전문가 및 학문 후속 세대의 양성을 수와 질 모든 측면에서 크게 둔화시키고 있다. 프랑스와 한국과의 관계는 고속철도․자동차․원자력 등과 같은 과학 분야, 요리․포도주․화장품 등과 같은 문화 분야의 교류는 지속적으로 확대되고 있다. 하지만 국내 불어 전문 인력의 급속한 감소로, 이러한 전문 분야에서 시급히 요구되는 중요한 불어 정보의 한국어 대역은 정확도와 효율성 측면에서 기대치에 크게 미흡하다. 실용화된 불-한 전문분야 기계보조번역 시스템 개발을 목적으로 하는 본 연구가 결실을 맺게 되면 다음과 같은 학문적․사회적 효과를 기대할 수 있을 것이다.<n>
    ① 본 연구 결과를 연동하면 한국인 화자를 대상으로 한 초․중급 수준의 불어 컴퓨터보조학습 시스템에서 컨텐츠로 제공되는 한국어 대역을 실시간 자동번역 결과로 제공할 수 있어, CAT의 발전 방향인 ‘지능적인 교육 시스템’ 개발에 한 발 다가설 수 있다.<n>
    ② 학습자로 하여금 워크벤치를 이용하여 불-한 번역 패턴을 구축하고 전문 분야 기계보조번역을 수행하도록 함으로써, 대학의 ‘전산언어학, 불어학’ 관련 교과목의 실험 연구 도구 및 환경을 제공할 수 있다. <n>
    ③ 조리법 관련 불-한 기계보조번역 시스템관 관련 언어지식베이스가 개발되면, 프랑스 문화학 관련 교과목에서 빠지지 않는 프랑스 요리 및 조리법에 관한 여러 형태의 학습 자료로 사용될 수 있다. <n>
    ④ 불어 관련학과가 아니어서 불어 해독력이 낮을 수 있는 식품 영양학, 식품 공학, 조리학 관련 교과목의 교수자와 학습자에게 매일 새롭게 등장하는 프랑스 요리의 조리법을 한국어 자료로 실시간에 제공할 수 있다.
  • 연구요약
  • 본 연구의 최종 목표는 기계보조번역에 사용할 수 있는 전문분야의 불-한 언어지식베이스를 구축하고, 이를 지원할 수 있는 기계보조번역 워크벤치를 개발하는 것이다. 첫 단계인 불-한 언어지식베이스 구축의 마지막 해인 3차년도의 세부 연구 목표는 ‘불-한 언어지식 베이스 구축에 필요한 불-한 변환 모듈 개발’이다.
    <n> 3차년도의 연구범위는 조리법 분야에서 크게 다음 다섯 영역을 포함한다.<n>
    (1) 언어자원 구축과 관리를 위한 국제표준안 검토: 세계 표준 기구의 ‘언어자원 구축 및 관리’를 위한 다양한 국제 표준안을 지속적으로 검토하며, 2004년도 후반에 국제 표준안으로 제청될 것이 확실시 되는 전자사전 기술을 위한 국제표준 LexML을 적극 도입하여 불-한 변환사전 기술을 시도할 예정이다. <n>
    (2) 언어자원 구축 및 관리 시스템 개선: 프랑스어와 한국어 간 병렬 데이터를 구성하는 과정에서 예상할 수 있는 이접 연어(disjointed collocation)나 구구성성분(phrasal components) 간의 어순 비일치 현상 등을 포함하기 위해서는 범용성을 가진 현재의 언어자원 구축 및 관리 시스템의 지속적인 성능 개선이 필요하다. <n>
    (3) 주석이 달린(annotated) 불-한 변환 사전 구축: 23차년도에 설정한 분석 말뭉치인 단문 약 5천 개에서 추출할 수 있는 기본형(base form)은 단순 형태(simple form)를 기준으로 내용어(content word)인 동사 400여 개, 명사 1,500여 개, 형용사 500여 개이고, 기능어(functional word)는 약 200개 정도로 예상한다. 본 연구진은 인간을 위한 불-한 사전을 보유하고 있으나 이 정보 자체는 전문분야 기계(보조)번역을 위한 변환사전에 바로 적용하기는 힘들며, 추가해야 할 정보도 매우 많다. 3차년도에는 앞에서 제시한 연구 범위 내에 포함된 어휘의 기본형을 대상으로 전문 분야 특성을 기술한다. 이때 언어정보 기술은 표준화 진행 과정에 따라 LexML의 기술 방식을 도입할 예정이다.<n>
    (4) 대응 관계를 갖는 불-한 병렬 데이터베이스 구축: 이개어 병렬 데이터베이스 구축 방식은 위치정보를 이용한 정렬(alignment) 방식과 의미나 통사적 유사성을 기준으로 하는 대응(correspondence) 방식이 있다. 영어와 불어, 일본어와 한국어와 같이 동일 언어 계보에 속하고 어순이 유사한 언어 쌍에서는 정렬 방식이 유의미한 값을 제공한다. 하지만 불어와 한국어 쌍과 같이 언어 특성이 상이한 경우 위치 정보는 그리 큰 정보 값을 제공하지 못한다. 이 경우, 고정 표현(frozen expression)․연어․구․절․문장과 같이 의미-통사 단위에 따라 대응관계를 갖는 병렬 데이터베이스의 구축이 필요하다. 본 연구에서 최종 목적으로 개발하려는 전문 분양 기계보조번역의 성능을 높이려면 해당 분야에 잘 사용되는 고정 표현과 넓은 의미의 연어 정보가 다수 필요하다.<n>
    (5) 개발자용 F-K CAT system의 시제품 설계 및 개발: 1,2차년도에 구축되었거나 3차년도에 구축되는 규칙 및 자료를 적용하고 역으로 이 자료의 정확성을 평가하기 위해 3차년도에는 개발자용 불-한 기계보조번역 시스템(French-Korean Computer-Assisted Translation)을 개발한다. 개발자용 F-K CAT system는 추후 본 연구의 최종 목표로 개발되는 기계보조번역 워크벤치의 중심 기능을 할 수 있어야 한다. 따라서 3차년도에 개발될 시스템은 시제품(prototype)이 될 것이다.
  • 한글키워드
  • 조리법,기계보조번역,이중언어자원,불어,한국어,자동언어처리
결과보고시 연구요약문
  • 국문
  • 언어지식 베이스 구축의 세 번째 단계인 당해년도(3차년도)의 목표는 ‘불-한 언어지식 베이스 구축과 불-한 변환 모듈 개발’을 연구하는 데 있으며, 1, 2차년도의 결과와 연계하여 다음과 같은 5가지 세부 내용을 수행하였다.

    (1) 언어자원 구축과 관리를 위한 국제표준안 검토: 전자사전 기술을 위한 국제표준 LEXml을 적극 도입하여 불-한 변환사전 기술을 검토하였다. 특히 ISO/TC37에서 도출하고 있는 다양한 표준안(MAF, SynAF, SemAF, FSA )을 도입하는데 어려움이 없고, 다른 언어자원을 구축하는 데도 사용할 수 있도록 호환성을 염두에 두었다.
    (2) XML을 이용한 불-한 변환사전 주석: 인간을 위한 불-한 전자사전 정보는 전문분야 기계(보조)번역을 위한 변환사전에 바로 적용하기는 힘들며, 추가해야 할 정보도 매우 많다. 3차년도 분석 범위에 포함된 어휘의 기본형을 대상으로 전문 분야 특성을 기술하였다. 이때 언어정보 기술은 LEXml의 기술 방식을 시험적으로 도입하였다.
    (3) 대응 관계를 갖는 불-한 병렬 데이터베이스 확장: 이개어 병렬 데이터베이스 구축 방식은 위치정보를 이용한 정렬(alignment) 방식과 의미나 통사적 유사성을 기준으로 하는 대응(correspondence) 방식이 있다. 2차년도 2천 개 문장 분석에 이어, 3차년도에는 추가로 약 5천 개 단문을 분석하여, 병렬 데이터베이스를 확장하였다.
    (4) 지식베이스로서 불어 및 한국어 어휘의미망 연동: DB방식으로 구축된 병렬 데이터베이스만으로는 동일 분야 어휘라도 데이터베이스에 포함되지 않은 어휘의 번역이 불가능하다. 어휘의미망은 의미자질을 규정하여 어휘 간 계층화된 관계를 설정함으로써, 동일한 개념군을 추론 기반을 제공한다. 이에, 3차년에는 프랑스 Avignon 대학에서 개발한 FrenchWordNet과 부산대학교의 본 연구진이 개발한 KorLex(KoreanWordNet)을 연동할 수 있는 연구를 수행하였다.
    (5) 콘텐츠 개발자용 F-K CAT 개발: 2차년도에 구축되었거나 3차년도에 구축되는 규칙 및 자료를 적용하고 역으로 이 자료의 정확성을 평가하기 위해 3차년도에는 개발자용 불-한 기계보조번역 시스템(French-Korean Computer-Assisted Translation)의 시제품(prototype)을 개발하였다.
  • 영문
  • The main objectives of this research year, which is the third one of a 4-year project, are (1) to build F-K(French-Korean) LKB(Language and Knowledge Bases), and (2) to develop F-K Transfer Module for a domain specific CAT(computer-assisted translation) system. The contents and the scope of this research year are as follows.
    1. Examination of International Standards for Language Resource Building and Management: LEXml, an International Standard for describing Electronic Dictionary was examined for the description of our F-K Transfer Dictionary. Its compatibility and portability with other standards for language resources such as MAF, SynAF, SemAF, FSA were proved.
    2. Annotation of the F-K Transfer Dictionary using XML: Markup tag sets for French and for Korean were proposed in the first 2 years of our research. Using these tag sets and our bilingual dictionary information for human, the base forms extracted form our corpus were annotated in XML. Some samples was described using LEXml.
    3. Expanding F-K Parallel Database based on semantico-syntactic correspondence: The main emphasis of the second and third years is on the description and the analysis of bilingual structural patterns, which will be one of the most important components of F-K CAT system. Additionally to 2,000 French sentences which were processed in the second year, 5,000 French sentences were selected from our corpus, and tokenization & POS(Part Of Speech) tagging were processed with semi-automatic methods. Then, their sentence patterns and phrasal patterns were described.
    4. Interconnecting French & Korean Lexical Semantic Network as a Knowledge Base: Simple F-K parallel database and dictionary cannot translate related words which don’t appear in their lists. Lexical semantic network can provide our of F-K CAT system with shallow inference, once related words have same semantic features. French WordNet (developed by Avignon University, France) and Korean WordNet (developed by the researcher’s lab., Pusan National University) were interconnected to our analyzing system.
    5. Development of F-K CAT system for contents developers: It was developed a prototype of F-K CAT system for contents developers.
연구결과보고서
  • 초록
  • 2002년부터 2006년까지 수행되는 본 연구의 최종 목적은 ① 기계보조번역(Computer-Assisted Translation)에 사용할 수 있는 불-한 언어 지식 베이스(French-to-Korean Linguistic Knowledge Base)를 구축하고, ② 이를 기반으로 전문 분야의 기계보조번역을 효율적으로 지원하기 위한 불-한 전문 분야 번역 워크벤치(workbench)를 구현하며, ③ 불-한 언어지식 베이스와 워크벤치의 성능을 평가하기 위해 프랑스의 대표적인 문화 분야인 요리의 조리법(recipe)에 적용하여 시제품(prototype)을 개발하는 데 있다.
    방대한 본 연구의 목적을 이루기 위해, 연구 내용을 세분화하여 상호 유기적인 세부 목표를 설정하고, 이를 4년에 걸쳐 순차적으로 진행한다. 연구를 개시한 1차년도에는 불어분석 모듈을 개선하기 위해 불어 문장 분절 규칙에 관한 연구를 수행하였다. 2차년도에는 불-한 변환용 패턴을 분석하고 분석 알고리즘을 연구하였다. 당해 연도인 3차년도에 1, 2차년도의 연구 결과를 바탕으로 포괄적인 ‘불-한 언어지식베이스를 구축’하는 기반이 된다. 마지막으로 4차년도에는 전반부 연구 결과를 효과적으로 기계보조번역에 이용할 수 있도록 ‘실시간(real-time) 불-한 전문 분야 기계보조번역 워크벤치를 구현’하며, 1-4차년도 결과물을 통합하여 불-한 언어지식베이스와 불-한 전문분야 컴퓨터보조 워크벤치의 성능과 실용성을 평가하는 단계로, 특정 전문 분야에 적용하여 불-한 기계보조번역 시스템의 시제품을 개발한다.
  • 연구결과 및 활용방안
  • 언어지식 베이스 구축의 세 번째 단계인 당해년도(3차년도)의 목표는 ‘불-한 언어지식 베이스 구축과 불-한 변환 모듈 개발’을 연구하는 데 있다. 2차년도에 분석 대상으로 삼았던 말뭉치는 전체 말뭉치의 1/10에 해당한다. 2차년도 분석용 말뭉치에 나타난 토큰의 유형 수는 전체 말뭉치의 나타난 유형 수의 약 1/3~1/4에 해당한다. 따라서 2차년도의 분석용 말뭉치만으로 실용적 시스템을 개발하기 힘들다. 3차년도에 분석 대상으로 삼을 말뭉치는 2차년도 분석 말뭉치를 포함하여 전체 말뭉치 21,753 문장에서 임의추출한 30%에 해당하는 단문 문장 약 5,000개를 대상으로 하였다. 분석 대상 말뭉치는 4차년도에도 꾸준히 추가하여 전체 말뭉치의 90%에 상당할 예정이며, 나머지 10%는 본 연구의 최종 결과를 도출될 ‘프랑스어 조리법 분야 기계보조번역 시스템’의 성능 평가를 위한 평가용 시스템으로 사용할 예정이다. 3차년도에는 이미 진행되었거나 진행 중인 1, 2차년도의 결과와 연계하여 다음과 같은 5가지 세부 내용을 포함하였다.
    (1) 언어자원 구축과 관리를 위한 국제표준안 검토: 전자사전 기술을 위한 국제표준 LEXml을 적극 도입하여 불-한 변환사전 기술을 검토하였다. 특히 ISO/TC37에서 도출하고 있는 다양한 표준안(MAF, SynAF, SemAF, FSA )을 도입하는데 어려움이 없고, 다른 언어자원을 구축하는 데도 사용할 수 있도록 호환성을 염두에 두었다.
    (2) XML을 이용한 불-한 변환사전 주석: 인간을 위한 불-한 전자사전 정보는 전문분야 기계(보조)번역을 위한 변환사전에 바로 적용하기는 힘들며, 추가해야 할 정보도 매우 많다. 3차년도 분석 범위에 포함된 어휘의 기본형을 대상으로 전문 분야 특성을 기술하였다. 이때 언어정보 기술은 LEXml의 기술 방식을 시험적으로 도입하였다.
    (3) 대응 관계를 갖는 불-한 병렬 데이터베이스 확장: 이개어 병렬 데이터베이스 구축 방식은 위치정보를 이용한 정렬(alignment) 방식과 의미나 통사적 유사성을 기준으로 하는 대응(correspondence) 방식이 있다. 2차년도 2천 개 문장 분석에 이어, 3차년도에는 추가로 약 5천 개 단문을 분석하여, 병렬 데이터베이스를 확장하였다.
    (4) 지식베이스로서 불어 및 한국어 어휘의미망 연동: DB방식으로 구축된 병렬 데이터베이스만으로는 동일 분야 어휘라도 데이터베이스에 포함되지 않은 어휘의 번역이 불가능하다. 어휘의미망은 의미자질을 규정하여 어휘 간 계층화된 관계를 설정함으로써, 동일한 개념군을 추론 기반을 제공한다. 이에, 3차년에는 프랑스 Avignon 대학에서 개발한 FrenchWordNet과 부산대학교의 본 연구진이 개발한 KorLex(KoreanWordNet)을 연동할 수 있는 연구를 수행하였다.
    (5) 콘텐츠 개발자용 F-K CAT 개발: 2차년도에 구축되었거나 3차년도에 구축되는 규칙 및 자료를 적용하고 역으로 이 자료의 정확성을 평가하기 위해 3차년도에는 개발자용 불-한 기계보조번역 시스템(French-Korean Computer-Assisted Translation)의 시제품(prototype)을 개발하였다.

    본래 본 과제는 5년 계속과제(2002-2007)로 선정되었으나, 연구진행 일정을 앞당겨 초기에 제시하였던 연구 목표를 4년만에 달성하는 것으로 연구 기간을 1년 단축하는 큰 성과를 올릴 수 있었다.
  • 색인어
  • 기계번역(machine translation), 조리법 문서(culinary text), 불-한 번역(French-Korean Translation), 전문분야 번역(Domain Specific Translation), 언어지식 베이스(Language & Knowledge Base), 번역 워크벤치(Translator's workbench)
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력