연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

다국어 연어 대조 연구
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 인문사회분야지원일반연구 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2004-074-AM0060
선정년도 2004 년
연구기간 3 년 (2004년 09월 01일 ~ 2007년 08월 31일)
연구책임자 홍재성
연구수행기관 서울대학교
과제진행현황 종료
공동연구원 현황 송석희(서울대학교)
임홍빈(서울대학교)
나윤희(서울대학교)
신자영(서울대학교)
임유종(한양대학교)
유승만(서울대학교)
이기철(한국외국어대학교)
이성헌(서울대학교)
구명철(서울대학교)
이만기(서울대학교)
송은지(서울대학교)
신효필(서울대학교)
이해윤(한국외국어대학교(용인캠퍼스))
홍기선(서울대학교)
박선영(서울대학교)
과제신청시 연구개요
  • 연구목표
  • 본 연구는 7개 언어(한국어, 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어)를 대상으로 하여 명사가 핵을 이루는 다양한 연어 및 연어 대응표현의 데이터베이스를 구축하고 이를 기반으로 유형론적 관점의 대조 연구를 수행하는 것을 목적으로 한다.
    연어란 긴밀한 공기 관계를 보이는 두 개의 어휘 요소간의 결합을 의미하는 것으로, 전형적으로 구성 어휘 요소 중 하나는 그 의미가 투명하고 다른 하나는 그 의미가 불투명한 경우를 말한다. 예를 들어 한국어의 ‘나이를 먹다, 새빨간 거짓말, 비난의 화살’ 등이 대표적인 연어라 하겠다. 위의 예에서 ‘나이, 거짓말, 비난’처럼 그 의미가 투명한 어휘 요소를 연어핵, ‘먹다, 새빨간, 화살’처럼 그 의미가 투명하지 않은 어휘 요소를 연어변이라 칭한다. 이때 연어핵과 연어변의 결합에는 일반적으로 제약이 따르고, 또한 연어변의 의미 불투명성으로 인하여 연어 전체의 의미가 정확히 파악되지 않는 것이 일반적이다.
    한편 연어는 개별 언어마다 고유한 양식으로 나타나고 따라서 언어간의 연어 대응 관계는 일정하지 않다. 실제로 한 언어의 연어는 다른 언어에서 다양한 형태로 실현될 수 있다. 예를 들어 한국어 연어 ‘질문을 던지다’의 대응표현이 6개 언어에서 모두 연어로 실현되는 반면, 한국어에서는 연어인 ‘화를 내다’는 프랑스어(se mettre en colère)에서는 연어로 구현되나, 독일어(Ärger herauslassen), 영어(get angry)에서는 자유결합으로 나타나며, 스페인어(enfadarse), 이태리어(arrabbiarsi/ inquietarsi/ adirarsi), 러시아어(рассердиться)에서는 하나의 어휘로 실현된다.
    본 연구에서는 통사․의미적 양태를 보이는 각 언어별 연어의 특성을 기술하고 언어간의 연어 대응 관계에 대한 정밀한 데이터베이스를 구축하여 이를 체계적으로 대조 연구하고자 한다.
  • 기대효과
  • 본 연구과제의 결과물은 다음과 같은 세 가지 관점에서 활용가능성과 기대효과를 가질 수 있다.
    ■ 언어교육적 관점
    한국어와 다국어 간의 연어정보 구축자료는 한국인을 대상으로 한, 그리고 외국인을 대상으로 한 한국어교육 분야에서 보다 효율적으로 이용될 수 있다. 기본어휘의 확장단계에 있는 한국인이나 영어 사용자에게 연어정보를 제공해주면 보다 자연스런 중고급 수준의 한국어를 습득 내지는 구사할 수 있다. 학교에서는 구축된 연어정보를 사용하여 작문, 해석, 회화 부분에서 실제 교육자료로서 활용할 수 있으며 특히 외국인을 대상으로 한 한국어 교육에 있어서 고급수준의 교재를 편찬하는 데 직접 활용할 수 있다. 또한 외국어 관련 분야에 종사하는 사람들은 통역, 번역 등의 실무작업에서 한국어-다국어 연어자료를 효과적으로 활용할 수 있다.
    ■ 언어학적 관점
    연어핵과 연어변의 결합으로 분석되는 연어정보는 어휘학이나 사전편찬학 분야에서 즉각적으로 활용될 수 있다. 연어변으로 출현하는 어휘들의 부류에 따라 다양한 의미들을 보다 객관적으로 분류할 수 있으므로 다의어 분석과 동의어 기술을 엄밀히 할 수 있다. 또한 체계적인 연구에 기반하여 구축한 연어 정보는 기존 사전의 정보갱신이나 새로운 사전편찬에 활용될 수 있다. 이는 한국어 및 6개 언어의 연어 대응자료의 구축은 한국어와 개별 외국어간, 또는 언어계통 간 대조연구에 효과적으로 활용될 수 있다.
    ■ 자연언어처리 관점
    본 연구 결과는 자연언어처리에서 핵심이 되는 단어 중의성 해소 문제를 해결하여 정보검색, 정보추출 분야나 문서분류, 문서 클러스터링 및 문서요약 시스템구축에 기초자료로 활용될 수 있다.
    또한, 본 연구에서 구축한 연어 데이터베이스는 기계번역의 여러 단계에서 직접 이용될 수 있다. 출발언어의 분석단계(parsing)에서 보면, 연어 정보에 의한 문장분석은 보다 높은 정확률을 가져다 줄 수 있고, 한국어-다국어 데이터베이스를 일종의 변환사전으로 활용하면 정확한 대응표현을 선별할 수 있다. 그리고 생성단계 (generation)에 있어서도 구축된 목표언어의 연어 정보를 이용하면 보다 자연스런 문장을 산출해낼 수 있어서 고품질의 번역결과를 얻을 수 있다.
  • 연구요약
  • 본 연구는 그 내용을 다음과 같이 4단계로 구분하고 3년간에 걸쳐 연차적으로 추진하도록 한다.

    ■ 기초 연구
    ■ 한국어 연어 목록 구축
    ■ 한국어, 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어 대조 데이터베이스 구축
    ■ 다국어 연어의 유형별 대조 연구

    이때의 기본 방향은 엄밀한 이론언어학 관점을 중점적으로 취하되, 코퍼스 기반 접근법을 적극적으로 활용함으로써 이론언어학적 관점이 가질 수 있는 한계를 보완하는 것이 될 것이다. 우리가 중심적으로 준거할 이론적 토대는 Mel'čuk의 방법론이 될 것이다. Mel'čuk의 의미-텍스트 이론(Meaning Text Theory)은 연어핵과 연어변의 결합 관계를 어휘함수(lexical function)라는 체계적이고 형식적인 의미 관계로 설명하고 있다. 따라서, 이 이론은 본 연구의 대상이 되는 7개 언어 내에서 다양하게 나타나는 연어들의 특성과, 이들 언어들 간의 연어 대응 관계들을 일관적인 기준으로 기술할 수 있게 해 줄 것이다.
    Mel'čuk의 방법론에 더하여 본 연구는 코퍼스 기반 연구 방법을 부가적으로 취하여, Mel'čuk의 이론이 가지고 있는 한계, 즉 문맥 의존성(context sensibility)의 부족을 보완하고자 한다. 즉, 우리는 이미 확보한 한국어-다국어(10개 언어) 대용량 병렬 코퍼스 등 다양한 코퍼스를 적극 활용하여 추출한 용례들에 기반하여 다국어 연어 대조 데이터베이스를 구축 할 계획이다.


    1. 기초 연구

    7개어(한국어, 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어) 연어 대조 데이터베이스 구축을 위하여, 기초 연구에서는 다양한 연어 이론을 검토하고, 기존 연구에 사용된 방법론과 모형을 종합하여, 각 언어별, 언어간 기술 모형을 설계하고 그 기술 모형에 근거한 표본 기술을 시도한다.
    특히 기술 모형을 설계하는 데 있어서는, 한국어와 대응 외국어 간에 대응 연어의 존재 여부, 어휘의 의미상 대조, 연어핵과 연어변, 논항 구조, 격틀, 선택 제약, 문법 범주, 상, 시제, 태 등의 일치 혹은 불일치를 기술할 수 있는지를 반드시 고려하도록 한다.

    2. 한국어 연어 목록 구축

    일반적으로 연어를 규정하는 가장 중요한 기준은 ‘단일방향성’으로 두 구성 요소 중 하나가 다른 하나를 제한적으로 요구한다는 것이다. 즉, 구성요소는 선택어와 피선택어로 구성되며, 여기서 선택어는 연어핵, 피선택어는 연어변으로 불리운다. 본 연구에서는 명사가 핵이 되어 구성하는 다음 다섯 가지 유형의 연어들을 다룬다.

    (1) NV 유형: 명사+동사 유형 예)결론을 내리다, 질문을 던지다/퍼붓다
    (2) AN 유형: 형용사+명사 유형 예) 새빨간 거짓말, 막다른 골목
    (3) NA 유형: 명사+형용사 유형 예) 신망이 두텁다, 얼굴이 창백하다
    (4) NN 유형: 명사+명사 유형 예) 엽기적 살인, 열광의 도가니
    (5) NP 유형: 명사+조사 유형 예) 반대로, 동시에

    이 때의 연어 목록은 연어핵이 되는 명사를 중심으로 구축할 것이다. 우선 명사의 의미부류와 다양한 코퍼스를 바탕으로 각 목록에 해당하는 명사 1000개를 선별하고 이를 핵으로 하는 연어 목록 5000개를 구축하기로 한다. 이 과정은 KAIST 기본어휘 목록, 21세기 세종계획 전자사전의 연어사전, KAIST 한국어 단어망, 그 밖의 Ontology, Wordnet, 시소러스 등을 적극 활용하는 3단계의 선별 및 정제과정을 포함한다.
    한국어 연어 기술에서 고려되는 세부 항목은 연어핵/연어변(연어핵이 되는 명사에 대해 연어변으로 올 수 있는 모든 품사의 어휘 기술), 연어 유형(NV, NA, NN, NP 둥 어떤 유형에 속하는가), 격틀 정보(조사, 보문표지, 어순 정보), 논항구조(의미역), 선택제약(의미부류), 어휘함수, 용례(코퍼스에서 발굴) 등이다.

    3. 7개어 연어 대조 데이터베이스 구축

    7개어 연어 대조 데이터베이스는 이상과 같이 구축된 한국어 연어 5000개에서 출발하여 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어의 대응표현을 찾아 상세히 기술하는 방식으로 구성된다.
    연어는 두 어휘들 간의 제한적 결합관계이므로, 언어 간의 연어 대응관계는 다양하고 복잡한 양상을 지닌다.

    - 연어 vs 연어
    - 연어 vs 자유결합
    - 연어 vs 하나의 어휘요소
    - 연어 vs 대응표현 없음
    - 연어 vs 관용표현

    특히, 계통적으로 서로 다른 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어, 한국어 사이에는 상기 대응 관계 유형이 더욱 복잡하게 나타난다. 예를 들어, 한국어 연어를 중심으로 살펴보면, 한국어에서는 NV형 연어로 분석되는 ‘소리를 지르다’는 6개 외국어에서 다양한 유형의 대응표현으로 나타난다. (예1 참조)

    예1) 소리를 지르다(한국어)
    schreien (V+N형 허용 안함)(독일어)
    кр
  • 한글키워드
  • 의미부류,원시언어,언어 유형론,연어핵,스페인어,러시아어,독일어,대조 언어학,연어,오류분석,언어 교육,연어변,단일방향성,기술 모형,어휘함수,의미-텍스트 이론,코퍼스 언어학,기계 번역,자연언어처리,프랑스어,이태리어,영어,목표언어
결과보고시 연구요약문
  • 국문
  • 본 연구 과제에서는 한국어 연어에 대한 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어 등 6개 언어의 연어 대응표현을 기술하고 이를 기반으로 한 데이터베이스를 구축하여 유형론적 관점의 체계적인 대조 연구를 수행하였다.
    본 연구에서는 연어 판별의 기준으로 ‘연어핵의 투명성’, ‘연어핵과 연어변의 공기성’, ‘결합 제약’ 등과 같은 엄밀한 이론 언어학적 기준을 설정하였다. 그러나 이와 함께 코퍼스 기반 접근법을 적극적으로 활용함으로써 이론언어학적 관점이 가질 수 있는 한계를 보완하였다.
    우선 한국어에서 다양한 의미유형을 보여줄 수 있는 전형적인 명사 1,000개를 선정하여 이를 핵으로 하는 NV, AN/NA, NN, NP 유형의 연어 항목 약 5,000개를 설정하였다. 이후 한국어를 출발어로 하여 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어의 대응표현을 찾아 상세히 기술하였으며, 각 언어 연어들간의 대조 연구에 필수적인 특성들을 철저히 반영하는 기술모형을 구축하였고, 7개 언어의 연어 및 연어 대응표현의 대조 데이터베이스 완성하였다.
    다국어 연어 대조 데이터 베이스에서는 연어핵의 다의 구분, 연어핵과 연어변의 형태, 의미, 통사적 정보 등을 포함하며, 연어의 통사적 유형, 어휘 함수, 문형 정보 등을 포함한다. 또한 본 연구팀은 다국어 연어 대조 기술 작업의 효율성을 위하여 DB 검색기 및 작업 보조 도구 등도 개발하였다. 이러한 데이터베이스를 바탕으로 한국어 연어에 대한 6개 목표어의 연어 대응 표현에 대한 대조 연구를 실행하였으며, 이를 통하여 이론 언어학 및 응용 언어학에서 의미있는 연구 결과를 도출하도록 하였다.
    연어 연구의 결과는 이론 언어학적 관점 뿐 아니라 언어 교육, 전산 언어학 등과 같은 응용 언어학 분야에서 그 활용가능성과 기대효과를 가질 수 있다.
  • 영문
  • The Multilingual Collocation Research Project conducted constrastive studies on collocations, building the database storing the information of Korean collocations and their equivalents in these six languages English, French, German, Italian, Russian and Spanish.
    First, we defined collocations from the language-theoretical standpoint and applied some standards such as 'transparency of collocational heads', 'coocurrence of collocational heads and collocates' and 'restriction of combinability' in judging what lexical combinations are collocations. Those lexical combinations were, however, extracted from the Sejong corpus in terms of coocurrence frequency. We chose the 1000 typical nouns which are to show diverse semantic types in Korean. On the basis of those nouns, we extracted the lexical combinations from the corpus and picked up the 5000 combinations coming up to the above standards.
    Then, we set up the database structure providing many information tags which were argued to be essential to our contrastive studies on collocations. And we wrote down in the database diverse information of the 5000 Korean collocations and those six language equivalents, for example the meaning of the collocations, forms of their heads and collocates, their syntactic structure, lexical functions, etc. Besides, we developed DB retrieval tools to make it easy to get the information from the database for our contrastive studies.
    Our collocation database and contrastive studies are believed to be very useful material in the applied linguistics like language teaching, translation or lexicology as well as in the theoretical linguistics.
연구결과보고서
  • 초록
  • 본 연구 과제는 한국어를 포함하여 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어 등 7개 언어의 연어대조 연구로, 한국어를 출발어로 하여 6개 외국어의 연어 대응표현을 기술하고 이를 기반으로 한 데이터베이스를 구축하여 유형론적 관점의 체계적인 대조 연구를 수행하였다.
    본 연구의 대상인 연어를 선별하기 위하여 ‘연어핵의 투명성’, ‘연어핵과 연어변의 공기성’, ‘결합 제약’ 등과 같은 이론 언어학적 엄격한 기준을 설정하여 적용하였으며, 이와 함께 코퍼스 기반 접근법을 적극적으로 활용함으로써 이론언어학적 관점이 가질 수 있는 한계를 보완하였다. 우선 한국어에서 다양한 의미유형을 보여줄 수 있는 전형적인 명사 1,000개를 선정하여 이를 핵으로 하는 NV, AN/NA, NN, NP 유형의 연어 항목 약 5,000개를 설정하였다. 이후 한국어를 출발어로 하여 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어의 대응표현을 찾아 상세히 기술하였으며, 각 언어 연어들간의 대조 연구에 필수적인 특성들을 철저히 반영하는 기술모형을 구축하였고, 7개 언어의 연어 및 연어 대응표현의 대조 데이터베이스 완성하였다.
    다국어 연어 대조 데이터베이스에서는 연어핵의 다의 구분, 연어핵과 연어변의 형태, 의미, 통사적 정보 및 결합 정보 등을 포함하며, 연어의 통사적 유형, 어휘 함수, 문형 정보 등을 포함한다. 이와 함께 본 연구팀은 다국어 연어 대조 기술 작업의 효율성을 위하여 DB 검색기 및 작업 보조 도구 등도 개발하였다. 이러한 데이터베이스를 바탕으로 한국어 연어에 대한 6개 목표어의 연어 대응 표현에 대한 대조 연구를 실행하였으며, 이를 통하여 이론 언어학 및 응용 언어학에서 의미 있는 연구 결과를 도출하도록 하였다.
    연어 연구의 결과는 이론 언어학적 관점 뿐 아니라 언어 교육, 전산 언어학 등과 같은 응용 언어학 분야에서 그 활용가능성과 기대효과를 가질 수 있다.
  • 연구결과 및 활용방안
  • 연어 연구의 결과는 이론 언어학적 관점 뿐 아니라 응용 언어학 분야에서 효용성이 크다. 첫째로는 언어학적 관점에서 보면, 연어핵과 연어변의 결합으로 분석되는 연어 정보는 어휘학이나 사전편찬학 분야에서 보다 직접적으로 활용될 수 있다. 다의적 속성을 지니는 단어의 경우, 연어변으로 출현하는 어휘들의 부류에 따라 다양한 의의를 보다 객관적으로 분류할 수 있다. 또한 연어변으로 출현하는 각각 부류들 차이를 보여줌으로써 동의어들 간의 미세한 차이를 보다 자세히 기술해줄 수 있다. 이러한 어휘론적 연어 연 구를 기반으로 보다 풍부하고 신뢰할만한 정보를 갖는 사전을 얻을 수 있다. 본 연구는 한국어의 연어 정보 뿐만 아니라 이에 대응하는 6개 언어자료의 구축을 포함한다. 이러한 대응자료의 구축은 한국어와 개별 외국어간, 또는 로만스어(이태리어, 프랑스어, 스페인어), 게르만어(영어, 독일어) 그리고 슬라브어(러시아어) 간의 대조 연구에 이용될 수 있다. 둘째, 언어교육적 관점에서 보면, 한국어와 다국어 간의 연어정보 구축자료는 한국인을 대상으로 한, 그리고 외국인을 대상으로 한 한국어교육 분야에서 보다 효율적으로 이용될 수 있다. 언어 습득 시에 발생하는 학습자의 오류 중 연어 관계가 잘못된 연어 오류(Collocation errors)는 초급 단계의 학습자 뿐 아니라 학습하는 어휘의 량이 늘어나고 고급 어휘를 다루게 되는 중급 이상의 학습자에게도 다수 발견된다. 이러한 오류는 한국어 화자의 외국어 학습 시에도 흔히 나타나는 유형으로 따라서 본 연구에서 구축된 연어 대조 기술 정보는 한국인의 외국어 교육에 있어서 작문, 해석, 회화 부분에서 다양하게 교육 자료로 활용되어 고급 수준의 언어 능력 구사를 습득하는데 유용한 학습 자료를 제공하여 줄 수 있다. 셋째, 자연언어처리의 관점으로 보면, 연어 정보를 이용한 중의성 해소를 통해, 여러 자료들로부터의 특정한 정보를 사용자의 요구에 맞게 검색하거나 추출하는 정보검색(Information retrieval), 정보추출(Information extraction) 분야에 이용할 수 있다. 또한 본 연구에서 구축한 연어 데이터베이스는 기계번역의 여러 단계에서 직접 이용될 수 있다. 출발언어의 분석단계(parsing)에서 보면, 연어 정보에 의한 문장 분석은 보다 높은 정확률을 가져다 줄 수 있고, 한국어-다국어 데이터베이스를 일종의 변환사전으로 활용하면 정확한 대응표현을 선별할 수 있다. 그리고 생성단계 (generation)에 있어서도 구축된 목표언어의 연어 정보를 이용하면 일대일 대응 번역에서 오는 어색한 번역 문장이 생성되지 않고 보다 자연스런 문장을 산출해낼 수 있어서 고품질의 번역결과를 얻을 수 있다. 본 ‘다국어 연어 대조 연구’는 한국어-다국어 기계 번역 시스템의 개발을 촉진 시킬 뿐 아니라, 사전 구축에 드는 시간과 인력, 비용 등을 절감하게 하고 연어 테이터베이스의 이용을 용이하게 하여 기계 번역 개발에 관심이 있는 어떠한 엔진 개발자라도 자신의 번역 시스템 툴을 연구, 실험할 수 있는 길을 열어줌으로써 한국어에 대한 다국어의 보다 우수한 번역을 사용자에게 제공하게 될 것이다.
  • 색인어
  • 연어, 다국어 연어, 한국어, 독일어, 러시아어, 스페인어, 영어, 이태리어, 프랑스어, 연어대조, 연어핵, 연어변, 어휘함수, 연어 데이터베이스
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력