본 연구의 내용및 방법은 연차별로 세 단계로 나누어 볼 수 있다. 1차년도에는 아동 어휘 데이터베이스에 관한 선행 연구를 검토하고 기존에 구축된 자료를 수집하여 분석하는 작업을 수행한다. 또 코퍼스 구축에 필요한 표준화 시안을 개발한다. 2차년도에는 표준화 시안 ...
본 연구의 내용및 방법은 연차별로 세 단계로 나누어 볼 수 있다. 1차년도에는 아동 어휘 데이터베이스에 관한 선행 연구를 검토하고 기존에 구축된 자료를 수집하여 분석하는 작업을 수행한다. 또 코퍼스 구축에 필요한 표준화 시안을 개발한다. 2차년도에는 표준화 시안에 따라 코퍼스 구축을 보완하고 아동 어휘 DB를 모형 수준에서 만드는 작업을 진행한다. 3차년도에는 어휘 DB의 구축을 완료하고 응용 프로그램을 개발하여 활용 방안을 모색한다.
가. 1년차: 문헌 연구와 선행 자료 수집
1) 문헌 연구
먼저 국내 학술지, 학위 논문, 단행본에서 학령기 아동의 어휘에 대한 연구를 분석하여 학령 전기 한국 아동의 어휘 목록을 수집한다. 그리고 기존에 구축된 아동 언어 코퍼스의 규모, 입력 프로토콜 및 자료의 특성 등을 분석한다.
2) 선행 자료 수집과 코퍼스 표준화 시안 개발
수집된 어휘 목록과 코퍼스 시스템을 분석하고 가장 효율적으로 어휘 자료의 입력과 출력을 할 수 있는 코퍼스 시스템을 개발한다. 코퍼스 시스템 개발 시 구어/ 문어, 빈도, 입력/출력, 품사, 의미 부류를 고려하도록 한다. 연구팀이 개발한 코퍼스 시스템의 타당도를 검증하기 위하여 focus group interview를 실시하고 결과를 시스템 개발에 반영하는 작업을 반복한다.
3) 어휘 자료 수집
어휘 자료는 입력 어휘 vs. 출력 어휘, 문어 vs. 구어에 따라 수집한다. 입력 어휘는 아동에게 제공되는 어휘이며, 출력 어휘는 아동이 산출하는 어휘를 의미한다. 출력어휘로서의 문어는 본 연구의 대상이 학령전기 아동이므로 제외된다.
ㄱ. 입력 어휘: 문어 자료
학령전기 아동을 대상으로 하는 동화책을 수집한다. 대상으로 하는 동화책은 출처(예: 창작동화, 전래동화, 번역동화 등) 및 장르(예:동화-상상, 동화-생활 등) 별로 균형을 맞추고 최근 5년간 많이 읽힌 도서 목록에서 100 권 이상을 선정한다.
ㄴ. 입력 어휘: 구어 자료(독백)
최근 5년 간의 유아 용 방송 프로그램 중 50개 자료(각 30분 기준)의 내용을 전사한다. 방송 프로그램의 선정은 장르별(예: 만화영화, 교육, 드라마 등)로 균형을 맞춘다.
ㄷ. 입/출력 어휘: 구어 자료(대화)
구어 자료의 입출력 어휘는 아동 본인의 말은 출력 어휘로, 대화 상대방인 유치원 교사와 부모의 말은 입력 어휘로 분류하여 전사한다. 아동의 출력 어휘의 자료 수집은 (1) 학령 전기 아동 80명을 대상으로, (2) 일주일 간격으로 3회, (3) 하루 중 깨어있는 시간 6시간 동안 녹음기를 착용하고 생활하도록 한다. 대상 아동 80명은 (1) 24~35개월 20명, 36~47개월 20명, 48~59개월 20명, 60~71개월 20명으로, (2) 성별이 1:1 되도록 하며, (3) 중산층 거주 지역에 거주하는 아동으로, (4) 표준화 언어검사에서 자신의 생활연령 범주에 속하는 아동으로 한다. 입력 어휘는 (1) 유치원 교사 20명, 어머니 20명을 대상으로, (2) 일주일 간격으로 3회, (3) 아동과 상호작용하는 2시간 동안 녹음기를 착용하고 녹음하도록 한다. 대상 성인은 대상 아동의 유치원 교사와 어머니 중 각각 24~47 개월 10명, 48~71개월 10명으로 총 40명이 되도록 한다.
나. 2년차: 코퍼스 및 어휘 데이터베이스 구축
1) 코퍼스 구축 및 정련
수집된 자료를 대상으로 코퍼스를 구축한다. 문어 자료는 세종 코퍼스의 표준화 방안을 참조하여 관련 정보를 태깅하여 입력하며 구어 녹음 자료는 디지털화하여 파일로 변환한다. 음성 자료는 wav파일로 변화하여 음성 분석을 위한 자료로 활용하고 녹화된 자료는 동영상 파일로 만들어 활용하도록 한다.
2) 코퍼스에서 어휘 데이터베이스에 필요한 정보 추출
이렇게 정련된 음성 코퍼스를 태깅하고 해당 언어 정보를 추출하기 위해서 글잡이, MonoConc for Windows Version 1.2, Extract_Tool 등의 코퍼스 분석 프로그램과 여러 기관에서 개발된 다양한 형태소 분석기, 구문 분석기를 활용한다. 어휘데이터베이스는 단어 단위를 넘어서 어휘적, 문법적 연어(collocation)나 은유 표현까지 포괄할 수 있도록 추출한다.
3) 모형 수준의 데이터베이스 설계
코퍼스에서 추출된 언어 자료를 바탕으로, 의사소통 장애 아동의 어휘 평가 및 교육에 적합한 어휘 DB를 모형 수준에서 설계하고 전문가 자문 회의 등의 검증과정을 거친다.
다. 3년차 : 어휘 DB 구축 및 구축된 DB 활용 방안 연구
1) 어휘 데이터베이스 구축
입력/출력, 대화 참여자, 화용 정보 등을 참조할 수 있는 어휘 DB를 구축한다. 또 아동학, 언어병리학, 일반 국어학적 연구에 이용될 수 있는 형태로 DB를 확장한다.
2) 활용 방안 연구
구축된 DB를 언어병리학, 한국어교육 분야 등에서 이용할 수 있는 형태로 정련하고 이를 활용하기 위한 프로그램도 모형 수준에서 개발한다.
3) 연구 평가 및 정리