본 연구는 영어영문학 분야의 디지털 인문학(Digital Humanities) 연구로서 19세기 영국의 정기간행물인 『런던』(London: A Conservative Weekly, 1877-79)을 대상으로 a) 이 비평주간지가 생산했던 담론의 성격을 문학 비평 영역에 초점을 두어 양적으로 분석하고 b) ...
본 연구는 영어영문학 분야의 디지털 인문학(Digital Humanities) 연구로서 19세기 영국의 정기간행물인 『런던』(London: A Conservative Weekly, 1877-79)을 대상으로 a) 이 비평주간지가 생산했던 담론의 성격을 문학 비평 영역에 초점을 두어 양적으로 분석하고 b) 이를 연구책임자가 기존에 수행했던 질적 연구와 비교하는 과정에서 양적 분석 방법론을 평가하여 양적 분석의 의의를 살피는 동시에 새롭게 필요한 방법론의 방향을 제시하는 것을 목적으로 한다. 이를 통해 빅 데이터와 대조되게 꼼꼼히 읽기(close reading)에 바탕을 두는, 질적 분석이 가능한 범위의 텍스트를 대상으로 하는 “스몰 데이터”의 개념을 정립하고, 확장성을 전제로 하는 데이터 기반 연구에서 그 효용을 드러내는 것 또한 연구의 목적으로 한다.
본 연구는 연구 기간 대부분을 데이터 셋 확립에 사용하고 이후 집중적으로 데이터 분석에 들어가는 방법론적 특징이 있다. 이에 따라 1년차에는 연구 보조원을 활용하여 분석 대상인 『런던』의 텍스트를 촬영한 이미지 파일을 OCR로 텍스트로 전환하는 과정을 거쳤다. 그리고 전환된 텍스트에 오류가 없도록 이를 검수하면서 "꼼꼼히 읽기"를 진행하는 한편으로 디지털 인문학 방법론에 대한 연구, 분석용 프로그램을 직접 코딩/수정할 수 있는 언어인 파이썬 학습 및 데이터 분석(텍스트 마이닝)을 위한 툴 활용 학습을 수행했다. 2년차에는 이러한 방법론적 연구를 지속적으로 수행하는 한편, 연구 보조원을 활용하여 1년차에 만들어진 텍스트를, 분석을 위한 범주 설정 후 이에 맞춰 엑셀화 하는 작업을 수행했다. 이후 연장된 기간인 3년차 (6개월 연장)에 들어서 엑셀화된 자료를 데이터 분석 전문가로부터 검수를 받아 오류를 수정하고 사용 가능한 "스몰 데이터" 데이터 셋으로 완성하였다. 공식 연구 기간을 마친 후 현재까지 구글스프레드싯, NLTK, DMS, Doc2Vec 등 통계 툴과 기계학습 알고리즘을 사용하여 데이터 분석을 진행 중이다. 분석에는 기초 통계 비교, 형태소 분석, 토픽 모델링, 문서 벡터화 방법론을 적용한다.
분석 결과는 잠정적으로 다음과 같은 내용을 포함한다. 1) "Mudie's" 타이틀 하의 서평 (대중 독서 시장 비평)과 기획 비평란에서 각각 출현하는 모든 형태소 (단어 + 문장기호)의 절대 빈도 및 상대 빈도 비교를 통한 핵심 어휘를 판별한 결과, 한 예로 "Mudie's"에는 작가를 나타내는 말로 writers로 복수가, 기획 비평에는 writer라는 단수가 더 다수 출현한다. 이는 사소한 차이가 아니라 『런던』이 대중 독서 시장용 저서의 저자를 하나의 경향성을 가진 집단으로 치는 경향이 있음을 드러내는 중요한 차이다. 이렇게 발견된 사실에 대한 해석은『런던』과 19세기 정기간행물 및 문학 문화에 대한 질적 이해를 통해서만 가능했지만, 한편으로 이 사실 자체는 예상했던 내용을 훌쩍 넘어서는 새로운 발견이다. 양적 접근을 통하지 않았다면 쉽게 생각지 못했을 『런던』의 이중적 비평 담론 실천의 언어적 증거를 구체적으로 찾게 된 것이다. 이는 질적 연구와의 상호 검증이 가능한 “스몰 데이터” 연구의 의의를 고스란히 보여준다.
2) LDA는 기계학습에 기반해서 데이터 전체에서 다루어진 주요 토픽을 핵심 어휘 클러스터를 통해 드러내준다. 이를 활용한 토픽 모델링 및 문서 벡터화를 통한 비평문들의 의미 양상을 분석한 결과, "Mudie's" 비평과 본격 비평란의 차이가 가시적으로 드러났다. 가령 『런던』의 본격 비평란의 데이터 전체를 7개의 군으로 분류하면 1)군으로 writer, man, james, novel이 들어간 클러스터가 나타난다. 이는 writers, lady, Chapman and Hall 등이 하나의 클러스터로 나타난 "Mudie's"와는 구별되는 결과로, 미국 소설로 정의되는 James 소설의 비판적 수용과 함께 『런던』이 새로운 “남성적” 소설이 나아갈 바를 정의했다는 본 연구자의 작가 중심 선행 연구 결과에 해당되는 내용을 한눈에 드러내 주었다. 이는 예상치 못한 놀라운 결과였다. 한편, Doc2Vec을 활용하면 각 문서가 지니는 의미 형태의 평균치를 찾아냄으로써 유사한 문서 형태의 가짓수와 각 형태의 비중을 파악할 수 있다. “Mudie's” 항목에 해당하는 문서들은 특히 한 가지 의미 형태가 압도적으로 다수로 드러났는데, 이는 대중서 서평 항목이 거의 기계적인 규칙에 따라 쓰였다는 증거가 된다. 꼼꼼한 읽기 과정에서 두드러지게 분별되는 어떤 “경향성”이 주관적 판단에 의한 것이 아니라는 사실을 이렇게 통계적인 분석을 통해 교차 검증할 수 있는 것이다. 이또한 교차 검증 가능한 “스몰 데이터”가 담론에 대한 빅데이터 연구의 신뢰도를 고무하는 시금석이 될 수 있음을 바로 증명하는, 예상을 뛰어넘는 놀라운 결과라고 할 수 있다.