보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10072119&local_id=10086268

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10072119&local_id=10086268

기계학습을 통한 국내 학술지 논문의 자동분류에 관한 연구

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 기계학습을 통한 국내 학술지 논문의 자동분류에 관한 연구 | 2016 년 신청요강 다운로드

| 김판준(신라대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	2016S1A5A2A01021902
선정년도	2016 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2017년 11월 06일
연차구분	결과보고
결과보고년도	2017년

결과보고시 연구요약문

국문
국내 학술활동의 흐름과 동향을 실질적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 미래의 연구 방향을 설정할 수 있는 기초 데이터로서 학술지 논문의 분류정보를 제공할 수 있는 효율적인 방안을 제시하였다. 기계학습에 기초한 자동분류의 성능에 영 ...

국내 학술활동의 흐름과 동향을 실질적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 미래의 연구 방향을 설정할 수 있는 기초 데이터로서 학술지 논문의 분류정보를 제공할 수 있는 효율적인 방안을 제시하였다. 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 실험을 수행하고, 그 결과를 분석하여 국내 학술지 논문의 자동분류를 위한 최적의 분류 모형을 제안하였다. 실제 수작업 분류 작업의 환경과 결과를 고려하면, 국내 학술지 논문의 자동분류는 복수범주 분류 방법을 적용하는 것이 보다 합리적이며 실제적인 접근이다. 따라서 복수범주 분류 환경에서 국내 학술지 논문의 자동분류를 위한 최적의 모형은 조합 가중치부여 방법(ltfidf)과 8년의 학습집합, 로치오 분류기(baseline_긍정)를 사용하는 것이다. 특히, 로치오 분류기(baseline_긍정)는 동일한 조건에서 유사한 성능을 보이지만 컴퓨터 자원을 많이 사용하는 지지벡터기계(SVM)나 낮은 성능을 보이는 나이브 베이즈(NB)보다 단순하고 강력한 분류 알고리즘인 것으로 나타났다.

영문
This paper suggests an effective method to provide classification information of academic journals as basic data that can establish systematic support and evaluation of R & D activities and to set future research direction by practically understanding ...

This paper suggests an effective method to provide classification information of academic journals as basic data that can establish systematic support and evaluation of R & D activities and to set future research direction by practically understanding the status and trends of domestic academic activities. Experiments on the main factors affecting the performance of automatic classification based on machine learning were conducted and the results were analyzed to propose an optimal classification model for automatic classification of domestic journals. Considering the environment and results of the actual manual classification work, it is a more reasonable and practical approach to apply the multiple category classification method for automatic classification of domestic journals. Therefore, the optimal model for automatic classification of domestic journals in the multiple category classification environment is to use the combination weighting method (ltfidf), the 8 year learning set, and the rocchio classifier (baseline_positive). In particular, the robust rocchio classifier (baseline_positive) appears to be a simpler and more powerful classification algorithm than the support vector machine (SVM) or the low performance Naive Bayes(NB).

연구결과보고서

초록
본 연구의 목적은 국내 학술활동의 흐름과 동향을 실질적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 미래의 연구 방향을 설정할 수 있는 기초 데이터로서 학술지 논문의 분류정보를 제공할 수 있는 효율적인 방안을 마련하는 것이다. 따라서 본 연구는 ...

본 연구의 목적은 국내 학술활동의 흐름과 동향을 실질적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 미래의 연구 방향을 설정할 수 있는 기초 데이터로서 학술지 논문의 분류정보를 제공할 수 있는 효율적인 방안을 마련하는 것이다. 따라서 본 연구는 기계학습에 기초한 자동분류 기법을 활용하여 한국연구재단의 「학술연구분야 분류표」상의 분류 범주(소분류명/세분류명)를 국내 학술지 논문에 자동으로 할당하는 효율적인 방안을 제시하고자 하였다. 이를 위해 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 실험을 수행하고, 그 결과를 분석하여 국내 학술지 논문의 자동분류를 위한 최적의 분류 모형을 제안하였다.

연구결과 및 활용방안
국내 학술지 논문의 자동분류를 위한 최적의 분류모형을 개발하기 위하여 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 가설을 설정하여 실험을 수행하였다. 실제 수작업 분류 작업의 환경과 결과를 고려하였을 때,국내 학술지 논문의 자동분 ...

국내 학술지 논문의 자동분류를 위한 최적의 분류모형을 개발하기 위하여 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 가설을 설정하여 실험을 수행하였다. 실제 수작업 분류 작업의 환경과 결과를 고려하였을 때,국내 학술지 논문의 자동분류는 복수범주 분류 방법을 적용하는 것이 보다 합리적이며 실제적인 접근이라 판단된다. 이에 따라 복수범주 분류 환경에서 국내 학술지 논문의 자동분류를 위한 최적의 모형은 조합 가중치부여 방법(ltfidf)과 8년의 학습집합, 로치오 분류기를 사용하는 것이다. 특히, 로치오 분류기(baseline_긍정)는 동일한 조건에서 유사한 성능을 보이지만 컴퓨터 자원을 많이 사용하는 지지벡터기계(SVM)나 낮은 성능을 보이는 나이브 베이즈(NB)보다 단순하고 강력한 분류 알고리즘인 것으로 나타났다.
국내 학술지 논문의 자동분류를 위한 최적 분류모형의 개발에 대한 연구결과를 다음과 같이 활용할 수 있다.
첫째, 국내 학술지 논문의 자동분류를 위한 학습집합 구축에 필요한 시간과 노력의 경감. 지금까지 출판된 모든 학술지 논문을 한꺼번에 수작업 분류할 필요가 없이, 학문분야별로 최적의 분류 성능을 산출할 수 있는 적정한 규모의 학습집합을 경제적으로 구축할 수 있다. 둘째, 국내 학술지 논문의 자동분류를 위한 컴퓨터 자원의 경제적 운영. 본 연구에서 도출한 최적 분류 모형은 단순하면서 강력한 로치오 분류기(baseline_긍정)를 사용하여 성능이 우수하지만 컴퓨터 자원을 적게 필요로 한다(mac_F1: 0.8224, mic_F1: 0.8008). 따라서 막대한 예산을 투입하지 않고도 효율적인 자동분류 시스템의 개발이 가능하다. 셋째, 초기에 적절한 규모의 학습집합 생성에 필요한 최소한의 시간과 노력으로 고품질의 분류작업을 수행할 수 있다. 즉, 최근의 논문들부터 단계적으로 분류작업을 수행한 결과를 학습하여 새로 입력되는 논문의 분류작업에 사용하고, 그 결과에 대한 평가 및 개선을 반복하는 것이다. 이에 따라 단계별로 최소한의 시간과 인력을 투입하여 기존의 미분류 논문에 대한 소급 분류는 물론 이후 새롭게 입력되는 논문에 대한 효율적인 분류작업이 가능하다. 넷째, 최적화된 분류모형에 기초한 자동분류시스템을 개발 및 적용하여 시간적 제약과 전문 인력, 예산상의 부족이라는 기존 분류작업의 근본적인 한계에 효과적으로 대처할 수 있다.

색인어
자동분류, 학술지 논문, 기계학습, 분류 모형, 용어 가중치부여 방법, 분류기, 단수범주 분류, 복수범주 분류

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 복합학 > 문헌정보학 > 정보검색 > 자동분류/클러스터링

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.