Search
Search

연구성과물 검색 타이틀 이미지

HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10072119&local_id=10086268
기계학습을 통한 국내 학술지 논문의 자동분류에 관한 연구
Reports NRF is supported by Research Projects( 기계학습을 통한 국내 학술지 논문의 자동분류에 관한 연구 | 2016 Year 신청요강 다운로드 PDF다운로드 | 김판준(신라대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
사업별 신청요강보기
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number 2016S1A5A2A01021902
Year(selected) 2016 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2017년 11월 06일
Year type 결과보고
Year(final report) 2017년
Research Summary
  • Korean
  • 국내 학술활동의 흐름과 동향을 실질적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 미래의 연구 방향을 설정할 수 있는 기초 데이터로서 학술지 논문의 분류정보를 제공할 수 있는 효율적인 방안을 제시하였다. 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 실험을 수행하고, 그 결과를 분석하여 국내 학술지 논문의 자동분류를 위한 최적의 분류 모형을 제안하였다. 실제 수작업 분류 작업의 환경과 결과를 고려하면, 국내 학술지 논문의 자동분류는 복수범주 분류 방법을 적용하는 것이 보다 합리적이며 실제적인 접근이다. 따라서 복수범주 분류 환경에서 국내 학술지 논문의 자동분류를 위한 최적의 모형은 조합 가중치부여 방법(ltfidf)과 8년의 학습집합, 로치오 분류기(baseline_긍정)를 사용하는 것이다. 특히, 로치오 분류기(baseline_긍정)는 동일한 조건에서 유사한 성능을 보이지만 컴퓨터 자원을 많이 사용하는 지지벡터기계(SVM)나 낮은 성능을 보이는 나이브 베이즈(NB)보다 단순하고 강력한 분류 알고리즘인 것으로 나타났다.
  • English
  • This paper suggests an effective method to provide classification information of academic journals as basic data that can establish systematic support and evaluation of R & D activities and to set future research direction by practically understanding the status and trends of domestic academic activities. Experiments on the main factors affecting the performance of automatic classification based on machine learning were conducted and the results were analyzed to propose an optimal classification model for automatic classification of domestic journals. Considering the environment and results of the actual manual classification work, it is a more reasonable and practical approach to apply the multiple category classification method for automatic classification of domestic journals. Therefore, the optimal model for automatic classification of domestic journals in the multiple category classification environment is to use the combination weighting method (ltfidf), the 8 year learning set, and the rocchio classifier (baseline_positive). In particular, the robust rocchio classifier (baseline_positive) appears to be a simpler and more powerful classification algorithm than the support vector machine (SVM) or the low performance Naive Bayes(NB).
Research result report
  • Abstract
  • 본 연구의 목적은 국내 학술활동의 흐름과 동향을 실질적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 미래의 연구 방향을 설정할 수 있는 기초 데이터로서 학술지 논문의 분류정보를 제공할 수 있는 효율적인 방안을 마련하는 것이다. 따라서 본 연구는 기계학습에 기초한 자동분류 기법을 활용하여 한국연구재단의 「학술연구분야 분류표」상의 분류 범주(소분류명/세분류명)를 국내 학술지 논문에 자동으로 할당하는 효율적인 방안을 제시하고자 하였다. 이를 위해 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 실험을 수행하고, 그 결과를 분석하여 국내 학술지 논문의 자동분류를 위한 최적의 분류 모형을 제안하였다.
  • Research result and Utilization method
  • 국내 학술지 논문의 자동분류를 위한 최적의 분류모형을 개발하기 위하여 기계학습에 기초한 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 가설을 설정하여 실험을 수행하였다. 실제 수작업 분류 작업의 환경과 결과를 고려하였을 때,국내 학술지 논문의 자동분류는 복수범주 분류 방법을 적용하는 것이 보다 합리적이며 실제적인 접근이라 판단된다. 이에 따라 복수범주 분류 환경에서 국내 학술지 논문의 자동분류를 위한 최적의 모형은 조합 가중치부여 방법(ltfidf)과 8년의 학습집합, 로치오 분류기를 사용하는 것이다. 특히, 로치오 분류기(baseline_긍정)는 동일한 조건에서 유사한 성능을 보이지만 컴퓨터 자원을 많이 사용하는 지지벡터기계(SVM)나 낮은 성능을 보이는 나이브 베이즈(NB)보다 단순하고 강력한 분류 알고리즘인 것으로 나타났다.
    국내 학술지 논문의 자동분류를 위한 최적 분류모형의 개발에 대한 연구결과를 다음과 같이 활용할 수 있다.
    첫째, 국내 학술지 논문의 자동분류를 위한 학습집합 구축에 필요한 시간과 노력의 경감. 지금까지 출판된 모든 학술지 논문을 한꺼번에 수작업 분류할 필요가 없이, 학문분야별로 최적의 분류 성능을 산출할 수 있는 적정한 규모의 학습집합을 경제적으로 구축할 수 있다. 둘째, 국내 학술지 논문의 자동분류를 위한 컴퓨터 자원의 경제적 운영. 본 연구에서 도출한 최적 분류 모형은 단순하면서 강력한 로치오 분류기(baseline_긍정)를 사용하여 성능이 우수하지만 컴퓨터 자원을 적게 필요로 한다(mac_F1: 0.8224, mic_F1: 0.8008). 따라서 막대한 예산을 투입하지 않고도 효율적인 자동분류 시스템의 개발이 가능하다. 셋째, 초기에 적절한 규모의 학습집합 생성에 필요한 최소한의 시간과 노력으로 고품질의 분류작업을 수행할 수 있다. 즉, 최근의 논문들부터 단계적으로 분류작업을 수행한 결과를 학습하여 새로 입력되는 논문의 분류작업에 사용하고, 그 결과에 대한 평가 및 개선을 반복하는 것이다. 이에 따라 단계별로 최소한의 시간과 인력을 투입하여 기존의 미분류 논문에 대한 소급 분류는 물론 이후 새롭게 입력되는 논문에 대한 효율적인 분류작업이 가능하다. 넷째, 최적화된 분류모형에 기초한 자동분류시스템을 개발 및 적용하여 시간적 제약과 전문 인력, 예산상의 부족이라는 기존 분류작업의 근본적인 한계에 효과적으로 대처할 수 있다.
  • Index terms
  • 자동분류, 학술지 논문, 기계학습, 분류 모형, 용어 가중치부여 방법, 분류기, 단수범주 분류, 복수범주 분류
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력
트위터 페이스북
NRF Daejeon
(34113) 201, Gajeong-ro, Yuseong-gu, Daejeon, Korea
Tel: 82-42-869-6114 / Fax: 82-42-869-6777
NRF Seoul
(06792) 25, Heonreung-ro, Seocho-gu, Seoul, Korea
Tel: 82-2-3460-5500 / Fax: 82-2-3460-5759
KRM Help Center
Tel : 042-710-4360
E-mail : krmcenter@nrf.re.kr / Fax : 042-861-4380