Search
Search

연구성과물 검색 타이틀 이미지

HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011614&local_id=10013858
언어모델 기반 XML 검색 시스템 개발 및 성능 평가
Reports NRF is supported by Research Projects( 언어모델 기반 XML 검색 시스템 개발 및 성능 평가 | 2005 Year 신청요강 다운로드 PDF다운로드 | 정영미(경북대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
사업별 신청요강보기
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number H00005
Year(selected) 2005 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2007년 05월 08일
Year type 결과보고
Year(final report) 2007년
Research result report
  • Abstract
  • 이 연구는 최근 새로운 정보검색 모델로 가능성을 인정받고 있는 언어모델링을 XML 문서 검색에 적용하여leaf node 언어모델 기반 XML 검색 시스템을 설계 구현하여 그 성능을 평가하였다.
    이 연구는 객관적이고 상대적인 평가를 위해 전 세계적인 규모의 INEX 2005 ad-hoc 트랙에 공식적으로 참여하였다. 이 실험에서 사용한 INEX 2005의 문헌집합은 IEEE Computer Society의 1995-2004년간 출판물에 포함된 총 16,819 개의 복잡한 XML 구조를 지닌 논문기사로 구성되었고, 질의 집합은 40개의 CO+S(Content Only and Structure hints) 토픽과 47개의 CAS (Content and Structure) 토픽으로 구성되었다. 실험은 개발한 Leaf Node 언어모델 기반의 XML 검색시스템의 성능 평가를 위해 총 5개의 테스크(CO.Thorough_Title, CO.Thorough_Description, COS.Thorough. SVCAS, 그리고 VVCAS)를 수행하였고 이 실험을 통해 생성된 검색결과들은 INEX 2005에 제출되어 망라성과 특정성의 두 가지 측면에서 적합성을 평가하여 공식적인 수량화 함수(ep/gr, nxCG[r])들을 통해 검색시스템의 성능을 계산하였다. 특히 순위화된 검색 결과들은 가중치를 부여하기 위해 nxCG[r] 함수를 사용하여 계산하였다.
    이 연구를 통해 나타난 결과는 첫째, 실험 전반에서 leaf node 언어모델링 기반 XML 검색시스템은 총 5개의 결과세트 중 CO+S 토픽의 <title> 부분을 이용하여 질의를 생성한 CO.Thorough_Title이 모든 측면의 성능평가에서 가장 성능이 우수한 것으로 나타났고, 그 다음이 <description>으로 생성된 질의를 사용한 CO.Thorough_Description 성능으로 나타났다. 그러나 XML 문서의 내용만을 대상으로 한 검색 결과들과는 달리 내용과 구조적인 정보를 모두 포함된 CAS 토픽의 SVCAS와 VVCAS는 전반적으로 낮은 성능을 보였다. 둘째, 검색 질의에 포함된 단어들의 수가 leaf node 언어모델링 기반 XML 검색 시스템의 검색 성능에 어떤 영향을 미치는 지에 대하여 실험한 결과, 전반적으로 질의에 포함된 단어들의 수가 적은 것이 모든 함수에서 더 성능이 우수한 것으로 나타났다. 셋째, XML의 CO 검색에서 구조적인 힌트가 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향을 미치는 지를 살펴본 결과, 특정적인 정보요구가 있지 않는 한 전반적으로 검색성능에 영향이 미치지 못하는 것으로 나타났다. 하지만 구조적인 힌트를 포함한 검색 결과 중 nxCG[25]과 nxCG[50]의 값이 주목할 만한 성능을 보였고, 이것은 XML 검색에서 정보검색 요구가 상당히 특정적일 때에는 구조적인 힌트가 유용하다는 것을 보여준다. 넷째, CAS 검색에서 구조적인 제한에 대한 해석(엄격 또는 모호)에 따라 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향이 있는지를 살펴보기 위해 표적 엘레먼트(target element)의 구조적인 제한을 엄격하게 해석한 SVCAS와 모호하게 해석한 VVCAS의 성능을 비교해 보았다. 그 결과 구조적인 제한의 해석차이는 검색 성능에 큰 영향을 미치지 못하는 것으로 나타났다. 이런 절대적인 평가와 더불어, 이 연구는 INEX 2005의 대규모 테스트 컬렉션을 사용함으로써 INEX 2005 참여팀의 검색모델들과 leaf node 언어모델 기반 XML 검색 시스템의 상대적인 성능 평가도 수행하였다. 그 결과 leaf node 언어모델은 내용과 구조적인 제한을 포함하고 있는 CAS 검색보다는 내용만을 제한으로 두는 CO 검색이 더 성능이 좋은 것으로 나타났다. 이것은 leaf node 언어모델링이 XML 검색의 구조적인 질의를 처리할 수는 있으나 우수한 성능을 보여주지는 못했음을 알 수 있고, 비 구조화된 검색에서와 같이 구조적인 검색에서 언어모델링이 좋은 검색 메카니즘이 되기 위해서는 앞으로의 더 많은 연구들이 필요하다.
  • Research result and Utilization method
  • 언어모델을 적용한 XML 검색시스템 평가를 통해 나타난 결과를 요약해 보면 다음과 같다.
    첫째, 실험 전반에서 leaf node 언어모델링 기반 XML 검색시스템은 총 5개의 결과세트 중 CO+S 토픽의 <title> 부분을 이용하여 질의를 생성한 CO.Thorough_Title이 모든 측면의 성능평가에서 가장 성능이 우수한 것으로 나타났고, 그 다음이 <description>으로 생성된 질의를 사용한 CO.Thorough_Description 성능으로 나타났다. 그러나 XML 문서의 내용만을 대상으로 한 검색 결과들과는 달리 내용과 구조적인 정보를 모두 포함된 CAS 토픽의 SVCAS와 VVCAS는 전반적으로 낮은 성능을 보였다.
    둘째, 검색 질의에 포함된 단어들의 수가 leaf node 언어모델링 기반 XML 검색 시스템의 검색 성능에 어떤 영향을 미치는 지에 대하여 실험한 결과, 전반적으로 질의에 포함된 단어들의 수가 적은 것이 모든 함수에서 더 성능이 우수한 것으로 나타났다.
    셋째, XML의 CO 검색에서 구조적인 힌트가 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향을 미치는 지를 살펴본 결과, 특정적인 정보요구가 있지 않는 한 전반적으로 검색성능에 영향이 미치지 못하는 것으로 나타났다. 하지만 구조적인 힌트를 포함한 검색 결과 중 nxCG[25]과 nxCG[50]의 값이 주목할 만한 성능을 보였고, 이것은 XML 검색에서 정보검색 요구가 상당히 특정적일 때에는 구조적인 힌트가 유용하다는 것을 보여준다.
    넷째, CAS 검색에서 구조적인 제한에 대한 해석(엄격 또는 모호)에 따라 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향이 있는지를 살펴보기 위해 표적 엘레먼트(target element)의 구조적인 제한을 엄격하게 해석한 SVCAS와 모호하게 해석한 VVCAS의 성능을 비교해 보았다. 그 결과 구조적인 제한의 해석차이는 검색 성능에 큰 영향을 미치지 못하는 것으로 나타났다.
    이런 절대적인 평가와 더불어, 이 연구는 INEX 2005의 대규모 테스트 컬렉션을 사용함으로써 INEX 2005 참여팀의 검색모델들과 leaf node 언어모델 기반 XML 검색 시스템의 상대적인 성능 평가도 수행하였다. 그 결과 leaf node 언어모델은 내용과 구조적인 제한을 포함하고 있는 CAS 검색보다는 내용만을 제한으로 두는 CO 검색이 더 성능이 좋은 것으로 나타났다.
    이것은 leaf node 언어모델링이 XML 검색의 구조적인 질의를 처리할 수는 있으나 우수한 성능을 보여주지는 못했음을 알 수 있고, 비 구조화된 검색에서와 같이 구조적인 검색에서 언어모델링이 좋은 검색 메카니즘이 되기 위해서는 앞으로의 더 많은 연구들이 필요하다.
  • Index terms
  • 언어모델, language model, 언어모델링 정보검색, LMIR, language modeling information retrieval, XML 검색, XML retrieval, 구조화된 검색, structured retrieval, 단말노드 언어모델, leaf node language model
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력
트위터 페이스북
NRF Daejeon
(34113) 201, Gajeong-ro, Yuseong-gu, Daejeon, Korea
Tel: 82-42-869-6114 / Fax: 82-42-869-6777
NRF Seoul
(06792) 25, Heonreung-ro, Seocho-gu, Seoul, Korea
Tel: 82-2-3460-5500 / Fax: 82-2-3460-5759
KRM Help Center
Tel : 042-710-4360
E-mail : krmcenter@nrf.re.kr / Fax : 042-861-4380