보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011614&local_id=10013858

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10011614&local_id=10013858

언어모델 기반 XML 검색 시스템 개발 및 성능 평가

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 언어모델 기반 XML 검색 시스템 개발 및 성능 평가 | 2005 년 신청요강 다운로드

| 정영미(경북대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	H00005
선정년도	2005 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2007년 05월 08일
연차구분	결과보고
결과보고년도	2007년

연구결과보고서

초록
이 연구는 최근 새로운 정보검색 모델로 가능성을 인정받고 있는 언어모델링을 XML 문서 검색에 적용하여leaf node 언어모델 기반 XML 검색 시스템을 설계 구현하여 그 성능을 평가하였다.
이 연구는 객관적이고 상대적인 평가를 위해 전 세계적인 규모의 INEX 2005 a ...

이 연구는 최근 새로운 정보검색 모델로 가능성을 인정받고 있는 언어모델링을 XML 문서 검색에 적용하여leaf node 언어모델 기반 XML 검색 시스템을 설계 구현하여 그 성능을 평가하였다.
이 연구는 객관적이고 상대적인 평가를 위해 전 세계적인 규모의 INEX 2005 ad-hoc 트랙에 공식적으로 참여하였다. 이 실험에서 사용한 INEX 2005의 문헌집합은 IEEE Computer Society의 1995-2004년간 출판물에 포함된 총 16,819 개의 복잡한 XML 구조를 지닌 논문기사로 구성되었고, 질의 집합은 40개의 CO+S(Content Only and Structure hints) 토픽과 47개의 CAS (Content and Structure) 토픽으로 구성되었다. 실험은 개발한 Leaf Node 언어모델 기반의 XML 검색시스템의 성능 평가를 위해 총 5개의 테스크(CO.Thorough_Title, CO.Thorough_Description, COS.Thorough. SVCAS, 그리고 VVCAS)를 수행하였고 이 실험을 통해 생성된 검색결과들은 INEX 2005에 제출되어 망라성과 특정성의 두 가지 측면에서 적합성을 평가하여 공식적인 수량화 함수(ep/gr, nxCG[r])들을 통해 검색시스템의 성능을 계산하였다. 특히 순위화된 검색 결과들은 가중치를 부여하기 위해 nxCG[r] 함수를 사용하여 계산하였다.
이 연구를 통해 나타난 결과는 첫째, 실험 전반에서 leaf node 언어모델링 기반 XML 검색시스템은 총 5개의 결과세트 중 CO+S 토픽의 <title> 부분을 이용하여 질의를 생성한 CO.Thorough_Title이 모든 측면의 성능평가에서 가장 성능이 우수한 것으로 나타났고, 그 다음이 <description>으로 생성된 질의를 사용한 CO.Thorough_Description 성능으로 나타났다. 그러나 XML 문서의 내용만을 대상으로 한 검색 결과들과는 달리 내용과 구조적인 정보를 모두 포함된 CAS 토픽의 SVCAS와 VVCAS는 전반적으로 낮은 성능을 보였다. 둘째, 검색 질의에 포함된 단어들의 수가 leaf node 언어모델링 기반 XML 검색 시스템의 검색 성능에 어떤 영향을 미치는 지에 대하여 실험한 결과, 전반적으로 질의에 포함된 단어들의 수가 적은 것이 모든 함수에서 더 성능이 우수한 것으로 나타났다. 셋째, XML의 CO 검색에서 구조적인 힌트가 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향을 미치는 지를 살펴본 결과, 특정적인 정보요구가 있지 않는 한 전반적으로 검색성능에 영향이 미치지 못하는 것으로 나타났다. 하지만 구조적인 힌트를 포함한 검색 결과 중 nxCG[25]과 nxCG[50]의 값이 주목할 만한 성능을 보였고, 이것은 XML 검색에서 정보검색 요구가 상당히 특정적일 때에는 구조적인 힌트가 유용하다는 것을 보여준다. 넷째, CAS 검색에서 구조적인 제한에 대한 해석(엄격 또는 모호)에 따라 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향이 있는지를 살펴보기 위해 표적 엘레먼트(target element)의 구조적인 제한을 엄격하게 해석한 SVCAS와 모호하게 해석한 VVCAS의 성능을 비교해 보았다. 그 결과 구조적인 제한의 해석차이는 검색 성능에 큰 영향을 미치지 못하는 것으로 나타났다. 이런 절대적인 평가와 더불어, 이 연구는 INEX 2005의 대규모 테스트 컬렉션을 사용함으로써 INEX 2005 참여팀의 검색모델들과 leaf node 언어모델 기반 XML 검색 시스템의 상대적인 성능 평가도 수행하였다. 그 결과 leaf node 언어모델은 내용과 구조적인 제한을 포함하고 있는 CAS 검색보다는 내용만을 제한으로 두는 CO 검색이 더 성능이 좋은 것으로 나타났다. 이것은 leaf node 언어모델링이 XML 검색의 구조적인 질의를 처리할 수는 있으나 우수한 성능을 보여주지는 못했음을 알 수 있고, 비 구조화된 검색에서와 같이 구조적인 검색에서 언어모델링이 좋은 검색 메카니즘이 되기 위해서는 앞으로의 더 많은 연구들이 필요하다.

연구결과 및 활용방안
언어모델을 적용한 XML 검색시스템 평가를 통해 나타난 결과를 요약해 보면 다음과 같다.
첫째, 실험 전반에서 leaf node 언어모델링 기반 XML 검색시스템은 총 5개의 결과세트 중 CO+S 토픽의 <title> 부분을 이용하여 질의를 생성한 CO.Thorough_Title이 모든 측면의 ...

언어모델을 적용한 XML 검색시스템 평가를 통해 나타난 결과를 요약해 보면 다음과 같다.
첫째, 실험 전반에서 leaf node 언어모델링 기반 XML 검색시스템은 총 5개의 결과세트 중 CO+S 토픽의 <title> 부분을 이용하여 질의를 생성한 CO.Thorough_Title이 모든 측면의 성능평가에서 가장 성능이 우수한 것으로 나타났고, 그 다음이 <description>으로 생성된 질의를 사용한 CO.Thorough_Description 성능으로 나타났다. 그러나 XML 문서의 내용만을 대상으로 한 검색 결과들과는 달리 내용과 구조적인 정보를 모두 포함된 CAS 토픽의 SVCAS와 VVCAS는 전반적으로 낮은 성능을 보였다.
둘째, 검색 질의에 포함된 단어들의 수가 leaf node 언어모델링 기반 XML 검색 시스템의 검색 성능에 어떤 영향을 미치는 지에 대하여 실험한 결과, 전반적으로 질의에 포함된 단어들의 수가 적은 것이 모든 함수에서 더 성능이 우수한 것으로 나타났다.
셋째, XML의 CO 검색에서 구조적인 힌트가 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향을 미치는 지를 살펴본 결과, 특정적인 정보요구가 있지 않는 한 전반적으로 검색성능에 영향이 미치지 못하는 것으로 나타났다. 하지만 구조적인 힌트를 포함한 검색 결과 중 nxCG[25]과 nxCG[50]의 값이 주목할 만한 성능을 보였고, 이것은 XML 검색에서 정보검색 요구가 상당히 특정적일 때에는 구조적인 힌트가 유용하다는 것을 보여준다.
넷째, CAS 검색에서 구조적인 제한에 대한 해석(엄격 또는 모호)에 따라 leaf node 언어모델 기반 XML 검색 시스템의 성능에 어떤 영향이 있는지를 살펴보기 위해 표적 엘레먼트(target element)의 구조적인 제한을 엄격하게 해석한 SVCAS와 모호하게 해석한 VVCAS의 성능을 비교해 보았다. 그 결과 구조적인 제한의 해석차이는 검색 성능에 큰 영향을 미치지 못하는 것으로 나타났다.
이런 절대적인 평가와 더불어, 이 연구는 INEX 2005의 대규모 테스트 컬렉션을 사용함으로써 INEX 2005 참여팀의 검색모델들과 leaf node 언어모델 기반 XML 검색 시스템의 상대적인 성능 평가도 수행하였다. 그 결과 leaf node 언어모델은 내용과 구조적인 제한을 포함하고 있는 CAS 검색보다는 내용만을 제한으로 두는 CO 검색이 더 성능이 좋은 것으로 나타났다.
이것은 leaf node 언어모델링이 XML 검색의 구조적인 질의를 처리할 수는 있으나 우수한 성능을 보여주지는 못했음을 알 수 있고, 비 구조화된 검색에서와 같이 구조적인 검색에서 언어모델링이 좋은 검색 메카니즘이 되기 위해서는 앞으로의 더 많은 연구들이 필요하다.

색인어
언어모델, language model, 언어모델링 정보검색, LMIR, language modeling information retrieval, XML 검색, XML retrieval, 구조화된 검색, structured retrieval, 단말노드 언어모델, leaf node language model

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 복합학 > 문헌정보학 > 정보검색 > 검색모형/기법

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.