xml 을 기반으로 한 우리말 신학 시소러스 자동 구축 시스템 의 설계 및...

35
1 XML XML 을 을을을을 을 을 을을을을 을 을을을 을을 을을을을 을을 을을을 을을 을을을을 을을 을을 을을을 을을 을을을 을을 을 을을 을을 을 을을 을을을 : 을 을 을 을을 ( 을을 ) 2003. 8. 2 3

Upload: zazu

Post on 18-Mar-2016

95 views

Category:

Documents


3 download

DESCRIPTION

XML 을 기반으로 한 우리말 신학 시소러스 자동 구축 시스템 의 설계 및 구현. 작성자 : 신 만 섭 사서(합신). 2003. 8. 23. 목차. 서론 : 시소러스 구축 목적 서론 : 시소러스 필요성 서론 : 연구 배경 (1) (2) XML 이란 XML 의 구성 XML 문서 처리를 위한 소프트웨어 용어를 통제하는 수단 전조합색인과 후조합색인 우선어와 비우선어 정확률 (precision) & 재현률 (recall) 시소러스를 이용한 정보 검색 과정 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

1

XMLXML 을 기반으로 한을 기반으로 한 우리말 신학 우리말 신학

시소러스 자동 구축 시스템시소러스 자동 구축 시스템의 의

설계 및 구현설계 및 구현

작성자 : 신 만 섭 사서 ( 합신 )

2003. 8. 23

Page 2: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

2

목목차차

서론 : 시소러스 구축 목적서론 : 시소러스 필요성서론 : 연구 배경 (1) (2)XML 이란XML 의 구성XML 문서 처리를 위한 소프트웨어용어를 통제하는 수단전조합색인과 후조합색인우선어와 비우선어정확률 (precision) & 재현률 (recall)시소러스를 이용한 정보 검색 과정시소러스의 구성 및 종류 ( 자동구축 시소러스 예 )

Page 3: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

3

목목차차

매뉴얼 구축 시소러스 (INSPEC)

매뉴얼 구축 시소러스 (NASA)자동 구축 시소러스 장단점

매뉴얼 구축 시소러스 장단점

시소러스 시스템 구축 방법

시소러스작성을 위한 용어수집 방법 및 단계 (1 - 5)객체기반 시소러스

객체기반 시소러스 시스템의 구현

시소러스 관리시스템 구축 조건

결론 및 향후 과제

Page 4: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

4

서론 서론 : : 시소러스 구축 시소러스 구축 목적목적

본 연구는 아직까지 한번도 시도되지 않은 신학시소러스에 대한 필요성을 제시하고 , 인터넷 표준문서로 채택된 XML 을 기반으로 신학 시소러스의 모델을 제안하며 , 신학 시소러스가 효율적으로 관리될 수 있도록 시소러스 관리 시스템의 개발을 연구 목적으로 한다 .

신학 시소러스는 신학 지식을 관리하고 , 공유하기 위한 목적으로 신학정보 관리시스템 ( 일명 TIMS 혹은 " 신학지식 관리 시스템 ") 을 도입하는데 목적이 있다 .

Page 5: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

5

서론 서론 : : 시소러스 시소러스 필요성필요성

시소러스의 중요성은 이미 오래전부터 인식되어왔으나 적용할 콘텐츠의 부재로 어려움을 겪어왔다 . 신학시소러스는 현행 신학대학들이 구축하고 있는 서지 DB 를 기반으로 우선 명사형에 해당하는 용어들을 빈도별도 추출하여 기본 소스로 하고 , 이를 분야별로 분류하고 DB 화하여 제공코자 한다 .신학시소러스를 워드프로세스에 적용할 경우에는 논문작성시 색인작업이나 목차 등을 손쉽게 할 수 있으며 , 설교문 작성에서도 카테고리를 구축하는데 유효하다 . 서지정보검색이나 인터넷 정보검색 인터페이스에 탑재하여 사용자의 편의성을 제고 시키거나 검색효율을 높일 수 있다 .

Page 6: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

6

서론 서론 : : 연구 배경연구 배경(1)(1)

시소러스의 효용성은 사용자가 대략적인 의미를 가지는 개념들을 근거로 구체적인 의미를 파악해 내는데 있다 . 그러므로 시소러스 관리시스템은 이용자가 이미 알고있는 일반적인 의미의 개념들을 통해 구체적인 의미의 시소러스 개념들을 직접 참조할 수 있도록 지원해야 한다 .특히 신학정보검색은 신학 시소러스에 표현된 내용에 따라 그 성능이 결정되기 때문에 구조적으로 도메인 정보의 색인어와 이용자들이 제시하는 키워드가 개념들 사이에서 의미관계를 정확하게 표현 할 수 있어야 한다 .

그러나 신학정보의 공유를 지원하는 시스템을 갖추어도 , 무수히 발생하는 다양한 지식들을 단순히 저장해놓은 것에 불과한 경우가 많아서 , 검색을 해보면 , 원치 않는 정보들까지 제공됨으로 , 유용한 정보를 선택하는데 불필요한 시간과 비용을 지불하게 되는 경우가 다반사로 발생하게 된다 .

Page 7: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

7

서론 서론 : : 연구 배경연구 배경(2)(2)

이러한 문제 해결을 위해서 본 논문은 웹 표준문서로 각광받는 XML 을 기반으로 문서가공을 용이하게 하고 , 온톨로지 기법을 이용하여 신학지식 체계를 구성함으로서 , 활용코자하는 정보를 검색케 함으로서 불필요한 검색결과를 극소화 하고자 한다 .

온톨로지 기법에 의해 정의된 신학분야 키워드를 바탕으로 핵심적인 신학 키워드간 관계정보를 활용하여 새로 발생되는 신학지식을 자동으로 추론케하고 , 이러한 정보를 바탕으로 검색케 함으로써 정제된 신학정보를 제공함으로서 논문 작성을 위한 대학원생 , 신학을 전적으로 연구하는 신학자 혹은 교수는 물론 설교를 주로 담당하는 목회자들의 체계적인 설교준비를 위해서 매우 유용하리라고 사료된다 .

Page 8: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

8

XMLXML이란이란

XML 은 데이터의 구조를 기술하는데 사용하는 마크업 언어로서 , 'eXtensible Markup Language' 의 약어이다 .

'eXtensible' 이란 HTML 과 같이 고정된 포맷이 아니라 확장성이 좋다는 의미이며 , XML 은 웹에서 SGML 을 사용하기 위해서 고안된 언어이다 . SGML 의 간략화된 버전으로서 , SGML 의 장점과 일반성을 최대한 수용하면서 SGML 의 특정부분을 발췌하거나 요약하여 전문가와 일반인이 모두 쉽게 배워 웹에 구현이 가능하도록 쉽게 작성한 언어이다 .

아울러서 XML 은 SGML 의 실용적인 기능만을 모은 부분집합이므로 SGML 과 XML 간 변환은 물론 XML 문서는 SGML 응용에서 그대로 사용할 수 있다 .간단히 정의하면 태그정의가 자유로운 SGML 의 장점과 하이퍼미디어 문서를 손쉽게 제공하는 HTML 의 장점을 모두 가춘 웹 표준 문서 포맷이다 . 웹 상에서 구조화된 문서를 전송가능하도록 설계한 표준화된 Markup 언어이다

Page 9: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

9

XMLXML 의 의 구성구성

DTD 선언 및 설계에 따라 문서의 내용을 기록하고 있는 XML- 논리적 구조 - 물리적 구조 - 엔티티 단위로 형성

XML 문서를 웹으로 표현하는 문서인 XSL* XSL(XML Stylesheet Language) : 문서의 출력을 지정하는 언어문서의 요소와 관련된 포맷팅 정보 논리적 구조만을 가지고 있는 XML 인스턴스를 외부에서 보기 위하여 포맷팅 처리가 필요한데 , 이를 위해 SGML 의 포맷팅 언어인 DSSSL 을 간소화해서 사용한다 .

XML 문서의 링크를 구현하는 XLLXLL : 웹 상 문서를 링크하는 기술에 대한 정의XLL 은 XLink 와 XPointer 두가지 표준으로 구성된다 .

Page 10: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

10

XMLXML 문서 처리를 위한 문서 처리를 위한 소프트웨어소프트웨어

XML 문서 처리를 위한 소프트웨어를 소개하면 에디터 , 파서 , 브라우저 , DTD 에디터 , XSL 소프트웨어 , 컨버터 등이 있다 .파서 : XML 문서를 처리하는 응용 프로그램의 일종으로 , XML 문서를 해석하고 , 엘리먼트의 트리구조를 작성하는 것으로서 , XML 문서가 적정 형식인가 아닌가의 검증과 Logic 의 결함이 없는지를 검증한다 .

* 가장 대표적인 XML 파서는 MS 사의 XML파서

(MSXML in Java) * 해석된 XML 문서는 트리구조로서 메모리 상에

표현 된다 .

Page 11: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

11

용어를 통제하는 용어를 통제하는 수단수단

용어 통제와 관련한 세 가지가 수단이 약간의 차이점이 있다 .

전거리스트 (authority lists or Prefered keyword lists)주제 표목표 (subject heading lists) : 문헌의 주제를 나타내는 여러가지 표현을 통일화하고 , 선정된 용어간의 관계를 체계화한 어휘집을 주제명표목표라 한다 ( 국중 홈페이지 http://nlsh.nl.go.kr/intro/intro.aspx 참조 ). 시소러스 (thesaurus) : 상위 및 하위 개념사이의 전후관계를 명백하게 하기 위하여 공식적으로 조직 . 통제된 색인어의 어휘

* 이 가운데 정보검색에 있어서 가장 많이 활용되는 것이 시소러스임에도 불구하고 , 우리나라에서는 연구환경이 매우 열악한 상태에 있으며 더욱이 신학과 관련한 시소러스는 아직 시도된 예를 발견하지 못함은 매우 유감스러운 일이다

Page 12: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

12

전조합색인과 후조합색인전조합색인과 후조합색인

색인 대상이 되는 개념의 조합이 일어나는 시기를 기준으로 구분한다 .

전조합색인 (Pre-Coordinate indexing) : 정보 자료의 주제를 구성하는 개념의 조합이 색인 작업시 일어나는 것으로 , 복합적인 주제 개념은 한 단위로 취급되어 이에 해당하는 표목으로 변환된다 .

후조합색인 (Post-Coordinate indexing) : 색인어 추출시 색인 대상이 되는 각 개념에 색인어 를 개별적으로 부여한 후 검색시 색인의 조합에 의해 주제를 표현하는 색인으로 '조합색인 '이라고 줄여서 부르기도 한다 . 시소러스는 바로 후조합 색인의 대표적인 어휘통제사전이며 인터넷 및 컴퓨터 검색 시스템에서는 거의가 키워드를 사용한 후조합색인법을 채택하고 있다 .  

Page 13: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

13

우선어와 비우선어 디스크립터 ( 우선어 ) :

색인 작업시 특정 개념을 나타내기 위하여 일관되게 사용되는 용어

비디스크립터 (= 비우선어 , = 도입어 lead-in term) 우선어의 동의어 혹은 유사동의어로서 색인작업에서 사용되지는 않으나 use 혹은 see 라는 지시어에 의해 적합한 우선어로 이용자를 안내하기 위 한 도입어를 의미한다 .

* descriptor : 컴퓨터 기술어 ( 記述語 ), 기술자 ( 記述子 ) 정보의 분류색인에 쓰는 어구

색인언어 간략한 형태로 문헌의 주제를 나타내는데 사용하기 위하여 자연어로부 터 선정된 용어들의 통제된 집합 . 특히 통제색인언어에서는 용어가 우선 어 (preferred term) 와 비우선어 (nonpreferred term) 로 표현되어진다 .

Page 14: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

14

정확률정확률 (precision) & (precision) & 재현률재현률(recall)(recall)

일반적으로 검색 성능은 정확률 (precision) 과 재현률(recall) 로 평가되는데

한 가지 특징은 높은 재현률의 검색 질의는 - 정확률을 저하시키고

반면에높은 정확률의 검색 질의는 - 낮은 재현률을 나타낸다 .

시소러스는 정확률과 재현률의 상관관계에서 검색의 재현률과 정확률을 적절하게 향상시키는 역할을 한다 .그러므로 검색시스템의 효율적인 검색을 위해서는 도메인 지식이 반드시 요구된다 .

따라서 시소러스는 검색 성능을 향상시키기 위한 필수적인 도메인 지식이라고 하겠다 .

Page 15: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

15

시소러스를 이용한 정보 검색 시소러스를 이용한 정보 검색 과정과정

도메인문서검색엔진검색엔진

질의처리시스템

질의처리시스템

Indexed DocumentsDatabase

ThesaurusDatabase

인덱싱시스템

인덱싱시스템

시소러스시스템

시소러스시스템

도메인전문가

사용자

순위화된

문서

순위화된

문서

초기질의

질의 재형성 요구

문서 정보 검색 단계 도메인 지식 구축 단계

평가

Page 16: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

16

시소러스의 구성 및 시소러스의 구성 및 종류종류

시소러스 구성 노드 : 도메인 개념 * XML 을 구성하는 요소와 속성 같은 구성요소를 말함

링크 : 도메인 개념들 사이의 관계

종류 자동 구축 시소러스

개념들의 동시 출현 빈도에 의한 자동 구축 네트워크 구조 : 관련정도로 관계 표현 Similarity Thesaurus, Associative Thesaurus

매뉴얼 구축 시소러스 도메인 전문가가 직접 구축 계층 구조 : 의미 정보 (BT/NT,RT) 로 관계 표현 : NASA Thesaurus, INSPEC Thesaurus, Roget Thesaurus

SwitchingSystem

SwitchingSystem

CircuitSwitching

CircuitSwitching

PrivateExchangePrivate

ExchangePublic

ExchangePublic

ExchangePacket

SwitchingPacket

Switching

S12S12 DMS10DMS10 DPS1500DPS1500 TDXTDX TP3TP3AXE10AXE10 FOREFORE

Page 17: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

17

시소러스의 구성 및 종류시소러스의 구성 및 종류 (( 자동구축 자동구축 예예 ))

사용자의 시소러스 내용 참조가 어려움

Page 18: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

18

매뉴얼 구축 시소러스매뉴얼 구축 시소러스((INSPECINSPEC))

의미 관계계층 구조

시소러스 계층 레벨 확인 요함 시소러스 계층 레벨 확인 요함 : 4 Level : 4 Level 혹은 혹은 5 Level 5 Level 많이 많이 사용사용

Page 19: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

19

매뉴얼 구축 시소러스매뉴얼 구축 시소러스((NASA)NASA)

Page 20: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

20

자동 구축 시소러스 자동 구축 시소러스 장단점장단점

단점 정확한 도메인 지식 표현 어려움

의미 없는 관계 필연적으로 존재 개념들 사이의 의미 관계 표현할 수 없음

검색의 정확률 감소 방대한 도메인에 부적합 사용자의 시소러스 참조가 어려움

장점 최소의 구축 비용 검색의 재현률 유지 소규모 도메인에 적합

Page 21: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

21

매뉴얼 구축 시소러스 매뉴얼 구축 시소러스 장단점장단점

장점 의미 정보 (BT/NT,RT) 를 통해 정확한 개념들 사이의 관계 표현 검색의 정확률 향상 방대한 도메인에 적합

단점 구축 비용 문제 전문가가 시소러스 내용을 파악해야 일관성 유지 가능 사용자의 시소러스 개념 참조 어려움

Page 22: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

22

시소러스 시스템 구축 시소러스 시스템 구축 방법방법

시소러스 구축 방법 전문가가 모든 개념 관계들을 직접 명시 구축 비용 문제 내용의 일관성 유지 문제

시소러스 개념 참조 순차적인 사전식 참조 여러 개념들과 동시에 관련된 개념을 직접 참조하기 어려움

Page 23: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

23

시소러스작성을 위한 용어수집 방법 및 단계 (1) 일반적인 시소러스나 관련분야의 시소러스 , 주제명표목표 ,

분류표 , 색인용어집 등의 소스 문헌을 통한 어휘집을 전체적인 툴로 사용하되 핵심주제의 용어는 별도로 수집하여 시소러스를 개발하되 , 소스문헌을 통한 수작업과 통계적인 기법을 통한 기계적인 방법으로 용어를 수집하는 두가지 방법이 선행되고 있다 .

1) 주제영역의 정의 주제범위 설정하고 핵심영역과 주변영역을 정함

2) 시소러스의 특성 결정

용어의 특정성 수준과 전조합 수준 , 계층관계와 연관관계의 표시 정도 등

Page 24: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

24

시소러스작성을 위한 용어수집 방법 및 단계 (2)

selectionCan be refined

move

3) 시소러스의 형태 결정 - 자모순 시소러스와 체계적 시소러스로 구분 예 ) 포괄적 주제 분류 , 계층적 분류체계 , 패싯 분류체계 , 용어도표

4) 용어의 표준화 과정 품사 , 단수 /복수형 , 기입형식 , 표기법 , 약어 및 외래어

사용 , 구두점의 사용 , 동음이의어의 표기 , 복합어 처리 등을 반영함

5) 디스크립터의 선택 및 용어의 상호관계 결정

표준화된 용어는 상호간의 어의적 관계 ( 동등관계 , 계층관계 , 연관관계 ) 를 결정해야 하는데 가장 바람직한 방법은 분류도구를 이용하는 것이다 . 용어수집을 위해 사용했던 분류표 . 주제명표 . 시소러스 등을 참고하여 용어를 각 주제별로 모은 뒤 각 주제 안에서 용어의 관계를 파악하는 것이 바람직 하다 .

Page 25: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

25

시소러스작성을 위한 용어수집 방법 및 단계 (3)용어 수집을 위한 기본 문헌

a) 시소러스 . 분류표 등의 기존 어휘집

b) 백과사전 . 사전 . 어휘사전 (lexicon). 등의 사전류

c) 전문분약의 용어집 ( 신학용어사전 , 성경용어사전 )d) 색인지나 초록지 , 기타 출판물의 색인

e) 편람 . 목록 . 교재 . 디렉토리 . 규격 등의 기타자료 ( 각 대학 서지 )f) 논문기사나 학위논문 . 보고서 . 단행본 등의 주제문헌등도 조사하여

전문

용어로 추가가 가능하다 .g) 문헌 조사 이외에도 이용자들의 질문 분석은 물론 정보 정보검색에 사

용된 탐색어들을 수집하는 것도 바람직 하다 .

이렇게 수집된 용어를 전문가 그룹을 구성하여 분류체계나 용어들에

대해 충분한 검토하여 작성하는 것이 바람직 하다 .

Page 26: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

26

시소러스작성을 위한 용어수집 방법 및 단계 (4)예 ) 유네스코의 IBE Education Thesaurus 7 개의 주제그룹 (fields 라고함 )

주제그룹 4 : people 패싯 410 Students 종속패싯 411 School Students 412 Non-formal Students 413 College Students 414 Language of Students 415 Achievers 416 Ability of Students

패싯 /종속패싯 412 Adult Students

실제로 기존 시소러스에서 각 관계를 표시하기 위해 사용하는 기호는 다양하다 .

Page 27: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

27

시소러스작성을 위한 용어수집 방법 및 단계 (5)

6) 시소러스의 편성

7) 시소러스 테스트 : 시소러스 테스트를 위하여 최소한 500- 1000 개의 문헌을 색인해 보는 것이 바람직 하다 ( 정영미 , 119쪽 ).

Page 28: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

28

시소러스 구축의 운영적 측면 (1)

1) 연역적 방법 : 충분한 용어가 모아지면 색인자와 주제전문가로 구성된 전문가 그룹에 의해 모든 용어들을 재평가 한다 . 가장 상위 범주의 용어를 우선적으로 규정하고 , 남은 용어들은 그 의미의 상위 및 하위의 논리적 근거에 기초해서 관련 범주에 할당한다 .

2) 귀납적 방법 : 용어가 문헌상에 출현함과 동시에 시소러스에 추가하여 색인작업에 사용한다 . 어휘통제를 처음부터 실시하여 그 용어를 하나 또는 그 이상의 상위 범주에 부여한다 . 색인작업은 작성초기부터 실시하나 , 사용하던 용어의 의미가 나중에라도 확실해지면 , 그 색인작성을 수정 할 수 있다 .

3) 3) 귀납법을 응용한 연역법 활용처음에 귀납적으로 설정된 용어의 범주가 나중에 색인자와 주제전문가로 구성된 편찬자 그룹에 의해서 연역적 관점으로 조사될 수 있다 .색인어에 새로운 용어의 추가는 종종 용어와 그들의 상호관계에 관련된 사전 결정에 의해 영향을 받는다 ( 최석두 , 86쪽 ).

Page 29: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

29

시소러스 구축의 운영적 측면(2) 4) 편찬자의 역할

용어 상호관계 , 복합어의 요소분해 등이 일관성 있게 적용되는 일반법칙에 맞도록 용어와 계층을 점검해야 한다 . 특히 동의어와 용어의 변칙형태를 선택할 때는 전문가의 자문이 절대적으로 필요하다 .

용어의 정확성은 시소러스에 포함되기 전에 검증되어야 함으로편찬자는 새로운 용어와 그것에 할당된 계층에서의 다른 용어들 간의 관계를 재조사해야 한다 .

재조사할 때에는 백과사전 , 기존의 시소러스 , 분류표 등의 전거들을 활용하며 색인과 문헌에 대한 지식을 갖고 있는 주제전문가에게 자문을 구할 수도 있다 .

Page 30: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

30

객체기반 시소러스객체기반 시소러스

객체지향 패러다임의 구조적 특성 적용

객체기반 시소러스 표현 도메인 개념

=> 객체 : 개념 객체 , 인스턴스 객체 BT/NT, RT 관계

=> 일반화 / 클래스화 , 연관화 /집성화 관계

=> 묵시적인 초기 관련 정도 (0.9/0.9, 0.7/0.8)

객체기반 시소러스 성질 전이적 성질 상속 성질

Page 31: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

31

객체기반 시소러스 객체기반 시소러스 시스템의 구현시스템의 구현

구현 환경 운영체제 : Solaris 2.5 사용언어 : GNU C++, OSF Motif/X 데이터베이스 : UniSQL(ORDBMS), ESQL

반자동 방식의 시소러스 구축 기능

추상화 방식의 시소러스 브라우징 기능

질의 방식의 개념 참조 기능

시소러스 저장 기능

Page 32: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

32

시소러스 관리시스템 구축 시소러스 관리시스템 구축 조건조건첫째 , 사용자의 직관과 일치할 수 있는 시소러스를 최소한의 비용으로 구축할 수있오록 지원한다 .

둘째 , 개념들 사이의 관계를 일관성(consistency) 있게 유지할 수 있어야 하며 , 예측성 (predict ability) 을 가지고 있어야 한다 .

셋째 , 사전식 순차 참조방법과 질의 방식의 직접 참조 방법을 모두 지원하여 복잡한 시소러스로부터 사용자가 특정한 의미의 개념을 효과적으로 탐색 할 수 있도록 해야한다 .

Page 33: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

33

결론 및 향후 과제 결론 및 향후 과제 (1)(1)

기존의 시소러스 - 문헌정보학적 입장에서 접근 - 주로 용어간 관계설정에 치중하는 경향이 있음 ( 동의어 )

시소러스의 나아가야 할 방향 - 축적 , 확장되는 DB 의 관리적 측면 , 검색 시스템의 향상 - 이용자를 위한 시소러스 뿐 아니라 , 시소러스 시스템을 근거로 추출된 통제어 들을 근거로 초록작성의 위한 자료로 활용한다 ( 인공지능 활용 ). - 신학학문 분류와 관련한 기초자료로 활용한다 .

해결 방안 - 체계적인 용어 분류 작성 단계부터 검색 시스템 고려 - 문헌관리 측면 그 이상의 학문분류와 관련한 지식관리 측면으로 접근 시도 - 각 분야별 독특한 어휘체계를 고려 ( 신학 , 경제 , 과학 , 등 ) - 독특한 고유명사 체계를 고려 ( 인명 , 지명 , 동식물명 등 ) - 일상 어휘와는 다른 Domain 구조를 고려

Page 34: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

34

결론 및 향후 과제결론 및 향후 과제(2) (2)

일반 시소러스로부터 지식베이스 시소러스로의 전환

XML 을 기반으로 한 객체기반 시소러스 ( 정확성 , 일관성 )

객체기반 시소러스 시스템 설계 및 구현 반자동 방식의 시소러스 구축 질의 방식의 시소러스 개념 참조 추상화 방식의 시소러스 브라우징

객체기반 시소러스 내용 구축 도메인에 적합한 묵시적인 초기 관련정도 평가 검색 시스템과 통합을 통한 정량적 평가

객체지향 시소러스 시스템 개발

Page 35: XML 을 기반으로 한  우리말 신학 시소러스 자동 구축 시스템 의  설계 및 구현

35

감사합니다 .