integration of thesaurus and udc to improve subject access...
TRANSCRIPT
The Hague 29.10.2009. Agnes Hajdu Barát 1
Integration of thesaurus and UDC to improve subject access: the Hungarian
experienceÁgnes Hajdu Barát
University of Szeged
The Hague 29.10.2009. Agnes Hajdu Barát 2
Introduction
• The objective of this paper is to explore two solutions for integrating a thesaurus and UDC to develop a common platform for informational retrieval
• Two Hungarian projects• The usability and visibility of UDC
The Hague 29.10.2009. Agnes Hajdu Barát 3
MÁTrIkSz
• MÁTrIkSz = Hungarian Comprehensive Information Retrieval Language Dictionary
The Hague 29.10.2009. Agnes Hajdu Barát 4
The first steps
• At 3rd May 2001 the represents of Ministry of National Cultural Heritage organized the meeting about MOKKA[1] (Magyar OsztottKözös Katalógus – Hungarian Shared Common Catalogue) project. There are 25 libraries what share their records in this common catalogue.
• Libraries have different subject terms, UDC codes in the MOKKA.
• Subject Heading Committee
[1] http://www.mokka.hu/
The Hague 29.10.2009. Agnes Hajdu Barát 5
Aims 1. • A controlled vocabulary would make a database
easier to search.[1]• MÁTrIkSz project aimed to transform and
reconstruct the existing systems for the changed claim.
• The concept was: to give the possibility of the common search of the topical terms (subject, descriptors, UDC codes etc.) in five big libraries’catalogues and databases with different structures and information retrieval methods.
[1] http://www.controlledvocabulary.com/
The Hague 29.10.2009. Agnes Hajdu Barát 6
Aims 2.
• The members of the MÁTrIkSz project board decided to correspond the topical terms to the phrases of the KÖZTAURUSZ/OSZK thesaurus in several databases.
• The usage of classification systems that are not based on languages can be another solution for the problem of cross-language information search, although there are several problems that have to be solved.
Significant advantages are the conceptual level
The Hague 29.10.2009. Agnes Hajdu Barát 7
Number of terms• It was the largest Hungarian Information Retrieval
Language Dictionary on natural languages until 2008.
Its subject terms assembled:• OSZK thesaurus/KÖZTAURUSZ – about 28.000
lexical terms,- University Library and National Library of University of Debrecen – about 25.000 subjects,
• University Library of University of Szeged - about 60.000 subjects, Total terms in MÁTrIkSz - about 113.000 terms
The Hague 29.10.2009. Agnes Hajdu Barát 8
Features of MÁTrIkSz project 1.
• The MÁTrIkSz is the co-operating system of the participant information seeking methods and databases.
• The KÖZTAURUSZ/OSZK thesaurus took a prominent role among them, but the participants are its equals.
• There is a suitable user interface to search each participant dictionary and to utilize different topical terms, for example UDC terms, subjects, descriptors.
• The MÁTrIkSz has its own information retrieval language dictionary, too, which is independent of the other bibliographical databases, but searches in those systems.
• There is a common online index and its records have a local identification.
The Hague 29.10.2009. Agnes Hajdu Barát 9
Features of MÁTrIkSz project 2.
• The result isn’t only a bibliographic record, but there are contents of topical terms. The different classification systems and their bibliographical databases appear in a unified and homogeneous environment.
• Each database keeps their own descriptors, terms and if they have any similar expressions with different morphological forms, make the KÖZTAURUSZ’sphrases appear in 750th field (equivalent) of the MARC record.
• Hits would come from all bibliographic databases, presenting diverse expressions of participant libraries without any analogy. Hits would come from only the own database.
Bánki, 2002, p.35.
The Hague 29.10.2009. Agnes Hajdu Barát 10
Features of MÁTrIkSz project 3.
• The project assisted the new medium edition of UDC index. The adaptation of UDC MRF relating the KÖZTAURUSZ/OSZK thesaurus and the UDC index were built in the thesauri.
• The UDC codes became searchable in the MÁTrIkSz system, and they give the basis of searching in multicultural and multilingual environment, too, because the UDC codes and the descriptors are in conceptual level.
• The MÁTrIkSz system started at April of 2002, but after some years this project wasn’t finished from personal and financial causes.
The Hague 29.10.2009. Agnes Hajdu Barát 11
The Hague 29.10.2009. Agnes Hajdu Barát 12
Examples from MÁTrIkSz
The Hague 29.10.2009. Agnes Hajdu Barát 13
The Hague 29.10.2009. Agnes Hajdu Barát 14
KÖZTAURUSZ/OSZK thesaurus
The Hague 29.10.2009. Agnes Hajdu Barát 15
Beginnings• The exact project started in 1999, but there were long
considerable antecedents. • County Library in Kaposvár , National Széchényi Library • The thesaurus provides system enhancements to
subject and concept - UDC - based search services and users can operate more efficiently then earlier.
• UDC classification numbers joint to lexical terms of KÖZTAURUSZ and mostly lexical terms have relation to any UDC number.
• RELEX software • HUNMARC export has two versions:
KÖZTAURUSZ with UDC codes, andKÖZTAURUSZ without UDC codes.
The Hague 29.10.2009. Agnes Hajdu Barát 16
Two appearances
There are two appearances of this system in the National Széchényi Library:
• the search engine in the OPAC• the online thesaurus with the UDC code
without bibliographical records. We can look for the UDC code directly and the system shows related descriptors of concept also.
The Hague 29.10.2009. Agnes Hajdu Barát 17
Some characteristics 1.• It is the largest Hungarian Information Retrieval
Language Dictionary on natural languages. • It was made with the help of modern technology,
by computer and it is used on electronic supporting, concerning informational network, Internet, too. Its software is RELEX.
• It is possible to develop and keep on the Internet dynamically.
• It can work with MARC format.• It has very easy sentence construction and
syntax.
The Hague 29.10.2009. Agnes Hajdu Barát 18
Some characteristics 2.• It is of high level, efficient, open, flexible, easily used,
with rich vocabulary and a clear structure scheme.• It has involved some of the existing Hungarian thesauri
since 1990. Their numbers are over 20. • At the beginning the weakness of these thesauri was the
few bibliographic records, which are really used in these systems. So the MÁTrIkSz project was a good opportunity for the KÖZTAURUSZ and the OSZK thesaurus.
• It can be used by automatic classification and indexing systems, too.
• It can involve and the UDC index of the last two Hungarian editions. Hajdu Barát, 2003
The Hague 29.10.2009. Agnes Hajdu Barát 19
Total lexis of KÖZTAURUSZ and Geotaurusz 1.
Lexical terms UDC code Comment
UDC Hungarian edition, 1990 130 000
UDC Hungarian edition, 2005 90 000
KÖZTAURUSZ 2001.04.15. 28 671
KÖZTAURUSZ 2003.12.16. 38 840 increase: 134 %
KÖZTAURUSZ 2008.11.30. 62 141 increase: 217 %
KÖZTAURUSZ 2009.03.01. 62 585 increase: 218 %
Geotaurusz 2001.02.11. 7 963
Geotaurusz 2009. 03. 01. 67 687 increase: 847 %
The Hague 29.10.2009. Agnes Hajdu Barát 20
Total lexis of KÖZTAURUSZ and Geotaurusz 2.
– from KÖZTAURUSZ 23 699
UDC code in the KÖZTAURUSZ
55 837
UDC code isn’t in the KÖZTAURUSZ
26 708
UDC entry vocabulary in KÖZTAURUSZ
2 814
Total lexical terms of KÖZTAURUSZ and Geotauruszactually: 129 828
The Hague 29.10.2009. Agnes Hajdu Barát 21
Comparison
Library of Congress, 2001.
65 000
Library of Congress, 2008.
100 000 increase: 154 %
Increasing of different parts of KÖZTAURUSZ: 134-847 %
The Hague 29.10.2009. Agnes Hajdu Barát 22
StructureThere are the descriptors, nondescriptors (used for), relations in
standard form.According to their contents the lexical elements can be following: - technical expression, topical term (library); - geographical and ethnographical term (the Hague); - time (1956); - art style (romanticism); - formal term (dictionary, video); - language phrase (Dutch); - modificator (digital, property); - personal and institutional name (Konrád György, Koninklijke
Bibliotheek); - classification of organ, organism, creature (virus, animal); - type of illnesses (grippe).
The Hague 29.10.2009. Agnes Hajdu Barát 23
Notes in HUNMARC HUNMARC code
Name KÖZTAURUSZ/OSZK thesaurus
667 Nonpublic general note670 Source data found note Used675 Source data not found note678 Bibliographical or historical data
note680 Public general note Used682 Deleted heading information687 Usage of heading note Used688 Application history note690 Local note
The Hague 29.10.2009. Agnes Hajdu Barát 24
Hungarian and English relationsin thesauri 1.
Type of relation HUNMARC subfield
Hungarian name of relation mark
English name of Relation
mark
descriptor 450##a lásd L see / use see / use
nondescriptor(used for) 450##a helyett (lásd innen) H used for used for, UF
descriptor with other descriptor 450##ws lásd ÉS L& see AND /
use AND see AND / use AND
nondescriptor with other descriptor 450##wt helyett ÉS (lásd innen
ÉS) H& used for AND used for AND
descriptor with OR 450##wu lásd VAGY L see OR / use OR see OR / use OR
nondescriptor with OR 450##wv Helyett VAGY (lásd
innen VAGY) H used for OR used for OR
generic relation 450##wg átfogóbban/általá-nosabban F broader term
generic BT
450##wh speciálisabb/fajtája A narroverterm generic NT
The Hague 29.10.2009. Agnes Hajdu Barát 25
Hungarian and English relations in thesauri 1.
Type of relation
HUNMARC subfield
Hungarian name of relation mark English name of
Relation mark
partitiv relation 450##wj egésze/teljes T broader term partitiv BTP
450##wk része/eleme E narrover term partitiv NTP
causal relation 450##wp eredménye/folytatása R broader term
causal BTC
450##wr kiindulása/előzménye E narrover term
causal NTC
related, associative relation
450##wm egyéb rokonsága/lásd még X related term RT
The Hague 29.10.2009. Agnes Hajdu Barát 26
Types of Words and its fields of IRL in the bibliographical record 1.
HUNMARCcode Name of description Example
600 personal names Németh László (1901-1975)
610 Corporate names Bethlen Gábor Gimnázium(Hódmezővásárhely)
611 Meeting namesClassification at a crossroads –Multiple directions to usability The Hague, 29-30 October 2009
630 Uniform titles Bible (New Testament)
650 Topical terms walking tour, architecture
651 Geographic names The Hague, Szeged, Baktói u.
653 Free topical terms cooper vase, pregnancy
The Hague 29.10.2009. Agnes Hajdu Barát 27
Types of Words and its fields of IRL in the bibliographical record 2.
HUNMARCcode Name of description Example
655 Formal topical terms novel, postcards, thesaurus, season ticket
656 Occupation carpenter, surgery, librarian
657 Targets and objects of document
social welfare, criminal investigation
658 Educational terms LIS education, further education, adult education
662 Hierarchicalgeographic names
Hungary, Csongrád County, Szeged, Baktó
The Hague 29.10.2009. Agnes Hajdu Barát 28
The authority record 1.
Tag ii $ nz n # 5. 000 #####nz 22#####n 4500 001 005 20080713233723.0 008 080603-#n#an-z##ba-#n###-#####-###a#-ana##-###d 040 ## $aMBA $bhu $fJogi és igazgatásügyi tezaurusz150 ## $aközigazgatási bíróság450 ## $wy $aállamigazgatási jogszolgáltatás450 ## $wy $aközigazgatási bíráskodás450 ## $wy $aközigazgatási kollégium550 ## $wg $abíróság550 ## $wk $aközigazgatási jog 550 ## $wk $abírósági felügyelet550 ## $wk $aközigazgatási ellenőrzés550 ## $wg $aválasztói kifogás550 ## $wm $aközigazgatási peres eljárás
administrative court
The Hague 29.10.2009. Agnes Hajdu Barát 29
The authority record 2.
670 ## $aAz 1991. évi XXVI. törvény a közigazgatásihatározatok bírósági felülvizsgálatának kiterjesztéséről. 670 ## $aImre M.: Közig. Bíráskodás, 2008 670 ## $aOSZK-tezaurusz deszkriptora, átvéve 2008 $cUR678 ## $aMagyarországon 1883-1949, majd 1990-től fennállóbíróság680 ## $aA közigazgatási döntések ellenőrzésére hivatott, a rendes bíróságok szervezetétől eltérő szervezetű, azállampolgárnak a közigazgatással, az önkormányzatoknak a kormánnyal szembeni ügyeiben mint utolsó fórumként döntőkülönös bíróság690 ## $aAz 1949-1990 közötti időszak államigazgatásihatározatokkal szembeni eljárások, felülvizsgálatok esetén a "jogi felülvizsgálat", vagy a "jogi eljárás" és az adott kérdésdeszkriptora ("lakásügy", "illetékügy" stb.), továbbá adottesetben az "egyeztető bizottság" használandó
The Hague 29.10.2009. Agnes Hajdu Barát 30
The authority record 3.
• 750 ## $a342.565.4 $2eto 750 ## $a347.998.95 $2eto 750 ## $a351.95 $2eto 750 ## $aadministrartive court $0(euvoc)01539 $2euvoc
The Hague 29.10.2009. Agnes Hajdu Barát 31
Display form• közigazgatási bíróság
M: A közigazgatási döntések ellenőrzésére hivatott, a rendes bíróságok szervezetétől eltérő szervezetű, az állampolgárnak a közigazgatással, az önkormányzatoknak a kormánnyal szembeni ügyeiben mint utolsó fórumként döntő különös bíróságH: Az 1949-1990 közötti időszak államigazgatási határozatokkal szembeni eljárások, felülvizsgálatokesetén a "jogi felülvizsgálat", vagy a "jogi eljárás" és az adott kérdés deszkriptora ("lakásügy", "illetékügy" stb.), továbbá adott esetben az "egyeztető bizottság" használandóTört: Magyarországon 1883-1949, majd 1990-től fennálló bíróságForrás:Az 1991. évi XXVI. törvény a közigazgatási határozatok bírósági felülvizsgálatánakkiterjesztéséről. Imre M.: Közig. Bíráskodás, 2008 OSZK-tezaurusz deszkriptora, átvéve 2008 (MÉ)H államigazgatási jogszolgáltatásközigazgatási bíráskodásközigazgatási kollégiumF bíróságT közigazgatási jog R bírósági felügyeletközigazgatási ellenőrzésválasztói kifogásETO 342.565.4. 347.998.85 351.95
administrative court
The Hague 29.10.2009. Agnes Hajdu Barát 32
UDC authority record
The Hague 29.10.2009. Agnes Hajdu Barát 33
UDC display format
The Hague 29.10.2009. Agnes Hajdu Barát 34
RELEX software to the OWL
The Hague 29.10.2009. Agnes Hajdu Barát 35
Hit in the online thesaurus Hungarianjövesztés
ETO 622.02622.026622.063622.063.2622.23
H jöveszthetőség
A vízsugaras jövesztés
T fejtés
E fejtőgépkőzetfúró gépréselés
X keszon caissonX
cutter machine quarrying machine cutting
E
drawingT
Break with water spout A
breakabilityH
622.02622.026622.063622.063.2622.23
UDC
breakEnglish
The Hague 29.10.2009. Agnes Hajdu Barát 36
Hit in the online thesaurus
break
The Hague 29.10.2009. Agnes Hajdu Barát 37
Hit in the online thesaurus
cutting
The Hague 29.10.2009. Agnes Hajdu Barát 38
Hit in the online thesauruscutting
The Hague 29.10.2009. Agnes Hajdu Barát 39
Integrated Library System
KÖZTAURUSZ and its possibilities are adopted by some Hungarian Integrated Library System as a controlled vocabulary, for example TextLib, HunTéka, SrLib etc.
The Hague 29.10.2009. Agnes Hajdu Barát 40
ExtensionJelrendszer:Kék alap: Köztaurusz 2006, barna UJINFO angol, zöld CSA, ciklámen új javaslatok,világossárga Bgy javaslata
Fogalom. Angol Definíció és utalók Relex
abnormalitás abnormality l. deviancia, vagy deviancia alá Relex LV eltérés
abortusz abortion
lásd még művi abortusz , lásd még spontán vetélés, v. ö. terhesség /vagy művi abortusz l. abortusz, és a vetélések külön/ Relex LV művi abortusz, vetélés
absztinencia abstinence ált. vagy v.ö. Alkoholizmus, alkoholfogyasztás Relex csak ETO
absztrakció abstraction Relex csak ETO
abúzus abuse visszaélés szerekkel, alkohollal, testi erővel Relex nincs
adakozás jótékonyság alá Relex uígy
adaptáció adaptation alkalmazkodás l. adaptáció Relex. Fordítva, úgy is jó
adat /mérés/ items /measures/ mérési adat Relex. Problémás
adat minősége data quality
adatbankdata bank << database l. adatbázis vagy fordítva Relex. Uígy
adatbázis database << databank l. adatban vagy fordítva Relex. Uígy
adatelemzésmethodology /dataanalysis/
Kutatás folyamata a társadalomkutatásban alá. A már létező szociológiai adatok kvantitatív elemzése és értelmezése. Relex. L. adatmodellezés. Egészen rossz!
The Hague 29.10.2009. Agnes Hajdu Barát 41
Conclusion• Thesauri and other for concept-building
vocabulary to take additional possibility of usability and visualization of UDC and its structure
• The UDC appears to be more visible as an information retrieval tool and knowledge organiser in presented systems
• The paper stressed the importance of cognition in providing the basis for concept-building and pointed out obvious possibilities and expedients of integration of thesauri and UDC.
The Hague 29.10.2009. Agnes Hajdu Barát 42
References• Bánki, Zsolt István: Általános Információkereső-nyelvi szótár elméleti
kérdései és gyakorlati megvalósítása. Budapest: ELTE BTK, 2002. 43 p. • Fejős László, Ungváry Rudolf: A letöltött Köztaurusz HUNMARC formátumú
aktualizálása rátöltéssel. http://www.ki.oszk.hu/107/e107_files/downloads/olvass_el_a_hunmarc-letoltes_ismertetese.rtf
• Agnes Hajdu Barat: Knowledge Organization in the Cross-cultural and Multicultural Society = Culture and Identity in Knowledge Organization / Ed.Clément Arsenault, Joseph T.Tennis. Würzburg: Ergon Verlag, 2008, p. 91-97.
• Agnes Hajdu Barat: General Information Retrieval Language Dictionary inthe Széchényi National Library (Hungary) = Tendencias de Investigación enOrganización del Conocimiento – Trends in Knowledge OrganizationResearch. Salamanca, Universidad de Salamanca, 2003, p.463-468.
• Ungváry Rudolf: Diplomatezauruszok hibái és tanulságai = TMT, 56, (2009) 5 http://tmt.omikk.bme.hu/show_news.html?id=5142&issue_id=504
• Zombori Attila: Ütőhangszerek tezaurusza= TMT, 56, (2009) 5 http://tmt.omikk.bme.hu/show_news.html?id=5144&issue_id=504
• http://www.controlledvocabulary.com/• http://www.mokka.hu/
The Hague 29.10.2009. Agnes Hajdu Barát 43
Thank you for your attention!