|
Mediul semantic al termenului „vehicul” extras din tezaurul Motbis publicat de Ministerul Educației Naționale |
Un tezaur , tezaur descriptor sau tezaur documentar , este o listă organizată de termeni controlați și standardizați (descriptori și non-descriptori) reprezentând concepte într-un domeniu al cunoașterii.
Este un limbaj controlat utilizat pentru indexarea documentelor și căutarea resurselor documentare în aplicații informatice specializate. Tezurile sunt, prin urmare, o categorie de limbaje documentare, printre altele. Termenii (în exemplul opus: vehicul , navă etc.) sunt legați între ei prin relații de sinonimie (termen echivalent), ierarhie (termen generic și termen specific) și asociere (termen asociat); fiecare termen aparține unei categorii sau domenii.
Tezaur este un instrument lingvistic care face posibilă punerea în relația limba naturală a utilizatorilor și care a conținut în resursele. Această tehnică depășește limitele limbajului natural, care este foarte bogat, dar și destul de des ambiguu. Tezaurul evită astfel riscurile induse de sinonimii , omonimii și polisemii prezente în limbajul natural. Spre deosebire de un dicționar cu care este adesea comparat, un tezaur oferă doar definiții accidentale , relațiile de termeni și selecția lor având prioritate față de descrierea sensurilor.
De exemplu, un tezaur care leagă cultură de cultură , grâu în cereale și Franța în Europa , va permite o întrebare despre recolta de grâu în Franța pentru a găsi resurse indexate cu cerealele în creștere din Europa .
Tezorurile documentare sunt un tip de tezaur care urmează principiile de construcție stabilite încă din anii 1970 într-un standard ISO internațional, a cărui ediție a fost publicată în 2011. Odată cu dezvoltarea standardelor și a aplicațiilor informatice specializate, ca și în domeniul vecin al ontologiilor , un convergența problemelor (resurse, ierarhie, reutilizare etc.) a adus tezaurele documentare mai aproape de ontologii .
Tezaur , înseamnă „colecție, director” în latină. A dat naștere dicționarului tezaur linguae latinae al lui Robert Estienne și un tip de structură care se numește tezaur , deși documentare separate și tezaur lexicografic tezaur.
Tezourile documentare câștigă importanță prin computerizare din anii 1990. Este un sistem de căutare privilegiat, în special datorită utilizării operatorilor booleeni, care face posibilă realizarea ecuațiilor logice de căutare.
Cele trei grafii tezaur , tezaur și tezaur sunt acceptate de dicționare: primul este un xenism care ia direct forma latină, al doilea este o francizare parțială și pare cel mai frecvent în literatură, ultimul este forma franceză. Tezaurul plural plural este uneori folosit, dar trece pentru o formă învechită sau un anglicism ( engleza folosind pluralul latin). Coerența vrea să scriem fie un tezaur, tezauri , fie un tezaur, tezauri sau o comoară, comori .
Acest nou instrument în documentare și științe ale informației (în limba engleză Information Retrieval ) destinat indexării manuale sau automate , apoi pentru localizarea documentelor a apărut după cel de- al doilea război mondial . Cuvântul tezaur a fost folosit în literatură din cauza Tezaurului lui Peter Mark Rodget ( Tezaurul Roget al cuvintelor și propozițiilor în engleză - 1852) a fost un dicționar englez de sinonime și termeni înrudiți, organizat sistematic, un tezaur lexicografic . După război, adică din 1947, dezvoltarea științei și tehnicilor în documentare a necesitat noi instrumente de cercetare și între 1947 și 1957 a condus la un mare curent internațional de cercetare teoretică în cercetarea informației și clasificări documentare.
Peter Luhn și Bernier și Crane din Statele Unite vor revendica fiecare autorul tezaurului documentar de cuvinte cheie, termeni sau concepte. Acest cuvânt, care a devenit la modă pentru tot ceea ce - a face cu un control de vocabular (limbaj controlat), a fost folosit pentru prima dată în mod public în documentația de către Hélène - Louise Brownson (secretar de Vannevar Bush ), după ani de zece de cercetare teoretică la . Conferința de Dorking în acești termeni: „ aplicarea unui tezaur mecanizat bazat pe rețele cu semnificații conexe ” .
Un tezaur este un tip special de limbaj documentar. Este alcătuit dintr-un set structurat de concepte reprezentate prin termeni, care pot fi folosiți pentru indexarea documentelor într-o bază de date bibliografică sau într-un catalog al centrului de documentare, în scopuri de cercetare documentară. Utilizarea tezaurului face posibilă depășirea imperfecțiunilor limbajului natural în scopul indexării. Limbajul natural - sau limbajul nostru de zi cu zi - conține multe preocupări de polisemie și sinonimie. Tezaurul este un instrument de indexare combinatorie cu un vocabular controlat, adică termenii care îl constituie sunt selectați și nu pot fi modificați (cu excepția actualizărilor). Este postcoordonat deoarece descriptorii care definesc conceptele pot fi combinate sau asociate a posteriori în timpul căutării informațiilor. Indexarea în limbaj documentar datorită tezaurului permite o omogenitate a modului de indexare care nu mai depinde de cultura indexatorului. Tezaurul este folosit la intrarea și la ieșirea din lanțul documentar, adică în timpul fazei de indexare și în timpul fazei de interogare de către utilizator. Capacitatea de a căuta prin tezaur este importantă deoarece acesta din urmă folosește un limbaj combinator care asociază și încrucișează cuvintele de căutare pentru a optimiza calitatea rezultatelor.
Trei tipuri de termeni alcătuiesc un tezaur:
Pentru utilizatorul unui catalog electronic sau al unei baze de date bibliografice, tezaurul poate fi un instrument de cercetare. În plus, există diferite tipuri de cercetare. Putem trece la o căutare ierarhică constând în răsfoirea tezaurului urmând structura arborelui său: trecem de la cel mai general la cel mai specific. Există, de asemenea, căutare după termeni. Începem cu termeni pentru a răsfoi restul tezaurului
Un tezaur are o dublă organizare : între concepte (adică o relație semantică) și între termeni care reprezintă aceste concepte (adică o relație de echivalență).
Relațiile dintre concepte sunt de mai multe tipuri:
Este important de reținut că în modelul de bază al ISO 25964, relațiile de asociere sunt reciproce. Astfel, relația care unește Bird și Ornitologia este simetrică și valabilă în ambele direcții. Cu toate acestea, standardul oferă posibilitatea specializării acestor relații pentru a le face nesimetrice, ca în cazul unei relații CAUZĂ / EFECT (secțiunea 10.4 din standardul ISO 25964-1). SKOS nu impune reciprocitate de simetrie pentru relația asociativă: relațiile asociative pot fi astfel simetrice, nesimetrice sau antisimetrice.
Relațiile de echivalență dintre termeni care reprezintă același concept pot lupta împotriva semnificațiilor multiple. Noul standard ISO 25964-1: 2011 desemnează printre toți termenii care pot reprezenta același concept: un termen preferat (descriptor) și termeni nepreferențiali (non-descriptori), baza unicității conceptului. Această relație este reprezentată de acronimul EP (abrevierea „Angajat pentru”). Relația inversă a termenilor nepreferențiali față de termenul preferențial este reprezentată de acronimul EM (abrevierea „Angajator”)
Acestea sunt variante ale unor termeni specifici ( sinonimie sau cvasi-sinonimie) considerați ca „echivalenți” în limbajul cotidian, sau termeni reprezentând concepte suficient de apropiate pentru a fi considerate „echivalente” pentru sistemul de acces la informații.
Diverse tipuri de relații, elemente sau atribute suplimentare pot fi adăugate la această structură pentru a îmbogăți tezaurul sau pentru a îmbunătăți utilizarea acestuia. Putem cita în special diferite tipuri de note: folosiți note (sau note explicative sau de aplicație) care definesc sau clarifică perimetrul semantic al unui concept, note de definiție, note utile pentru manageri etc. De asemenea, este posibil să se furnizeze „echivalente lingvistice” de concepte pentru tezauri multilingve, precum și punți cu alte tezaure din același domeniu sau din domenii diferite.
Un tezaur este dezvoltat, fie manual de o persoană, fie de mai multe, datorită inteligenței umane (dezvoltarea unui tezaur de 3.000 de descriptori de către o singură persoană poate dura șase până la opt luni), sau automat, prin inteligență artificială, datorită tezaurului automat software de construcție precum SATO ( Computer Text Analysis System) sau printr-un amestec de abordare umană și automată. Sistemele automate de procesare a textului (indexare automată) permit extragerea celor mai frecvenți termeni dintr-un corpus și facilitează într-o anumită măsură apariția relațiilor lor semantice. Acest software informațional folosește, de asemenea, instrumente lingvistice pentru recunoașterea morfoloxică și sintactică. Potrivit lui G. Salton, Luhn și Mooers au fost primii care au luat în considerare înlocuirea indexatorilor cu mașina și a inteligenței umane cu inteligența artificială, de exemplu prin analiza frecvenței cuvintelor cheie (CRANFIELD II, SMART Information Retrieval System, relevanță, relevanță), ceea ce a condus la curentul de generare tezaur automat , de exemplu , datorită NCI_Metathesaurus pentru software - ul specializat , cum la IBM THESAUT-TP (crearea automată a unui tezaur de la profiluri sau întrebări documentare) , care este un software de procesare lingvistică pentru asistență interogare sau TLS ( Tezaur și sistem lingvistic) care, împreună cu programul THES, permite crearea și consultarea tezaurilor pentru a îmbogăți o întrebare. Apoi trebuie legat de indexarea automată a documentelor . Este un vocabular controlat, deoarece rezultă dintr-un proces îndelungat de sortare a cuvintelor, numelor și expresiilor utilizate într-un anumit domeniu. Este un proces pragmatic și continuu de raționalizare a termenilor descriptivi. Există trei metode de construire a unui tezaur:
Aceste metode au uneori alte nume, cum ar fi metoda „stalactitic” și „stalagmitic” (D. Sörgel). În vederea celei mai bune adecvări pentru domeniul considerat, termenii sunt inventariați, comparați, puși în relație și ierarhizați pentru a reflecta caracteristicile esențiale ale domeniului. Această ierarhie se bazează pe o tipologie : fiecare termen aparține unei categorii care îl situează în raport cu toți ceilalți termeni selectați și care în acest mod își stabilește prioritatea de utilizare. Ierarhia termenilor poate fi destul de diferită de la un tezaur la altul și chiar supusă inconsecvenței într-o utilizare sau alta a aceluiași tezaur.
În cele din urmă, pornind de la cel mai înalt nivel și corespunzător domeniului tezaurului, găsim mai întâi subdiviziunile majore care reprezintă componentele domeniului - subdiviziuni numite adesea microtesaur . Un exemplu de tezaur alcătuit dintr-un set de microtesauri, apoi pentru fiecare subdiviziune, ierarhia specifică descriptorilor. În tezaurul cu diagrame săgeată (de exemplu, Tezaur de gestiune), există o structură în câmpuri semantice , fiecare constituind un set de 30 până la 40 de descriptori definiți de un cuvânt cheie de titlu plasat în centrul grilei. Un tezaur se poate referi, de asemenea, la mai multe câmpuri, cum este cazul unui macrotezaur (exemplu: Tezaurul OECD). Un tezaur sectorial este specializat într-o singură zonă specifică de cunoaștere (exemplu: Tezaur de formare).
Rămâne întotdeauna o dimensiune arbitrară în ierarhia unui tezaur, fie în alegerea termenilor, fie în poziția ierarhică a acestora.
Există diferite standarde pentru dezvoltarea tezaurilor. (Citiți și numărul special al revistei documentaliste a ADBS .)
Acest proiect de standard, care este în curs de finalizare, înlocuiește cele două foste standarde: ISO 2788-1986: Principii directoare pentru stabilirea și dezvoltarea tezaurilor monolingve și ISO 5964-1985: Principii directoare pentru stabilirea și dezvoltarea tezaurilor multilingve.
Luați în considerare principalele titluri ale unui micro-tezaur pe un sistem computerizat colaborativ:
Secțiunea Persoane fizice ar consta, de exemplu, din:
Persoana responsabilă pentru orice contribuție ar putea fi astfel specificată prin cel puțin un termen descriptiv ales dintre cei cinci termeni specifici (TS) sau dintre cei trei termeni generici (TG), după cum este necesar. Termenii (PE) vor fi, în principiu, evitați în indexare, dar pot fi utilizați ulterior pentru a exploata exclusiv un anumit tip de contribuție fără a utiliza strict termenii proprii descrierii inițiale.
Oricare ar fi mediul său, un tezaur folosește de obicei prezentări alfabetice ale termenilor săi; prima etapă înainte de prezentarea relațiilor ierarhice. Astfel, utilizatorul poate fi confundat la început de absența unui termen într-o listă, în timp ce o altă modalitate de utilizare a tezaurului îi va dezvălui că acest termen este într-adevăr luat în considerare, dar datorită unei relații de echivalență cu un termen preferențial. Prezentările sub formă de grafice și hărți permit explorări mai complexe.
Utilizarea sau explorarea unui tezaur se poate face de obicei folosind diferite moduri de prezentare:
În aceste liste se poate găsi simbolul „ MT care indică microtezorul la care aparține termenul. Un microtezaur este un câmp semantic special care face posibilă consultarea tuturor termenilor înrudiți în timpul indexării unui document.
Există mai multe tipuri de prezentare:
dar inca :
Tezaurul grafic continuă să se dezvolte datorită interfețelor web și computer. Sistemele de management electronic al documentelor (EDM) au toate un modul de management și un tezaur de operare integrat.
Asociați descriptorilor sunt definiții (caz de dezambiguizare ), note care ajută utilizatorul sau editorul (notificări), linkuri de tot felul etc.
Primul tezaur operațional este cel al termenilor chimici din 1959, Tezaurul termenilor ingineri ( EIDuPont de Nemours și Co. al Centrului de informare inginerie. Tezaurul descriptorilor ASTIA enMai 1960creat de Agenția de Informații Tehnice a Serviciilor Armate (acum Centrul de Documentare a Apărării) cu concepte conform metodei Calvin Mooers, adică „descriptori”, cuvinte sau grupuri de cuvinte propuse pentru indexare și care se vor contopi cu Tezaurul Termenilor de Inginerie , construit de Consiliul mixt al inginerilor, în 1964 pentru a forma TESTUL TESAUAR în 1967. În 1961, apare Tezaurul ingineriei chimice , dezvoltat de Institutul American al Inginerilor Chimici (AIChE). Prin urmare, tezaurul documentar a fost numit și „tezaur descriptor” (G. Van Slype). Dijk Biroul Van specializat în tezaurele cu săgeată diagrame, cu reprezentarea grafică, cu terminograms , cum ar fi Euratom Tezaurul, primul tezaur european, și tezaure cu arbori cu poligoane sau cu diagrame circulare (sau cercuri concentrice) , cum ar fi cea a olandezilor armată în 1964, sistemul TDCK Circular Thesaurus. Primul tezaur francez care poartă acest nume ar fi tezaurul de armament CEDOCAR . Înflorirea tezaurilor datează din anii 1970 în știință și tehnologie. Încă din anii 1960, simpozioane privind construcția tezaurilor (Symposium on Thesaurus Building, Oslo, Norway (1965) au apărut astăzi numite workshop (Building Taxonomies for Information Retrieval: A Hands-On Workshop, 2005, ASIS). Potrivit lui Brian Vickery acest cuvânt regrupează apoi cel puțin patru semnificații diferite sub același cuvânt. Apar bibliografii naționale și internaționale și directoare ale tezaurilor , enumerate fie de ASLIB, fie de Buletinul bibliotecilor din Franța (BBF) din Franța. Tezaurile sunt inventariate. diferite directoare, inclusiv:
Tezaurul a fost inventat în vederea indexării și apoi a căutării documentelor. În 1971, UNESCO a stabilit linii directoare pentru tezaure multilingve. Foarte repede, în 1972/74, tezaurul a fost standardizat (standardele naționale AFNOR Z 47-100 și ISO 2788 internațional ), după un simpozion la Berlinul de Vest în 1973 cu UNISIST, ISO și UNESCO apoi o conferință la Helsinki înMai 1976ceea ce duce la proiectul de ghid de înființare a tezaurelor multilingve . După publicarea noilor standarde anglo-saxone în 2005 (ANSI / NISO Z39.19 și BS 8723), o nouă versiune a acestui standard ISO, care fuzionează versiunile mono și multilingve, a apărut ca proiect înoctombrie 2009.
„♦ LING. (lexicogr.). „Inventarul unităților lexicale ale unui limbaj care vizează exhaustivitatea” (Mounin 1974); titlul lucrărilor științifice, inclusiv dicționare și enciclopedii. Comoara limbii grecești; Comoara limbii latine; Comoara limbii franceze; Comoara lui Félibrige . "
Surse cheie:
Diverse:
Citește și: Studii istorice în știința informației - De Trudi Bellardo Hahn, Michael Keeble Buckland pe Google Books