mardi 21 avril 2009

comment construire un thésaurus

méthode

construire un thesaurus

danièle degez
archimag - mars 2009

Outil documentaire par excellence, le thesaurus, s’il est souvent importé, doit parfois être construit ex nihilo. Il convient alors de respecter scrupuleusement un certain nombre de règles et de bonnes pratiques que détaille pour Archimag l’une de ses spécialistes les plus reconnues [Ancienne présidente de l'ADBS et co-auteure de "Thésauroglossaire des langages documentaires" (ADBS, 2001), elle participe aux travaux de mise à jour des normes Iso sur le thesaurus]

1 - le cahier des charges

Un thesaurus sera d’autant mieux construit qu’il sera préparé par la rédaction d’un cahier des charges avec les informations suivantes :

  • Les types et le nombre de documents à indexer : livres, articles de revues, images fixes ou animées, rapports internes, catalogues
  • Les domaines à couvrir : spécifique ou encyclopédique, ancien ou nouveau.
  • Les types d’utilisateurs et leurs besoins. Les questions le plus souvent posées : précises ou larges, par des professionnels de l’infodoc ou par des usagers peu habitués à naviguer dans un thesaurus…L’usage d’internet rend plus difficile la connaissance de l’utilisateur final dans le cas des services en ligne.
  • Les objectifs : Ged, veille, knowledge management.
  • Les logiciels prévus : permettent-ils une navigation facile dans le thesaurus.
  • Les ressources disponibles – budgétaires, humaines…

Plus le cahier des charges sera précis, mieux le thesaurus sera ciblé. En cette première étape, il est également important de collecter tous les documents utiles : glossaires, plans de classement et thesaurus de domaines proches ou précédemment élaborés, normes Afnor et Iso.

2 - collecte et normalisation

Il s’agit de collecter les termes par extraction d’un échantillon de concepts des documents et des questions des utilisateurs. C’est la méthode analytique ; elle permet de coller à la réalité du service concerné, en prenant en compte tant la terminologie des documents que celle des utilisateurs. Le thesaurus doit être un outil pour la recherche des informations et pas seulement pour l’indexation. La méthode synthétique consiste à collecter les concepts à partir de sources de références : dictionnaires, index d’ouvrages, thesaurus voisins. Elle permet de collecter un vocabulaire plus large mais risque de ne pas être le reflet des termes réellement utiles. Les deux méthodes sont généralement appliquées simultanément. La collecte doit être large. Il est préférable d’avoir à supprimer des mots ensuite plutôtque d’avoir à en rechercher. Cette étape constitue la base des travaux suivants. Les termes relevés sont de deux types : noms communs, noms propres. Ils doivent être traités séparément mais en respectant une normalisation définie à l’avance. Pour les noms communs :

  • Ce doit être des substantifs masculins singuliers, sauf exceptions. Parfois le terme au pluriel a un sens différent de celui au singulier – par exemple, échec et échecs, mémoire et mémoires.
  • Les mots sont écrits dans le sens normal de la langue et avec les articles à l’intérieur pour éviter les ambiguïtés – par exemple, droit de la formation et droit à la formation.
  • Les vocables peuvent être des unitermes ou des mots composés. L’écriture des mots composés doit être normalisée selon les mêmes règles : avec blanc, tiret ou collés, par exemple vidéocommunication, allocation logement ou hand-ball.
  • L’écriture des sigles doit être surveillée: sans blanc ni point entre les lettres –par exemple, TAO, Ged…
  • Les homographes (mots de sens différents avec la même orthographe) doivent être repérés et précisés – par exemple, avocat (fruit ou profession), kiwi (fruit ou animal).

Concernant les noms propres :

  • Ils sont de plusieurs types : noms de personnes physiques ou morales, termes géographiques, noms de produits divers… Même s’ils sont généralement gérés à part, ils doivent être contrôlés et normalisés car il existe des homographes et des variantes orthographiques.

3 - hiérarchisation et relations sémantiques

  • La relation hiérarchique exprime un rapport de subordination entre les notions. Elle facilite la navigation verticale, du terme le plus général aux termes les plus spécifiques. Il existe plusieurs types de relations hiérarchiques génériques, partitives, organisation par thèmes ou facettes. Les termes sont regroupés par champs sémantiques d’environ 50 mots, eux-mêmes hiérarchisés. Cette opération ne peut être réalisée qu’après la normalisation.
  • La relation d’équivalence relie les synonymes et quasisynonymes – par exemple, automobile et voiture, séisme et tremblement de terre. L’un des deux termes, accepté à l’indexation et à la recherche, s’appelle «descripteur », ses équivalents, les « non-descripteurs ».
  • La relation associative, ou relation de voisinage, indique des analogies entre des notions ayant une proximité sémantique mais qui ne sont pas liées par des relations de hiérarchie ou d’équivalence –par exemple, pétrole et pollution.

Les sigles reliant toutes ces relations sémantiques sont normalisées – norme Afnor Z47.100 : EM et EP (employer et employé pour) pour l’équivalence, TG et TS (terme générique et spécifique) pour la hiérarchie, TA (terme associé) pour le voisinage.Les termes d’un thesaurus doivent avoir une signification sans ambiguïté, certains peuvent recevoir une courte définition dans une « note d’application » ou « d’explication». Le terme est suivi du sigle NA. Il existe parfois une note historique expliquant l’évolution d’un concept. La présentation de l’ensemble des termes du thesaurus peut varier mais, généralement, on trouve :

  • La liste alphabétique « structurée » comprenant l’ensemble des termes classés en ordre alphabétique avec toutes leurs relations.
  • La présentation hiérarchique, exprimée par le décalage des termes.
  • L’index permuté dans lequel les termes composés sont présentés dans l’ordre alphabétique de chacune de leurs parties composantes.
  • Les listes annexes, qui regroupent les noms propres, classés en ordre alphabétique, avec leurs équivalents, les termes géographiques, organisés, comme les noms communs, en listes alphabétiques et regroupements hiérarchiques.

4 - tests et validation finale

Il est essentiel de procéder à des tests avant d’utiliser quotidiennement son thesaurus; des tests d’indexation permettront de valider le choix des termes, de vérifier que tous les homographes ont été contrôlés, que tous les synonymes ont été regroupés… On procède à un choix représentatif de documents, qui sont alors indexés, on vérifie la pertinence des termes choisis, on repère des notions utiles qui auraient pu être oubliées au moment de la collecte. Pour vérifier la qualité du travail réalisé, il peut être intéressant de contacter de futurs utilisateurs afin qu’ils donnent leur avis sur les termes retenus, proposent des définitions, apportent leur connaissance du langage de l’organisme intéressé. À ce stade, il faut rester vigilant. Chacun voit le thesaurus en fonction de ses propres besoins en ignorant ceux du voisin.
Il est utile d’effectuer les tests assez tôt, dès que la collecte et la normalisation sont terminées, avant la hiérarchisation définitive, toujours source de contestations. Dans le cas de construction d’un thesaurus pour un réseau de centres, il est important d’organiser des réunions d’information, en particulier auprès de ceux qui devront l’utiliser : indexeurs et utilisateurs. Un comité d’experts peut être désigné afin de valider les choix.

5 - mise à jour et maintenance

Le thesaurus terminé doit faire l’objet d’une surveillance régulière. Il devient vite obsolète s’il n’est pas mis à jour régulièrement avec l’examen des « candidats descripteurs » : les termes nouveaux proposés par les indexeurs et les utilisateurs. Il est recommandé de nommer un administrateur du thesaurus : il étudiera les termes proposés avant de les intégrer, moyen d’éviter les risques de laisser à chacun la possibilité d’intervenir en ajoutant ou modifiant des descripteurs. La conséquence en est généralement la destruction de tout le travail déjà réalisé! La mise à jour consiste à vérifier, pour chaque candidat descripteur s’il n’existe pas déjà dans le thesaurus sous forme d’équivalent, si le terme proposé offre un intérêt permanent et n’est pas un phénomène de mode, si son introduction ou sa suppression ne risque pas d’avoir des conséquences sur des descripteurs existants, par exemple en amenant un homographe… Si le terme est accepté, il doit être introduit avec précautions – emplacement dans une hiérarchie, création des relations associatives. Il est également important de considérer les conséquences des modifications sur les notices déjà indexées. La maintenance du vocabulaire nécessite l’analyse récurrente des descripteurs utilisés afin de suivre l’évolution des domaines et des besoins des utilisateurs. Des statistiques périodiques sont souhaitables afin de vérifier si un terme est employé trop souvent, tels les termes très généraux. Si un terme est utilisé rarement, il peut être transformé en équivalent. Avant de le supprimer ou de le transformer, il faut vérifier s’il ne fait pas partie de l’ossature du thésaurus. C’est le cas si ce descripteur est un terme générique.

6 - l’art et le plaisir

Internet n’a pas supprimé l’intérêt pour les thesaurus. Ils sont, d’ailleurs, très nombreux sur le web. Les ressources terminologiques se sont multipliées, ce qui peut faciliter mais aussi compliquer le travail des constructeurs de thesaurus. Il ne faut pas oublier qu’un thésaurus métier doit refléter le langage et la culture de l’organisme qui l’a commandé. Il existe, dans la réalité, des néologismes propres à un groupe d’utilisateurs et des acceptions de termes non prévues dans les dictionnaires et glossaires. Tout l’art, – et le plaisir – du constructeur de thesaurus est justement de les repérer et de faire de cet outil linguistique un vecteur de communication.

2 commentaires:

  1. salut,

    Merci pour cette article, je le trouve très intéressant.
    Je prépare actuellement ma thèse et j'ai besion de créer un thesaurus pour le francais que je vais utiliser après. Pour faire cela j'ai besoin d'abord d'un thesaurus pour le francais pour qu' ensuite j'ajoute les noms qui sont spécifique pour moi. Est ce que vous pouvez me recommander un thesaurus ( je travaille sur un sujet en relation avec l'employabilité et le chômage des jeunes et l'implication des parties prenante de l'emploi ) ? Merci

    RépondreSupprimer
  2. Merci bien pour pour l'intéressent article. Il est utile.
    Je travaille dans un centre de documentation spécialisé en statistiques. L'accès au fonds ainsi qu'au contenu du site est un peu difficile à cause de l'absence d'outil d'indexation ou de lexique pour faciliter la recherche et l'accès aux contenus (papier ou web), j'ai pensé à construire un thésaurus et je voudrais avoir une aide sur la démarche à suivre pour arriver à mettre en place un thésaurus.
    merci d'avance.

    RépondreSupprimer