Calelh

Domenge published on
4 min, 786 words

Categories: Development


https://calelh.osca.dev

Présentation de Calelh

L'application Calelh est la numérisation du dictionnaire de Louis Alibert. Le support numérique donne une nouvelle pertinence au travail remarquable du linguiste. Son dictionnaire n'est plus disponible que sous forme de facsimile cependant la seconde partie est disponible sous forme numérique grâce au travail de l'université Paul Valéry. C'est cette partie qui a servi à documenter la base de données.

La première partie du dictionnaire est le livret qui sert d'introduction au dictionnaire proprement dit, elle a été saisie par nos soins dans le cadre du projet Calelh.

Le travail d'Alibert considère chaque entrée comme un lemme puis il liste les termes produits selon des dérivations ou des compositions. Le traitement informatique part du lemme puis développe sa production sous forme ontologique.

Le livret (premières pages introductives)

On trouvera les premières pages du dictionnaire organisées selon un ensenhador (table des matières).

La terminologie linguistique est explicitée dans l'étude des mutations phonétiques des parlers languedociens (partie I).

La partie II traitera de morphologie ou de la formation des mots populaires en occitan.

Enfin la troisième décrira l'utilisation des mots grecs et latins à l'occitan. On y trouvera principalement la formation des mots savants.

Enfin la quatrième et dernière partie listera les abréviations utilisées dans le dictionnaire, selon leur type.

Dans chaque page, le texte est enrichi de façon à rendre la lecture plus agréable et distinguer les formes recommandées parmi les formes usitées. L'utilisation d'un langage de marquage par balises permet de marquer clairement les termes et de pouvoir les extraire sans erreur.

types d'abréviation

  • POS pour part of speech,
  • LOC pour la localisation des mots,
  • STRUCT pour qualifier la structure des définitions,
  • ACCEPTION pour désambigüiser les différents sens d'un terme,
  • META pour l'information contextuelle non encore valorisée.

STRUCT

derv: dérivation comp: composition etym: étymologie pos: Part of Speech loc: localisation vrnt variante syn: synonyme f: français cmnt: commentaire

Dictionnaire

Liste par lettre

Ce menu est une liste déroulante affichant chaque lettre de l'alphabet occitan, à côté de laquelle figurent deux bulles avec des nombres (badges).

  • Le premier indique le nombre d'entrées total,
  • le second indique les entrées corrigées et validées.

En cliquant sur l'item on affiche la page de la lettre avec toutes les entrées. En premier apparaissent les entrées non corrigées avec un icone ❗ (point d'exclamation). En cliquant sur une entrée on ouvre la visualisation de celle-ci.

Visualisation d'une entrée

La page de visualisation d'une entrée affiche sa représentation sous forme ontologique. La définition est explosée en ses différentes constituantes, voir STRUCT dans le paragraphe types d'abréviation.

À partir de la vedette figurée par une étoile au centre de l'ontologie part un réseau de liaisons pour chacune des constituantes (derv, etym, comp, pos) selon une hiérarchie régie par une grammaire formelle. La hiérarchie est encodée selon une formule de syntaxe YAML modifiable dans une boîte éditable située à gauche de la fenêtre. Une fois la formule YAML corrigée et sauvegardée, le flag ☑️ (corrigé) est mis.

Développements à venir

Une édition papier peut être générée à partir de la base de données et un document LATEX sera produit.

Une image de l'ontologie pourra être insérée si la structure de l'entrée est assez complexe ou intéressante.

La formule YAML sera convertie en une véritable entrée de dictionnaire, bien formée et avec la colorisation des types de données. (loc, pos, etym, …).

Dans l'édition numérique les synonymes seront accessibles grâce à une URL.

Statistiques

Dès que tous les termes seront encodés des statistiques pourront être menées aisément sur les liens ontologiques identifiés.

Analyseur morphologique

À usage expérimental seulement. La partie III du livret liste les préfixes et suffixes grecs et latins de la langue occitane. Ce sont les désinences qui viennent s'accoler aux lemmes afin de composer de nouveaux mots, c'est la morphologie.

Dans la version numérique ces listes sont nomenclaturées et complétées par des expressions régulières (regex) permettant de les extraire d'un mot. Chaque entrée dans cette liste est alors une règle dont Alibert a donné la désinence occitane, l'étymon et les exemples et la regex correspondante.

Le moteur morphologique consiste à appliquer toutes les règles au mot afin de sortir toutes les règles qui s'appliquent.

Limitations

L'analyseur morphologique est encore à une étape précoce de développement certaines rugosités le rendent impropre à un usage sérieux.

Les règles pour les suffixes comme pour les préfixes ne s'exercent qu'une fois, un mot composé de plusieurs préfixes et/ou plusieurs suffixes ne sera détecté que pour ses préfixes et suffixes les plus accessibles. Ex : otorinolaringologia pour otorhinolaringologie ne se résoudra pas en oto-rino-laringo-logia, seul le prefixe 'oto' sera isolé entre autres analyses.

#