Projets

Projets développés par osca.dev

Calelh

Domenge published on
4 min, 786 words

https://calelh.osca.dev

Présentation de Calelh

L'application Calelh est la numérisation du dictionnaire de Louis Alibert. Le support numérique donne une nouvelle pertinence au travail remarquable du linguiste. Son dictionnaire n'est plus disponible que sous forme de facsimile cependant la seconde partie est disponible sous forme numérique grâce au travail de l'université Paul Valéry. C'est cette partie qui a servi à documenter la base de données.

La première partie du dictionnaire est le livret qui sert d'introduction au dictionnaire proprement dit, elle a été saisie par nos soins dans le cadre du projet Calelh.

Le travail d'Alibert considère chaque entrée comme un lemme puis il liste les termes produits selon des dérivations ou des compositions. Le traitement informatique part du lemme puis développe sa production sous forme ontologique.

Le livret (premières pages introductives)

On trouvera les premières pages du dictionnaire organisées selon un ensenhador (table des matières).

La terminologie linguistique est explicitée dans l'étude des mutations phonétiques des parlers languedociens (partie I).

La partie II traitera de morphologie ou de la formation des mots populaires en occitan.

Enfin la troisième décrira l'utilisation des mots grecs et latins à l'occitan. On y trouvera principalement la formation des mots savants.

Enfin la quatrième et dernière partie listera les abréviations utilisées dans le dictionnaire, selon leur type.

Dans chaque page, le texte est enrichi de façon à rendre la lecture plus agréable et distinguer les formes recommandées parmi les formes usitées. L'utilisation d'un langage de marquage par balises permet de marquer clairement les termes et de pouvoir les extraire sans erreur.

types d'abréviation

  • POS pour part of speech,
  • LOC pour la localisation des mots,
  • STRUCT pour qualifier la structure des définitions,
  • ACCEPTION pour désambigüiser les différents sens d'un terme,
  • META pour l'information contextuelle non encore valorisée.
Read More
#