S0100 : MHATLex
MHATLex est une nouvelle ressource lexicale pour le traitement automatique du français écrit et oral.
Elle est basée sur BDLex (voir ELRA-S0004), dont elle constitue un enrichissement en terme de représentation.
Il existe trois niveaux de représentation pour les ressources MHATLex :
- Niveau syntaxique : S
- Niveau phonologique des mots : W
- Niveau phonétique : P
Au niveau W, un mot (ou un énoncé) a deux représentations :
la représentation d'entrée (représentation W) où les mots sont simplement importés du lexique,
la représentation de sortie (W' ou phonotypique) où les mots ont la représentation phonotypique qu'impose leur contexte dans la phrase.
Les lexiques contiennent des mots fléchis (parmi lesquels les mots canoniques).
MHATLexSt (& BDLex) MHATLexW : environ 50 000 entrées (canonique) & 440 000 entrées (fléchis)
MHATLexW' : environ 81 000 entrées (canonique) & 854 000 entrées (fléchis)
Les mots sont représentés par leur graphie, leur prononciation leurs attributs morpho-syntactique, un indicateur de fréquence.
Seule la partie relative à la prononciation change selon le lexique (sauf si l'usager génère son propre lexique en se passant de quelques attributs).
Quatre lexiques peuvent être générés dans MHATLex:
- MHATLexW : c'est actuellement la ressource lexicale centrale permettant de générer tous les autres lexiques.
- MHATLexW' (ou MHATLexPht) : donne les représentations des mots pour chaque contexte pertinent.
- MHATLexSt : avec forme standard et simplifiée de la prononciation.
- BDLex (ou BDLex50) : forme déjà distribuée par ELDA (ELRA-S0004). Le BDLex actuel, dérivant de MHATLexW, contient des mises à jour.
|