Présentation Curriculum Contact Technologie Réalisation Liens

Détection des noms de sociétés sans dictionnaire

La constitution de dictionnaires spécialisés, tel que celui des noms de sociétés représente une tâche très consommatrice en temps. De, plus dans le cas de données en perpétuelle évolution (de nouvelles sociétés sont constamment créées, d'autres cessent leur activité) la maintenance d'un tel recueil s'avère très laborieuse.

Des études publiées dans la littérature montrent que l'importance de l'utilisation des dictionnaires est toute relative dans le cas de la reconnaissance des entités nommées ([1] et [2])

Mikhev et al. [1] ont ainsi montré que leur système, qui atteint un score P & R de 91,5 % (voir encadré « Métriques pour l'évaluation des systèmes de filtrage d'information ») dans le cadre de l'identification des noms d'organisations, voit son score réduit à 85,5 % lorsqu'ils effectuent les tests sans les dictionnaires spécialisés.

métriques
Métriques pour l'évaluation des systèmes de
filtrage d'information [3]

Suite à ces résultats, une méthode de détection des noms de sociétés basée sur l'utilisation d'un réseau Bayésien a été étudiée dans le cadre du développement d'un analyseur de CV.

L'objectif est d'identifier les noms des sociétés cités dans la section « Expérience Professionnelle » des CV des candidats sans faire appel à un dictionnaire spécialisé.

La démarche retenue est la suivante : Les mots constitutifs des noms de sociétés sont identifiés à l'aide d'un réseau bayésien. Ces mots marqués sont ensuite utilisés comme amorces dans une étape d'analyse de type « parsing » effectuée à l'aide d'une grammaire spécialisée.

Des heuristiques sont également utilisées pour reconstituer les noms de société dans leur intégralité.

Développement du réseau bayésien

L'identification des mots constitutifs des noms des sociétés est effectuée à partir de différents types de données :

  • Données sur la structure des mots : Mot tout en majuscule, première lettre en majuscule, tout en minuscule,
  • Mot absent du dictionnaire des mots communs,
  • Propriétés morphosyntaxique du mot (type grammatical, genre, ...),
  • Nature des lexèmes précédents et suivants,
  • Données caractéristiques de la ligne de texte dans laquelle le mot apparaît (nombre de mots, ponctuation, ...).

A partir de ces données, chaque mot est caractérisé par un vecteur à 21 dimensions.

Un corpus comportant 8000 CV a été analysé, les données correspondantes aux mots rencontrés dans la section « Expérience Professionnelle » ont été collectées. Pour chaque mot, une dimension supplémentaire, indiquant si le mot fait parti d'un nom de société, a été ajoutée au vecteur des caractéristiques (ceci permet l'utilisation des algorithmes d'apprentissage supervisés).

Un réseau bayésien [4,5] a été construit à l'aide de l'outil « BayesiaLab » (www.bayesia.com). L'architecture du réseau a été obtenue par apprentissage supervisé selon l'algorithme « Enfants & Epouses ».

La structure du réseau obtenue est présentée dans la figure ci-dessous :

réseau bayésien

Des tests de performance ont été effectués à partir de CV absents du corpus de départ. Les performances du réseau sont les suivantes :

  • Rappel = 84 %
  • Précision = 72 %
  • P & R = 77,5 %

Phase d'analyse

Les données issues du réseau bayésien sont utilisées pour effectuer un marquage prédictif des mots composant les noms de sociétés.

Ensuite, une étape d'analyse (parsing) basée sur l'utilisation de règles grammaticales dédiées est effectuée.

Les noms de sociétés sont ainsi identifiés in extenso.

Les performances globales du système sont indiquées ci-dessous :

  • Rappel = 75 %
  • Précision = 80 %
  • P & R = 77,3 %

Actuellement, des tests visant à améliorer ces performances sont en cours, les résultats seront publiés prochainement.

Références

[1] Andrei Mikheev, Marc Moens, and Claire Grover. 1999. Named Entity Recognition without Gazetteers. In Proceeding of EACL'99.
[2] GuoDong Zhou, and Jian Su. 1999. Named Entity Recognition using an HMM-based Chunk Tagger. In Proceedings of the 40th Annual Meeting of the ACL.
[3] Ralph Grishman and Beth Sundheim. 1996. Message understanding conference - 6: A brief history. In Proceedings of the 16th International Conference on Computational Linguistics, Copenhagen.
[4] Ann Becker et Patrick Naïm. 1999. Les réseaux bayésiens - Modèles graphiques de connaissance. Editions Eyrolles.
[5] Richard E. Neapolitan. 2003. Learning Bayesian Networks. Prentice Hall series in artificial intelligence.