Vous trouverez ci-dessous une description de quelques unes de mes réalisations :
Détection des emails non sollicités (spams)
Avec l'augmentation sans cesse croissante du nombre de messages non sollicités reçus, une solution de détection automatique s'avère indispensable.
Au cours de ces derniers mois, j'ai collecté un grand nombre de messages électroniques (spams et emails) dans le but d'étudier des méthodes de classification automatique.
Suite à cette étude, deux programmes ont été développés : Le premier est un plugin pour l'antispam Spamfilter, le second correspond à une solution complete de filtrage des spams.
Conception et développement du plugin "Domain Filter" pour Spamihilator
Un des points qui ressort de l'étude citée précédemment est que presque tous les spams contiennent des liens (url) vers des sites distants. De plus, les noms de domaine de ces sites ont souvent une syntaxe inhabituelle.
Des heuristiques ont été définies dans le but d'identifier les spams en fonction des noms de domaine qu'ils contiennent.
Le plugin "Domain Filter" effectue une extraction de tous les noms de domaines présents dans un message et identifie les spams à partir des heuristiques définies précédemment. Ce filtre est disponible en libre téléchargement. Un document publié sous la rubrique "technologie" détaille la configuration des filtres de Spamihilator.
Outils utilisés :
- C++
Conception et développement d'un programme antispam multi-plateforme
Ce programme utilise une architecture client-serveur et des agents spécialisés. Les mails sont collectés par des agents fonctionnant en tâche de fond. L'analyse est effectuée par d'autres agents. Les emails réguliers sont déposés dans une boîte de réception locale en attente de récupération par le client de messagerie (le système utilise un serveur POP local).
L'avantage d'une telle architecture est qu'elle permet sans problème de gérer un grand nombre de messages (des tests de récupération de plusieurs centaines de messages ont été effectués avec succès).
L'identification des spams est effectuée selon une approche multicritères, les filtres disposent d'une fonction d'apprentissage supervisé.
Le programme est actuellement en phase de beta test et une description détaillée sera publiée prochainement.
Outils utilisés :
- Java
Analyseur de curriculum vitae (Michael Page International)
Les informations concernant le candidat sont extraites directement à partir du
CV au format électronique :
- état civil de candidat (nom, prénom, age et/ou date de naissance,
situation),
- adresse, téléphone, email,
- formation,
- expérience professionnelle,
- compétences informatique et linguistique,
- informations diverses (permis de conduire, disponibilité, ...).
Une description plus détaillée est donnée sous la rubrique
technologie.
Outils utilisés :
- C++,
- C#,
- Java,
- Python,
- XML Spy,
- BayesiaLab (Bayesia),
- Neurosolutions (NeuroDimension),
- VisualText (Text
Analysis International),
- Machinese Phrase Tagger (Connexor).
Gestionnaire de CV en ligne (Michael Page International)
Conception et développement d'un système de saisie des CV en ligne.
- Création/mise à jour des CV à partir de formulaires,
- Possibilité de télécharger un CV au format Word,
- Création/mise à jour de lettres de motivation,
- Exports des CV aux formats HTML, PDF et RTF (les CV sont préalablement
générés au format XML puis convertis dans les formats cible à l'aide feuilles
XSLT et XSL:FO).
Outils utilisés :
- Java,
- Javascript,
- SQL Server,
- XML Spy.
Identification de personnes dans une base de données (Michael Page International)
Mise au point et implémentation d'une méthode de recherche de personnes dans
une base de données.
La recherche est effectuée à partir des noms, prénoms, adresse et numéros de
téléphone de la personne.
La méthode développée, basée sur la logique floue, est insensible aux
différences issues de l'étape de saisie de l'information (fautes de frappe,
mots attachés, ...).
Outils utilisés :
- Java,
- fuzzyTech (logique floue).
Agents logiciels (Net Development)
Ces derniers ont été développés dans le cadre de l'intégration de flux
d'informations (AFP, AP, Le Monde, ...) pour alimenter le site d'information de
TF1 (ancienne version).
Le rôle des agents était de collecter et d'analyser
l'information contenue dans les différents flux. Une fois extraite,
l'information était stockée dans une base de données Oracle. Un système de
fichier log permettait de suivre le déroulement du processus.
Outils utilisés :
- ColdFusion,
- Oracle 8.
Publication automatisée de catalogue (Fichet-Bauche)
Développement d'une solution de publication automatisée du catalogue des pièces
détachées.
La mise en page est effectuée de manière totalement
automatique à partir d'un fichier texte délimité exporté du système AS/400.
L'application développée génère un fichier au format MML (Maker Markup
Language) qui est ensuite automatiquement mis en page à l'aide du logiciel
FrameMaker.
Outils utilisés :
- FrameMaker,
- Prograph.

