Une approche filtre pour la sélection de variables en apprentissage non supervisé
نویسندگان
چکیده
Résumé. La Sélection de Variable (SV) constitue une technique efficace pour réduire la dimension des espaces d’apprentissage et s’avère être une méthode essentielle pour le pré-traitement de données afin de supprimer les variables bruitées et/ou inutiles. Peu de méthodes de SV ont été proposées dans le cadre de l’apprentissage non supervisé, et, la plupart d’entre elles, sont des méthodes dites ”enveloppes” nécessitant l’utilisation d’un algorithme d’apprentissage pour évaluer les sous ensembles de variables. Or, l’approche ”enveloppe” est largement mal adaptée à une utilisation lors de cas ”réels”. En effet, d’une part ces méthodes ne sont pas indépendantes vis à vis des algorithmes d’apprentissage non supervisé qui nécessitent le plus souvent de fixer un certain nombre de paramètres ; mais surtout, il n’existe pas de critères bien adaptés à l’évaluation de la qualité d’apprentissage non supervisé dans des sous espaces différents. Nous proposons et évaluons dans ce papier une méthode ”filtre” et donc indépendante des algorithmes d’apprentissage non supervisé. Cette méthode s’appuie sur deux indices permettant d’évaluer l’adéquation entre deux ensembles de variables (entre deux sous espaces).
منابع مشابه
Sélection topologique de variables dans un contexte de discrimination
Résumé. En apprentissage automatique, la présence d’un grand nombre de variables explicatives conduit à une plus grande complexité des algorithmes et à une forte dégradation des performances des modèles de prédiction. Pour cela, une sélection d’un sous-ensemble optimal discriminant de ces variables s’avère nécessaire. Dans cet article, une approche topologique est proposée pour la sélection de ...
متن کاملValidation statistique des cartes de Kohonen en apprentissage supervisé
Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenn...
متن کاملPondération locale des variables en apprentissage numérique non-supervisé
Résumé. Dans cet article, nous proposons une nouvelle approche de pondérations des variables durant un processus d’apprentissage non supervisé. Cette méthode se base sur l’algorithme « batch » des cartes auto-organisatrices. L’estimation des coefficients de pondération se fait en parallèle avec la classification automatique. Ces pondérations sont locales et associées à chaque référent de la car...
متن کاملMéthodologie de sélection de caractéristiques pour la classification d'images satellitaires
Résumé : Choisir les descripteurs d’une image en vue de son indexation n’est pas aisé, du fait de la variété des choix présentés dans la littérature. Nous développons à cet effet une méthodologie permettant de comparer différents ensembles de caractéristiques extraits d’une même base d’images. Cette méthodologie repose sur des algorithmes supervisés et non supervisés de sélection de caractérist...
متن کاملVers une indexation personnalisée de photographies par apprentissage non supervisé de régularités
RÉSUMÉ. Cet article propose une approche pour indexer des images photographiques avec pour objectif de permettre une bonne qualité d'annotation des images et aussi un moyen de visualiser, pour un utilisateur non expert, ce que le système apprend pour éventuellement corriger un apprentissage défectueux. Notre approche repose sur la génération de régularités dans l'espace des caractéristiques ext...
متن کامل