Recherche incrémentale à base de points pour la résolution des DEC-POMDPs (présentation courte)
نویسندگان
چکیده
Recent scaling up of decentralized partially observable Markov decision process (DECPOMDP) solvers towards realistic applications is mainly due to approximate methods. Of this family, MEMORY BOUNDED DYNAMIC PROGRAMMING (MBDP), which combines in a suitable manner top-down heuristics and bottomup value function updates, can solve DECPOMDPs with large horizons. The performance of MBDP, however, can be drastically improved by avoiding the systematic generation and evaluation of all possible policies which result from the exhaustive backup. To achieve that, we suggest a heuristic search method, namely POINT BASED INCREMENTAL PRUNING (PBIP) which is able to distinguish policies with different heuristic estimate. Taking this insight into account, PBIP searches only among the most promising policies, finds the useful, and prunes dominated ones. Doing so permits us to reduce clearly the amount of computation required by the exhaustive backup. A theoretical analysis of PBIP shows that it is both complete and optimal (with respect to MBDP). We also present experiment results, which show how PBIP outperforms the performance of MBDP and extensions on DECPOMDP examples from the literature.
منابع مشابه
Programmation dynamique à base de points pour la résolution des DEC-POMDPs
RÉSUMÉ. Nous présentons un nouvel algorithme de planification pour la construction de systèmes multi-agents réactifs et situés pouvant se modéliser par des processus de décision de Markov décentralisés (DEC-POMDP). Cet algorithme est fondé sur la programmation dynamique à base de points. Il est dérivé de techniques de programmation dynamique optimale utilisées pour résoudre des jeux stochastiqu...
متن کاملPrise de décision en temps-réel pour des POMDP de grande taille
RÉSUMÉ. Cet article présente une méthode d’approximation pour les processus décisionnels de Markov partiellement observables (POMDP) qui est basée sur une recherche en profondeur pour la planification dans un environnement temps-réel dynamique. L’idée de base de notre approche, appelée RTBSS (Real-Time Belief Space Search), est d’éviter de calculer des politiques complètes pour des POMDPs. Cett...
متن کاملUtilisation de l'analyse factorielle des correspondances pour la recherche d'images à grande échelle
Résumé. Nous nous intéressons à l’utilisation de l’Analyse Factorielle des Correspondances (AFC) pour la recherche d’images par le contenu dans une base de données d’images volumineuse. Nous adaptons l’AFC, méthode originellement développée pour l’Analyse des Données Textuelles (ADT), aux images en utilisant des descripteurs locaux SIFT. En ADT, l’AFC permet de réduire le nombre de dimensions e...
متن کاملDosimetry at high-energy accelerators
R É S U M É Les problèmes de la dosimetric dans les champs de rayonnements ionisants diffusés autour des accélérateurs de haute énergie sont présentés. Après une courte introduction sur l'historique des grandeurs physiques utilisées pour l'acquisition de l'équivalent de dose, les techniques diverses pour la dosimétrie dans des champs mixtes à haute énergie sont décrites, en commençant par des m...
متن کاملConception, modélisation géométrique et contraintes en CAO : une synthèse
RÉSUMÉ. Les logiciels de CAO ont pour perspective de devenir de véritables outils d’aide à la conception d’objets physiques. Mais la conception préliminaire reste un domaine de recherche largement ouvert. Cet article de synthèse s’efforce de montrer qu’une approche par contraintes du processus de conception est incontournable pour atteindre ce but. La conception est vue ici comme un processus c...
متن کامل