BRL Quasi-Optimal à l’aide de Transitions Locales Optimistes

نویسندگان

  • Mauricio Araya-López
  • Vincent Thomas
  • Olivier Buffet
چکیده

Résumé : L’apprentissage par renforcement bayésien basé modèle (BRL) permet une formalisation saine du problème consistant à agir optimalement face à un environnement inconnu, c’est-à-dire en évitant le dilemme exploration-exploitation. Toutefois, les algorithmes s’attaquant explicitement au BRL souffrent d’une telle explosion combinatoire qu’un grand nombre de travaux repose sur des algorithmes heuristiques. Cet article introduit BOLT, un algorithme heuristique simple et (presque) déterministe pour le BRL qui est optimiste vis à vis de la fonction de transition. Nous analysons la complexité d’échantillon de BOLT et montrons que, pour certains paramètres, l’algorithme est quasi-optimal au sens bayésien avec une grande probabilité. Puis, des résultats expérimentaux mettent en valeur les principales différences entre cette méthode et des travaux antérieurs.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Nommage de sens à l’aide des vecteurs conceptuels Word Sense Naming with Conceptual Vectors

Dans le cadre de la recherche en sémantique lexicale, nous utilisons le modèle des vecteurs conceptuels pour représenter les aspects thématiques des mots. La base vectorielle est construite à partir de définitions provenant de différentes sources lexicales, ce qui permet statistiquement de tempérer les diverses incohérences locales. Pour désigner le sens obtenu après un regroupement des définit...

متن کامل

Beat tracking using the Delta-Phase matrix Détection des positions de la battue dans les signaux musicaux à l’aide de la matrice «Delta-Phase»

Nous proposons un algorithme simple mais efficace pour la détection des positions de la battue dans les signaux musicaux. Le concept de matrice “DeltaPhase” est présenté. Il s’agit de représenter l’évolution de la phase de la battue par rapport à la période correspondant à un tempo estimé au préalable. Le chemin optimal dans la matrice “delta-phase” est déterminé grâce à de la programmation dyn...

متن کامل

Vers La Synthèse Automatique De Circuits À Partir De Graphes Algorithmiques Factorisés

RESUME. On présente dans cet article les principes permettant de synthétiser le circuit correspondant à une spécification algorithmique faite à l’aide d’un modèle de graphe de dépendances factorisé. Ce dernier est transformé en un graphe matériel comprenant les chemins de données et de contrôle, en suivant des règles simples de synthèse basées sur le modèle RTL et des mécanismes de transferts d...

متن کامل

Transformée de Mellin des intégrales- fibres associées à l’intersection complète non-dégénérée

Résumé. La transformée de Mellin de l’intégrale -fibre est calculée pour certaines classes d’intersection complète non-dégénérée affine, surtout les cas nommés simpliciables. On met à jour la structure de réseaux des pôles de la transformée de Mellin à l’aide des données topologiques qui décrivent la structure de Hodge de la variété affine. On établit la relation de l’intégrale-fibre avec la fo...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012