نتایج جستجو برای: الگوریتم fuzzy sarsa
تعداد نتایج: 112094 فیلتر نتایج به سال:
کنترل ازدحام در یک شبکه کامپیوتری، عبارت است از کنترل صف تشکیل شده از بسته های اطلاعاتی در بافر مسیریاب شبکه، به منظور کاهش از دست دادن اطلاعات و تاخیر به واسطه ی ایجاد صف و در عین حال افزایش میزان گذردهی بسته های اطلاعاتی. کنترل ازدحام در اینترنت، هنوز یک موضوع حیاتی است. حجم داده ای که در اینترنت رد و بدل می شود، به سرعت در حال افزایش است. علاوه بر آن، برای پشتیبانی از کاربری های جدید اینترنت...
مکانیابی با درنظرگرفتن موضوع رقابت در بازار، یک تصمیم راهبردی و بلندمدت محسوب میشود. چنانچه انتخاب مکان، بررسیهای لازم صورت نگیرد، حیات سازمان تحت تأثیر قرار میگیرد. بهدلیل وجود پیچیدگیهای موجود مسائل مکانیابی، ارائه مدلهای محدودیتهای متنوعی مواجه است. هدف این پژوهش، توسعه مدل رقابتی درنظرگرفتن دو محصول از سوی سه رقیب است؛ برای منظور، مسئله بهصورت بازی مکان ـ قیمت تعریف استفاد...
مراقبت سلامت خانگی، ارائه مجموعهای از خدمات مراقبتی در منزل پیشگیری تا توانبخشی و مراقبتهای اولیه حرفهای پرستاری است. این پژوهش یک مدل ریاضی دوهدفه بر اساس رویکرد برنامهریزی خطی عدد صحیح مختلط برای مسئله مسیریابی زمانبندی مراقبت خانگی با اهداف حداقلسازی هزینههای سفر پرستاران حداکثر تفاوتهای زمان کاری بین شده درنظرگرفتن حالتهای دوگانه حملونقل عمومی خصوصی، مراکز درمانی آغازین پای...
Despite the impressive achievements of reinforcement learning (RL) in playing Backgammon already in the beginning of the 90’s, relatively few successful real-world applications of RL have been reported since then. This could be due to the tendency of RL research to focus on discrete Markov Decision Processes that make it difficult to handle tasks with continuous-valued features. Another reason ...
With the rapid advent of video games recently and the increasing numbers of players and gamers, only a tough game with high policy, actions, and tactics survives. How the game responds to opponent actions is the key issue of popular games.Many algorithms were proposed to solve this problem such as Least-Squares Policy Iteration (LSPI) and State-Action-Reward-State-Action (SARSA) but they mainly...
We present a cognitive, connectionist-based model of complex problem solving that integrates cognitive biases and distance-based and environmental rewards under a temporal-difference learning mechanism. The model is tested against experimental data obtained in a well-defined and planning-intensive problem. We show that incorporating cognitive biases (symmetry and simplicity) in a temporal-diffe...
This article presents an overview of Ipseity, an open-source platform developed in C++ with the Qt framework. The current version of the platform includes a set of plugins implementing single-agent and multi-agent environments, hardcoded controllers based on Artificial Intelligence (AI) techniques, classical Reinforcement Learning (RL) techniques like Q-Learning, Sarsa, Epsilon-Greedy combined ...
Policy evaluation using least-squares techniques (such as LSTD and iLSTD) have been shown to estimate the value of a policy with far less data than traditional TD techniques. Unfortunately, they make use of policy-dependent statistics that have to be discarded when the policy changes. This makes it difficult to use the techniques for online control problems. In this paper, we explore the effect...
We apply reinforcement learning to the problem of finding good policies for a fighting agent in a commercial computer game. The learning agent is trained using the SARSA algorithm for on-policy learning of an action-value function represented by linear and neural network function approximators. We discuss the selection and construction of features, actions, and rewards as well as other design c...
Learning to act and cooperate in dynamic multi-agent environments can be an excessively complex task, especially when it comes to imitating natural biological multi-agent systems (MAS). RoboCup simulated soccer is a multi-agent environment which presents many challenges to cooperative learning algorithms, including a large state space, hidden and uncertain states, multiple heterogeneous indepen...
نمودار تعداد نتایج جستجو در هر سال
با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید