نتایج جستجو برای: الگوریتم fuzzy sarsa
تعداد نتایج: 112094 فیلتر نتایج به سال:
ربات اسکارا از جمله رباتهای صنعتی با مکانیزم سری میباشد که به دلیل قدرت مانور بالا در صفحه xy برای عملیات مونتاژکاری مناسب است. این ربات با عملگر الکتریکی در مقیاسهای مختلف طراحی و بهکارگرفتهشدهاست. عملگرهای نیوماتیکی دارای ویژگیهایی میباشند که میتوان آن ها را به عنوان گزینهای مناسب، برای بسیاری از کاربردها، از جمله محرک در رباتهای صنعتی مطرح کرد. در این پایان نامه ربات اسکارا با عمل...
چکیده ندارد.
اجرای موفقیتآمیز انواع مدلهای در مقیاس منطقهای به انتخاب نوع داده و الگوریتم مناسب بازمیگردد. این نکته، کنار ممکننبودن اندازهگیری تمامی اجزای طبیعت، منجر شکلگیری تحولی بزرگ شیوة درک پدیدهها شده است. شیوه، میتوان هر جزء از طبیعت را بهصورت یک عدد کمّی هندسة فراکتال درآورد. پژوهش حاضر، بهمنظور بررسی بعد شبکة زهکشی روی سازندهای زمینشناسی حوضة دشت یزدـ اردکان، همزمان الگوریتمهای جریان ...
When several agents learn concurrently, the payoff received by an agent is dependent on the behavior of the other agents. As the other agents learn, the reward of one agent becomes non-stationary. This makes learning in multiagent systems more difficult than single-agent learning. A few methods, however, are known to guarantee convergence to equilibrium in the limit in such systems. In this pap...
Two steps reinforcement learning is a technique that combines an iterative refinement of a Q function estimator that can be used to obtains a state space discretization with classical reinforcement learning algorithms like Q-learning or Sarsa. However, the method requires a discrete reward function that permits learning an approximation of the Q function using classification algorithms. However...
Recommendation system are widely used in e-commerce that is a part of ebusiness. It helps users locate information or products that they would like to make offers. In this paper, we purpose a new web recommendation system based on reinforcement learning, which is different from another system using Q-learning method. By using ε-greedy policy combined with SARSA prediction method, another powerf...
Multi-step temporal-difference (TD) learning, where the update targets contain information from multiple time steps ahead, is one of the most popular forms of TD learning for linear function approximation. The reason is that multi-step methods often yield substantially better performance than their single-step counter-parts, due to a lower bias of the update targets. For non-linear function app...
Dialogue assistants are rapidly becoming an indispensable daily aid. To avoid the significant effort needed to hand-craft the required dialogue flow, the Dialogue Management (DM) module can be cast as a continuous Markov Decision Process (MDP) and trained through Reinforcement Learning (RL). Several RL models have been investigated over recent years. However, the lack of a common benchmarking f...
در این مقاله برای جداسازی کور منابع گفتار کانولوتیو، یک روش ماسک زمان- فرکانس بر اساس مفهوم زاویه هرمیشن ارائه شده است. زاویه هرمیشن بین بردار ترکیب (خروجی میکروفونها) و بردار مرجع محاسبه میشود. در این مقاله ابتدا دو بردار مرجع مختلف برای محاسبه دو زاویه هرمیشن متفاوت فرض شده، سپس این زوایا با استفاده از روشهای k-means و fuzzy-cmeans خوشهبندی میشود. مسئله جایگشت منابع، بر اساس خوشهبندیk-m...
در این پایان نامه ما قصد داریم با به کارگیری شکل منظومه سیگنال دریافتی به عنوان ویژگی، به تشخیص نوع مدولاسیون های دیجیتال خطی در یک شبکه رادیوشناختی بپردازیم. رویکرد ما استفاده از خوشه بندی سیمبل های باند پایه سیگنال و ارزیابی نتایج خوشه بندی توسط معیارهای تأیید صحت خوشه بندی برای بازشناسی نوع منظومه سیگنال می باشد. به همین منظور تعدادی از معروف ترین الگوریتم های خوشه بندی و معیارهای ارزیابی خو...
نمودار تعداد نتایج جستجو در هر سال
با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید