Ìì´µ Óòúööö× Ûûøø Èöóóóóóððøý ½ Èøøö Ýò Ìöööòòò Â Ëëëòóû×××

نویسندگان

Peter Dayan

Terrence J Sejnowski

چکیده

The methods of temporal di erences (Samuel, 1959; Sutton 1984, 1988) allow agents to learn accurate predictions about stationary stochastic future outcomes. The learning is e ectively stochastic approximation based on samples extracted from the process generating the agent's future. Sutton (1988) proved that for a special case of temporal di erences, the expected values of the predictions converge to their correct values, as larger samples are taken, and Dayan (1992) extended his proof to the general case. This paper proves the stronger result that the predictions of a slightly modi ed form of temporal di erence learning converge with probability one, and shows how to quantify the rate of convergence.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2000

Ìì´µ Óòúööö× Ûûøø Èöóóóóóððøý ½ Èøøö Ýò Ìöööòòò Â Ëëëòóû×××

نویسندگان

چکیده

منابع مشابه

Ò Ö Blockinøø Blockinøùöö Óö ×ýò Blockinöóòóù× Èèè× Øøøööòò º Ïóòò¸ðððò Âº Ååöøøò¸òò Èøøö Ììóññ×

Åùðøø¹äääð Ìüø Ðð×××¬ Blockin Blockinøøóò Ûûøø Ååüøùöö Åóð Ìöööòòò Ý Å

×ýñôøóøø Äó×× Èöóóóóóððøý Ò Òòøø Ù««ö Ðùùù Éùùùù Ûûøø Ààøøöóóóòòóù× Àààúý¹ìððð Çò¹ç« Èöó Blockin Blockin××××

Óñòòòò Åùðøø¹ììöööööòò Ûûøø ×ýò Blockinöóòóù× Óññùòò Blockin

Ùøóññøø Îöö¬ Blockin Blockinøøóò Óó Êêêð¹øøññ Ëý×øøñ× Ûûøø × Blockinööøø Èöóóóóóððøý ×øöööùøøóò×

عنوان ژورنال:

اشتراک گذاری