על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע

פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו – מה שנקרא

On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא

Off Policy
בגישת הריפליי באפר, שומרים “הקלטה” של פעולות עבר ותוצאות עבר – ודוגמים מתוכן לצרכי הלמידה.

שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL