Proximal Policy Optimization מה זה

כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה

SOTA

עד שמגיעה גישה חדשה שטורפת את הקלפים.

לכן מעניין דווקא לדבר על

PPO

שנשאר הגישה הדומיננטי ב

Reinforcement learning

כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.

נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה “גרדיאנט טבעי”