על למידה חיזוקית באימון מודלי שפה RLHF עם מייק

קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ’אט ג’י פי טי או
LLM

אחד החידושים באימון שלו, למעשה ב
InstructGPT
היו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימה

נספר על אלגוריתם ה
RLHF
ושילובו בתוך מודלי השפה
LLM