קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי אוLLM
אחד החידושים באימון שלו, למעשה בInstructGPTהיו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימה
נספר על אלגוריתם הRLHFושילובו בתוך מודלי השפהLLM
https://podcasts.apple.com/il/podcast/על-למידה-חיזוקית-באימון-מודלי-שפה-rlhf-עם-מייק/id1588138151?i=1000616768583
Direct mp3 https://mcdn.podbean.com/mf/download/5jeuqg/final_RLHF.mp3
No comments:
Post a Comment