بررسی مرز بین حفظ کردن و فهمیدن در مدل ها
وقتی یه مدل زبانی مثل GPT رو آموزش میدیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط دادهها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟
تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم
نویسندهها حافظهی مدل رو به دو بخش تقسیم کردن:
یکی
unintended memorization
، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.یکی دیگه
generalizatio
n، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.برای اینکه فقط مقدار حافظهی خام مدل رو اندازه بگیرن، اومدن مدل رو با دادههایی آموزش دادن که کاملاً تصادفی بودن (
random bit strings
). این کار باعث میشه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدلهای GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.وقتی تعداد دادههایی که به مدل میدی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ میکنه. ولی وقتی دادهها از ظرفیت بیشتر بشه، مدل نمیتونه همهچیزو توی حافظه نگه داره، و شروع میکنه به یاد گرفتن الگوها. اینجاست که پدیدهای به اسم
Grokking
اتفاق میافته، یعنی مدل یهو از حالت حفظ کردن میره سمت فهمیدن کلیات.توی آزمایشهاشون صدها تا transformer model از اندازهی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطهی قابل پیشبینی بین اندازهی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی میشه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.
این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، میتونیم بهتر تصمیم بگیریم چه دادههایی رو بهش بدیم یا ندیم.
لینک مقاله
@silicon_brain | از هوش مصنوعی عقب نمانید
>>Click here to continue<<