TG Telegram Group & Channel
PyTorch Howsam | United States America (US)
Create: Update:

متا، گوگل دیپ‌مایند، دانشگاه کورنل و انویدیا اخیرا مقاله‌ای با موضوع «مدل‌های زبانی چقدر حفظ می‌کنن؟» منتشر کردن. عنوان مقاله:

How much do language models memorize?


این مقاله نشون میده مدل‌های GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیره‌سازی داده داره!

تا زمانی که ظرفیت پر بشه، مدل‌ها داده‌ها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق می‌افته که داده‌ها از ظرفیت مدل بیشتر بشن.

به نظرم مقاله آموزنده‌ای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیم‌پذیری و دابل دیسنت رو برامون شفاف‌تر کنه. من هنوز مقاله رو نخوندم، خلاصه‌هاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو

متا، گوگل دیپ‌مایند، دانشگاه کورنل و انویدیا اخیرا مقاله‌ای با موضوع «مدل‌های زبانی چقدر حفظ می‌کنن؟» منتشر کردن. عنوان مقاله:
How much do language models memorize?


این مقاله نشون میده مدل‌های GPT-style حدود ۳.۶ بیت به ازای هر پارامتر حافظه دارن. یعنی، یک مدل 1 میلیاردی، حدودا 3.6 گیگابایت حافظه برای ذخیره‌سازی داده داره!

تا زمانی که ظرفیت پر بشه، مدل‌ها داده‌ها رو حفظ میکنن؛ بعد از اون، به سمت تعمیم (generalization) میرن.
پدیده double descent رو یادتون میاد؟ دقیقا زمانی اتفاق می‌افته که داده‌ها از ظرفیت مدل بیشتر بشن.

به نظرم مقاله آموزنده‌ای هست. میتونه خیلی از مفاهیم مثل یادگیری، حفظ کردن، تعمیم‌پذیری و دابل دیسنت رو برامون شفاف‌تر کنه. من هنوز مقاله رو نخوندم، خلاصه‌هاش رو خوندم. امیدوارم، وقت کنم که بخونم. این منابع رو پیدا کردم:
مقاله اصلی | وبلاگ 1 | وبلاگ 2 | رشتو


>>Click here to continue<<

PyTorch Howsam




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)