Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/silicon_brain/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
بررسی مرز بین حفظ کردن و فهمیدن در مدل ها @Silicon Brain | جامعه هوش مصنوعی
TG Telegram Group & Channel
Silicon Brain | جامعه هوش مصنوعی | United States America (US)
Create: Update:

بررسی مرز بین حفظ کردن و فهمیدن در مدل ها

وقتی یه مدل زبانی مثل GPT رو آموزش می‌دیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط داده‌ها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟

تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم


نویسنده‌ها حافظه‌ی مدل رو به دو بخش تقسیم کردن:

یکی unintended memorization، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.

یکی دیگه generalization، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.

برای اینکه فقط مقدار حافظه‌ی خام مدل رو اندازه بگیرن، اومدن مدل رو با داده‌هایی آموزش دادن که کاملاً تصادفی بودن (random bit strings). این کار باعث می‌شه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدل‌های GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.

وقتی تعداد داده‌هایی که به مدل می‌دی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ می‌کنه. ولی وقتی داده‌ها از ظرفیت بیشتر بشه، مدل نمی‌تونه همه‌چیزو توی حافظه نگه داره، و شروع می‌کنه به یاد گرفتن الگوها. اینجاست که پدیده‌ای به اسم Grokking اتفاق می‌افته، یعنی مدل یهو از حالت حفظ کردن می‌ره سمت فهمیدن کلیات.

توی آزمایش‌هاشون صدها تا transformer model از اندازه‌ی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطه‌ی قابل پیش‌بینی بین اندازه‌ی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی می‌شه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.

این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، می‌تونیم بهتر تصمیم بگیریم چه داده‌هایی رو بهش بدیم یا ندیم.
لینک مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید

بررسی مرز بین حفظ کردن و فهمیدن در مدل ها

وقتی یه مدل زبانی مثل GPT رو آموزش می‌دیم، سؤال اصلی اینه که «این مدل دقیقاً چی رو تو خودش نگه داشته؟» یعنی آیا فقط داده‌ها رو حفظ کرده (memorization) یا واقعاً الگوها رو فهمیده و یاد گرفته (generalization)؟

تو این مقاله اومدن دقیقاً این موضوع رو بررسی کنن که موضوع خیلی جالبی هست و در ادامه خلاصه شو میگم


نویسنده‌ها حافظه‌ی مدل رو به دو بخش تقسیم کردن:

یکی unintended memorization، یعنی مدل بدون اینکه بخوایم، بعضی اطلاعات رو دقیقاً حفظ کرده. مثلاً یه ایمیل یا پسوردی که توی دیتاست بوده.

یکی دیگه generalization، یعنی مدل الگوها رو یاد گرفته، مثلاً فهمیده که ترتیب کلمات چطور باید باشه یا معنی یه جمله چیه.

برای اینکه فقط مقدار حافظه‌ی خام مدل رو اندازه بگیرن، اومدن مدل رو با داده‌هایی آموزش دادن که کاملاً تصادفی بودن (random bit strings). این کار باعث می‌شه که مدل هیچ الگویی برای یاد گرفتن نداشته باشه و فقط بتونه حفظ کنه. با این روش، فهمیدن که مثلاً مدل‌های GPT-مانند حدود ۳.۶ bits per parameter ظرفیت حافظه دارن.

وقتی تعداد داده‌هایی که به مدل می‌دی کمتر از ظرفیتشه، خب طبیعتاً بیشترشو حفظ می‌کنه. ولی وقتی داده‌ها از ظرفیت بیشتر بشه، مدل نمی‌تونه همه‌چیزو توی حافظه نگه داره، و شروع می‌کنه به یاد گرفتن الگوها. اینجاست که پدیده‌ای به اسم Grokking اتفاق می‌افته، یعنی مدل یهو از حالت حفظ کردن می‌ره سمت فهمیدن کلیات.

توی آزمایش‌هاشون صدها تا transformer model از اندازه‌ی ۵۰۰ هزار تا ۱.۵ میلیارد پارامتر رو بررسی کردن. نتیجه این شد که یه رابطه‌ی قابل پیش‌بینی بین اندازه‌ی مدل، حجم داده، و مقدار membership inference risk وجود داره. یعنی می‌شه فهمید که آیا مدل اطلاعات یه نمونه خاص رو تو خودش حفظ کرده یا نه.

این موضوع علاوه بر اینکه مارو از نحوه یاد گرفتن مدل ها آگاه میکنه، برای امنیت و حریم خصوصی هم خیلی مهمه، چون اگه بدونیم مدل دقیقاً چقدر حفظ کرده و چقدر رو از الگوها یاد گرفته، می‌تونیم بهتر تصمیم بگیریم چه داده‌هایی رو بهش بدیم یا ندیم.
لینک مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
👍95👏1🤩1


>>Click here to continue<<

Silicon Brain | جامعه هوش مصنوعی




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16