TG Telegram Group & Channel
PyTorch Howsam | United States America (US)
Create: Update:

یک مقاله مهم منتشر شده! بین نویسندگان مقاله، نام Yann Lecun و Kaiming He دیده میشه! 😳

عنوان مقاله این هست:

Transformers without Normalization


توی این مقاله پیشنهاد شده که بجای لایه نرمالیزیشن از تابع تانژانت مقیاس‌یافته استفاده بشه. تصویری پیوستی رو ببینید.

این ایده روی مدل‌های مختلف ترنسفورمر در ویژن، nlp، صوت و غیره تست شده.

نکته مهم این هست که این ایده باعث بهبود سرعت مدل در آموزش و اینفرنس میشه. مثلا، اینفرنس مدل Llama 7B حدودا 7.8% بهبود سرعت داشته.

احتمالا این ایده به زودی در بسیاری از مدل‌ها استفاده بشه. باید بخونیمش امیررضا! :)

مقاله | کد | رشتو

یک مقاله مهم منتشر شده! بین نویسندگان مقاله، نام Yann Lecun و Kaiming He دیده میشه! 😳

عنوان مقاله این هست:
Transformers without Normalization


توی این مقاله پیشنهاد شده که بجای لایه نرمالیزیشن از تابع تانژانت مقیاس‌یافته استفاده بشه. تصویری پیوستی رو ببینید.

این ایده روی مدل‌های مختلف ترنسفورمر در ویژن، nlp، صوت و غیره تست شده.

نکته مهم این هست که این ایده باعث بهبود سرعت مدل در آموزش و اینفرنس میشه. مثلا، اینفرنس مدل Llama 7B حدودا 7.8% بهبود سرعت داشته.

احتمالا این ایده به زودی در بسیاری از مدل‌ها استفاده بشه. باید بخونیمش امیررضا! :)

مقاله | کد | رشتو
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

PyTorch Howsam




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)