یک مقاله مهم منتشر شده! بین نویسندگان مقاله، نام Yann Lecun و Kaiming He دیده میشه!
عنوان مقاله این هست:
Transformers without Normalization
توی این مقاله پیشنهاد شده که بجای لایه نرمالیزیشن از تابع تانژانت مقیاسیافته استفاده بشه. تصویری پیوستی رو ببینید.
این ایده روی مدلهای مختلف ترنسفورمر در ویژن، nlp، صوت و غیره تست شده.
نکته مهم این هست که این ایده باعث بهبود سرعت مدل در آموزش و اینفرنس میشه. مثلا، اینفرنس مدل Llama 7B حدودا 7.8% بهبود سرعت داشته.
احتمالا این ایده به زودی در بسیاری از مدلها استفاده بشه. باید بخونیمش امیررضا! :)
مقاله | کد | رشتو