Масштабируемое языковое моделирование без MatMul
Наши эксперименты показывают, что предлагаемые нами модели без MatMul достигают производительности на уровне современных трансформаторов, которым требуется гораздо больше памяти во время вывода в масштабе как минимум до 2,7B параметров.
https://github.com/ridgerchu/matmulfreellm
>>Click here to continue<<
