TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

Я тут упоминал, что в рамках курса по AI Alignment решил копнуть немного в сторону mech interp (https://hottg.com/gonzo_ML/3200) и сделать нанорисёч на базе Gemma 2B. Вычленить какую-то цепь (circuit) времени не было, но немного успел поиграться с выкидыванием слоёв и обнаружил неожиданный для себя результат.

Если вкратце, то наверное пара вещей:

1. Все 26 слоёв декодера чем-то занимаются, от первого до последнего, эмбеддинги даже визуально меняются. Эту картинку приводил в прошлый раз. При этом опять же на глаз видно несколько групп слоёв с похожими паттернами активаций. Что именно они там делают, пока хз.

2. Если выкидывать слои, то определённо есть более критичные, и что неожиданно, кроме понятного критичного в начале, есть неожиданные критичные в середине, возможно, на границе тех самых визуально выделяемых групп. Интересно, что в них такого.

Может, конечно, это просто артефакт конкретного эксперимента, датасета и модели, но может и нет.

Написал про это здесь:
https://gonzoml.substack.com/p/not-all-layers-are-equal

Colab ноутбук для тех, кто захочет продолжить изыскания и покопаться сам, здесь:
https://colab.research.google.com/drive/1Dita8PWjxc_nPjOKCGKyuv7tVamZIc-h?usp=sharing

Картинка с "важностью" слоёв ниже.

Я тут упоминал, что в рамках курса по AI Alignment решил копнуть немного в сторону mech interp (https://hottg.com/gonzo_ML/3200) и сделать нанорисёч на базе Gemma 2B. Вычленить какую-то цепь (circuit) времени не было, но немного успел поиграться с выкидыванием слоёв и обнаружил неожиданный для себя результат.

Если вкратце, то наверное пара вещей:

1. Все 26 слоёв декодера чем-то занимаются, от первого до последнего, эмбеддинги даже визуально меняются. Эту картинку приводил в прошлый раз. При этом опять же на глаз видно несколько групп слоёв с похожими паттернами активаций. Что именно они там делают, пока хз.

2. Если выкидывать слои, то определённо есть более критичные, и что неожиданно, кроме понятного критичного в начале, есть неожиданные критичные в середине, возможно, на границе тех самых визуально выделяемых групп. Интересно, что в них такого.

Может, конечно, это просто артефакт конкретного эксперимента, датасета и модели, но может и нет.

Написал про это здесь:
https://gonzoml.substack.com/p/not-all-layers-are-equal

Colab ноутбук для тех, кто захочет продолжить изыскания и покопаться сам, здесь:
https://colab.research.google.com/drive/1Dita8PWjxc_nPjOKCGKyuv7tVamZIc-h?usp=sharing

Картинка с "важностью" слоёв ниже.


>>Click here to continue<<

gonzo-обзоры ML статей




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)