В автообзорах пополнение, статья про DataRater (https://hottg.com/gonzo_ML_podcasts/245).
Тема про "не все данные одинаково полезны". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win.
Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (https://hottg.com/gonzo_ML/143). Результат был немного эзотерическим, но крайне интересным!
>>Click here to continue<<