?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Тренировка BERT на русском корпусе: непривычно видеть такую кривую обучения
kelijah
В порядке эксперимента обучаю упрощенную модель BERT (урезал число heads и т.д.) на свое русском корпусе.
То, что обучается медленно - факт. Но дело не в этом. Вот как выглядят кривые loss (на обучающей выборке) и val_loss (на валидационной):


Примерно так же продолжаются кривые до 100 эпох - это пока мой предел по времени.
50-100 эпох без видимого overfitting'а это как-то слишком чудесато...
PS: На 134-й эпохе сработал early stopping после 5 неулучшений. Понятно, что если поставить patience=10, то наверняка обучение протянется еще. Сейчас кривая обучения приняла такой вид:


  • 1
Забавно в контексте статьи что автор кераса так нападал на предобучение сети как "абсолютно ненужное для современного момента" что выпилил всю совместимость со старыми примерами всяких автоэенкодеров-декодеров :)

ну Chollet вообще чудаковатый товарищ

>Забавно в контексте статьи что автор кераса так нападал на предобучение сети как "абсолютно
>ненужное для современного момента" что выпилил всю совместимость со старыми примерами всяких
>автоэенкодеров-декодеров :)

Хм. Вот это зря, конечно. Для русскоязычного NLP вообще проблема найти хоть какие-то датасеты. Бывает, что единственный шанс - руками сделать небольшой датасет и попытаться оттюнить предобученную на вики модель.

  • 1