?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Визуализация влияния batch_size на качество модели wordchar2vector
kelijah
Сама модель описана тут, это просто seq2seq автоэнкодер для цепочек символов. Реализующий ее на Python+Keras код лежит тут.
Тетрадка для визуализации доступна по этой ссылке.
В ходе обучения в файле сохраняем instance accuracy - долю слов, которые точно восстановлены декодером. Эта метрика показана на графиках.
На графиках видно, что есть некий оптимум в размере батча, и вообще batch_size для данной модели влияет очень сильно:

  • 1
Тут число эпох не совсем айс. Дело в том, что скорее всего работает на каждую эпоху весь датасет (поправьте меня если я ошибаюсь и используется фит-генератор с фиксированным числом применяемых батчей на эпоху).

И правильный отсчет для такого графика по горизонтали был бы "сколько раз дергали сеть", то есть "число кумулятивно накопленных батчей за время обучения".

При обучении действительно используется fit_generator, батчи для которого генерируются на лету. Количество батчей, которые влезли в эпоху само собой разное - для маленького batch_size получается много.

>И правильный отсчет для такого графика по горизонтали был бы "сколько раз дергали сеть", то есть "число кумулятивно накопленных батчей за время обучения".

Да, мысль я уловил, спасибо. Надо попробовать построить графики с таким пересчетом OX.

  • 1