претрейнинг для seq2seq модели incomplete utterance restoration
В продолжение поста о модели интерпретатора.
Эксперименты с обучением seq2seq модели показывают, что имеющегося набора обучающих данных (~76 тысяч сэмплов) маловато.
Хотя по мере добавления новых сэмплов (особенно в ходе итераций active learning) качество растет.
Можно предположить, что часть проблем модели вытекает из редкости некоторых слов и n-грамм.
А что, если попробовать сначала "разогреть" сетку сырыми, невалидированными данными?
У меня есть код автогенерации сэмплов из реальных текстов. С помощью набора правил и синтаксического парсера можно для произвольного утвердительного предложения сгенерировать вопрос и ответ:
( Collapse )
Эксперименты с обучением seq2seq модели показывают, что имеющегося набора обучающих данных (~76 тысяч сэмплов) маловато.
Хотя по мере добавления новых сэмплов (особенно в ходе итераций active learning) качество растет.
Можно предположить, что часть проблем модели вытекает из редкости некоторых слов и n-грамм.
А что, если попробовать сначала "разогреть" сетку сырыми, невалидированными данными?
У меня есть код автогенерации сэмплов из реальных текстов. С помощью набора правил и синтаксического парсера можно для произвольного утвердительного предложения сгенерировать вопрос и ответ:
( Collapse )