Я решил посмотреть, что можно получить файнтюнингом ruGPT на этих же данных.
Модель sberbank-ai/rugpt3small_based_on_gpt2
batch_size = 12
epochs = 10
время обучения – около 15 минут на эпоху
jaccard score = 0.90
Кривая обучения:


Модель sberbank-ai/rugpt3large_based_on_gpt2
batch_size = 12
epochs = 10
время обучения – около часа на эпоху
jaccard score = 0.925
