?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Как SentencePiece токенизирует русскоязычный текст
kelijah
SentencePiece - питоновская библиотека для unsupervised tokenization. Для японского и и китайского, видимо, является очень хорошей альтернативой токенизаторам с handcrafted rules (типа MeCab, который и я когда-то использовал). А для английского языка дает в нейросетевых моделях (гугловский трансформер и BERT) такую приятную вещь, как заранее фиксированный размер словаря.

А как выглядит результат токенизации для русскоязычного текста, учитывая темную сторону русского языка - слишком богатое словоизменение? Далее - краткие результаты эксперимента.
Read more...Collapse )

Transformer и 30 тысяч сэмплов контекст-вопрос-ответ для русскоязычного чатбота
kelijah
Пытаюсь оценить перспективность использования keras-варианта Трансформера для задачи генерации реплики русскоязычного чатбота на основе контекста и вопроса.
Проверил разные варианты представления текста, в том числе отдельные слова и рекомендуемый авторами SentencePiece.
Параметры Трансформера варьировал в поисках оптимума, учитывая небольшой объем датасета - примерно 30 тысяч сэмплов.
Результат пока - негативный, качество генерации ответов сильно ниже самых плохих seq2seq моделей.