Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Небольшая проверка Sentence Trasformers на русскоязычных данных

Библиотечка https://www.sbert.net/docs/ содержит удобные инструменты как для получения эмбеддингов предложений (согласно доке, поддерживается 100 языков), так для некоторых базовых операций со списками предложений. Например, очень просто делается поиск ближайшего предложения для запроса. При этом используется косинусная метрика близости.

Уместный вопрос - насколько хорошо это работает "из коробки"?

Я сделал небольшой эксперимент с двумя моделями:

Model: distilbert-base-nli-stsb-mean-tokens
Query: кто приносит извинения

Top 5 most similar sentences in corpus:
---------------------------------------
ты не дождешься от меня извинений (Score: 0.8573)
простите меня (Score: 0.8381)
отпустите меня (Score: 0.8153)
Извините меня (Score: 0.8071)
Артур не будет извиняться (Score: 0.7937)



Model: roberta-large-nli-stsb-mean-tokens
Query: кто приносит извинения

Top 5 most similar sentences in corpus:
---------------------------------------
простите меня (Score: 0.8666)
ты не дождешься от меня извинений (Score: 0.8634)
Извините меня (Score: 0.8633)
отпустите меня (Score: 0.8556)
Артур извиняется (Score: 0.8533)




Кажется, что работает это с переменным успехом.
Tags: bert, vector model, vector space model
Subscribe

Recent Posts from This Journal

  • Релиз 0.0.20.0 чатбота

    В репозитории выложен докер-образ со сборкой чатбота, в которую вошли следующие изменения. 1) Доработки концепции профилей - правила и факты…

  • Перевод англоязычных датасетов на русский язык с помощью OpenNMT

    Мир несправедлив, в том числе в объеме доступных русскоязычных датасетов для NLP. В связи с ростом качества нейросетевых систем машинного перевода…

  • немножно теста NVidia RTX 3090

    Примерно час в боевом режиме тренировки модели (файнтюнинг GPT2). Размер батч подобран так, чтобы как раз влезало в 24 Гб памяти на борту карточки.…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments