Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Небольшая проверка Sentence Trasformers на русскоязычных данных

Библиотечка https://www.sbert.net/docs/ содержит удобные инструменты как для получения эмбеддингов предложений (согласно доке, поддерживается 100 языков), так для некоторых базовых операций со списками предложений. Например, очень просто делается поиск ближайшего предложения для запроса. При этом используется косинусная метрика близости.

Уместный вопрос - насколько хорошо это работает "из коробки"?

Я сделал небольшой эксперимент с двумя моделями:

Model: distilbert-base-nli-stsb-mean-tokens
Query: кто приносит извинения

Top 5 most similar sentences in corpus:
---------------------------------------
ты не дождешься от меня извинений (Score: 0.8573)
простите меня (Score: 0.8381)
отпустите меня (Score: 0.8153)
Извините меня (Score: 0.8071)
Артур не будет извиняться (Score: 0.7937)



Model: roberta-large-nli-stsb-mean-tokens
Query: кто приносит извинения

Top 5 most similar sentences in corpus:
---------------------------------------
простите меня (Score: 0.8666)
ты не дождешься от меня извинений (Score: 0.8634)
Извините меня (Score: 0.8633)
отпустите меня (Score: 0.8556)
Артур извиняется (Score: 0.8533)




Кажется, что работает это с переменным успехом.
Tags: bert, vector model, vector space model
Subscribe

  • Релиз 0.0.20.0 чатбота

    В репозитории выложен докер-образ со сборкой чатбота, в которую вошли следующие изменения. 1) Доработки концепции профилей - правила и факты…

  • Тест на сознание: практический подход

    Коллега alexander-xom написал интересный материал Тест на сознание. В целом, это очень неплохое функциональное представление плана для…

  • а ruGPT2 хорош, да

    Даже после переобучения на небольшом кусочке (~10%) датасета читчата модель ruGPT2Large начала выдавать вполне годные реплики, хорошо попадающие в…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments