Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Небольшая проверка Sentence Trasformers на русскоязычных данных

Библиотечка https://www.sbert.net/docs/ содержит удобные инструменты как для получения эмбеддингов предложений (согласно доке, поддерживается 100 языков), так для некоторых базовых операций со списками предложений. Например, очень просто делается поиск ближайшего предложения для запроса. При этом используется косинусная метрика близости.

Уместный вопрос - насколько хорошо это работает "из коробки"?

Я сделал небольшой эксперимент с двумя моделями:

Model: distilbert-base-nli-stsb-mean-tokens
Query: кто приносит извинения

Top 5 most similar sentences in corpus:
---------------------------------------
ты не дождешься от меня извинений (Score: 0.8573)
простите меня (Score: 0.8381)
отпустите меня (Score: 0.8153)
Извините меня (Score: 0.8071)
Артур не будет извиняться (Score: 0.7937)



Model: roberta-large-nli-stsb-mean-tokens
Query: кто приносит извинения

Top 5 most similar sentences in corpus:
---------------------------------------
простите меня (Score: 0.8666)
ты не дождешься от меня извинений (Score: 0.8634)
Извините меня (Score: 0.8633)
отпустите меня (Score: 0.8556)
Артур извиняется (Score: 0.8533)




Кажется, что работает это с переменным успехом.
Tags: bert, vector model, vector space model
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments