September 5th, 2020

Небольшая проверка Sentence Trasformers на русскоязычных данных

Библиотечка https://www.sbert.net/docs/ содержит удобные инструменты как для получения эмбеддингов предложений (согласно доке, поддерживается 100 языков), так для некоторых базовых операций со списками предложений. Например, очень просто делается поиск ближайшего предложения для запроса. При этом используется косинусная метрика близости.

Уместный вопрос - насколько хорошо это работает "из коробки"?

Я сделал небольшой эксперимент с двумя моделями:
Collapse )


Кажется, что работает это с переменным успехом.