Уместный вопрос - насколько хорошо это работает "из коробки"?
Я сделал небольшой эксперимент с двумя моделями:
Model: distilbert-base-nli-stsb-mean-tokens Query: кто приносит извинения Top 5 most similar sentences in corpus: --------------------------------------- ты не дождешься от меня извинений (Score: 0.8573) простите меня (Score: 0.8381) отпустите меня (Score: 0.8153) Извините меня (Score: 0.8071) Артур не будет извиняться (Score: 0.7937) Model: roberta-large-nli-stsb-mean-tokens Query: кто приносит извинения Top 5 most similar sentences in corpus: --------------------------------------- простите меня (Score: 0.8666) ты не дождешься от меня извинений (Score: 0.8634) Извините меня (Score: 0.8633) отпустите меня (Score: 0.8556) Артур извиняется (Score: 0.8533)
Кажется, что работает это с переменным успехом.