Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share
небольшое ручное сравнение vanilla w2v и fasttext на русском 10Гб корпусе
kelijah

Обучил word2vector и fasttext модели на одном и том же текстовом корпусе:10 Гб всяких текстов, включая социальные медиа, изобилующие опечатками и словообразовательным творчеством масс.
Параметры для w2v: CBOW=0 WIN=5 DIM=32 MIN_COUNT=1
Параметры для fasttext: SIZE=64 WINDOW=5 CBOW=0 MIN_COUNT=1
Далее сравниваю выдаваемую похожесть для нескольких пар слов с помощью 1 и 2.
Результаты под катом. Можно заметить, что в некоторых случаях fasttext дает намного лучшие результаты (борщ и борщец), корректнее учитывая русские продуктивные суффиксы. Но исправление опечаток fasttext не тянет (трактор и тракктор).

/usr/bin/python2.7 /home/eek/polygon/w2v/similarity.py
Loading the w2v model...
word1: трактор
word2: тракторишка
similarity= 0.15816610062
word1: трактор
word2: бурбулятор
similarity= 0.356227697608
word1: влево
word2: вправо
similarity= 0.998551493653
word1: борщ
word2: борщец
similarity= -0.00652037572231
word1: борщик
word2: борщ
similarity= 0.447010447054
word1: борщ
word2: борщщ
борщщ is out of vocabulary
word1: влево
word2: вправо
similarity= 0.998551493653
word1: левее
word2: правее
similarity= 0.99435190581
word1: трактор
word2: тракторишка
similarity= 0.15816610062
word1: трактор
word2: бурбулятор
similarity= 0.356227697608
word1: трактор
word2: тракктор
тракктор is out of vocabulary
word1: борщ
word2: борщь
similarity= 0.287167255134
word1: борщ
word2: борщщ
борщщ is out of vocabulary
word1: борщ
word2: борщец
similarity= -0.00652037572231
word1: борщ
word2: борщик
similarity= 0.447010447054
word1: борщ
word2: борщичок
similarity= -0.159063823511
word1: борщ
word2: борщичка
similarity= -0.0411978963949
word1: боорщ
word2: борщ
боорщ is out of vocabulary

/usr/bin/python2.7 /home/eek/polygon/w2v/similarity_fasttext.py
Loading fasttext model...
word1: влево
word2: вправо
similarity= 0.990195501943
word1: левее
word2: правее
similarity= 0.968340252146
word1: трактор
word2: тракторишка
similarity= 0.858061257733
word1: трактор
word2: бурбулятор
similarity= 0.529129949624
word1: трактор
word2: тракктор
similarity= 0.00119637026748
word1: борщ
word2: борщь
similarity= 0.892426321114
word1: борщ
word2: борщщ
similarity= -0.0708572095993
word1: борщ
word2: борщец
similarity= 0.858236411389
word1: борщ
word2: борщик
similarity= 0.676512982214
word1: борщ
word2: борщичок
similarity= 0.781284887113
word1: борщ
word2: борщичка
similarity= 0.753470436758
word1: боорщ
word2: борщ
similarity= 0.02972435751


?

Log in

No account? Create an account