?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by category: россия

Текучка по word2vec
kelijah
Что самое главное в "обучении без учителя"? А то, что запустил с утра прокачку модели, и можно спокойно отправляться гонять на тракторе по лужам, или строить гараж из песка и досочек, или сходить покормить голубей и воробушков. В общем, отличный выбор, если вам 2-3 года и на улице хорошая погодка.

Итак, я собрал отладочный стенд для проверки word2vec в таком составе.
1. Сегментатор текста получается на вход текстовый корпус и сохраняет отдельные предложения в текстовом файле в формате "1 строка=одно предложение".
2. POS Tagger, обученный на эталонном размеченном корпусе, снимает неоднозначность и заменяет слова на леммы. Также он выкидывает из текста знаки препинания и приводит слова к нижнему регистру.
3. Результат скармливаем утилите word2vec, которая подбирает для слов векторно-непрерывное представление.
4. Проверяем разные пары слов на близость. Конкретно, ищем косинус угла между векторами, так что косинус=1 означает полное совпадение векторов (угол=0), а косинус=0 означает ортогональность.

Дальше для проверки надо попробовать создать вероятностную модель POS Tagger'а или shift-reduce парсера с использованием векторов в качестве признаков слов, но это на следующем этапе, если на текущем все заработает как хочется.

Итак, текущие результаты - близость некоторых пар, от самых близких до самых непохожих. На входе п.3 имеем файл размером примерно 174 Мб в utf-8.

русский word2vec...Collapse )