Компьютерная лингвистика

Новостная лента www.solarix.ru

Новый датасет для чат-бота - смена грамматического лица
kelijah
Данные представляют собой пары предложений:
Read more...Collapse )

Все предложения имеют похожую синтаксическую структуру - подлежащие в виде местоимения "я", глагол-сказуемое согласован.
Каждая запись содержит 2 предложения, разделенных символом табуляции. Второе предложение получено из первого сменой лица подлежащего и пересогласованием глагола.

Планирую использовать эти данные для обучения сеточной модели, которая будет поддерживать режим "вовлеченности" для чат-бота, в частности - запоминать факты о собеседнике, которые он сам сообщает.

Данные будут выкладываться здесь: https://github.com/Koziev/NLP_Datasets/tree/master/ChangePerson

Обновленные датасеты для тренировки чат-ботов
kelijah
После нескольких итераций, в ходе которых исправлены некоторые ошибки и добавлены новые синтаксические конструкции, в репозиторий https://github.com/Koziev/NLP_Datasets/tree/master/QA выложены новые файлы с тройками "предпосылка-вопрос-ответ" с таким форматом:
Read more...Collapse )
Tags: ,

Движок логического вывода на базе DNN моделей ("умный" chatbot)
kelijah
Далее - результаты работы тестовой версии chatbot'а на базе нейросетевого движка логического вывода:

Read more...Collapse )

Выложил небольшие датасеты для question answering на русском языке
kelijah
Датасеты получены в результате автоматической обработки и содержат подмножество возможных вопросов.
Могут быть полезны для проверки идей в области question answering, для чего они собственно и сделаны.
Файл https://github.com/Koziev/NLP_Datasets/blob/master/QA/premise_question_answer4.txt содержит до полусотни тысяч вопросов к предложениям из трех слов.
Аналогичный датасет для четырехсловных предложений доступен по ссылке https://github.com/Koziev/NLP_Datasets/blob/master/QA/premise_question_answer5.txt.

Выглядит это так:
Read more...Collapse )
Tags: ,

Первая часть модели для чат-бота
kelijah
Чисто сеточная deep learning модель для определения семантической близости фраз, с учетом русского словоизменения и примитивный просмотр knowledge base для поиска подтверждения/опровержения гипотезы (т.е. retrieval-based модель для бота):
Read more...Collapse )
Далее буду пробовать реализовать вторую часть - inference engine (или text entailment, тут как посмотреть).

небольшое ручное сравнение vanilla w2v и fasttext на русском 10Гб корпусе
kelijah

Обучил word2vector и fasttext модели на одном и том же текстовом корпусе:10 Гб всяких текстов, включая социальные медиа, изобилующие опечатками и словообразовательным творчеством масс.
Параметры для w2v: CBOW=0 WIN=5 DIM=32 MIN_COUNT=1
Параметры для fasttext: SIZE=64 WINDOW=5 CBOW=0 MIN_COUNT=1
Далее сравниваю выдаваемую похожесть для нескольких пар слов с помощью 1 и 2.
Результаты под катом. Можно заметить, что в некоторых случаях fasttext дает намного лучшие результаты (борщ и борщец), корректнее учитывая русские продуктивные суффиксы. Но исправление опечаток fasttext не тянет (трактор и тракктор).

результаты для vanilla w2v...Collapse )

Результаты для fasttext...Collapse )


Enriching Word Vectors with Subword Information (aka fasttext)
kelijah
Приятно, что идея строить векторные представления для частей слов, воплощенная в этой программке https://github.com/Koziev/Word2Vec/blob/master/PyUtils/wordparts.py, была шагом в верном направлении, если внимательно посмотреть на статью "Enriching Word Vectors with Subword Information" от группы разрабов из FB.

Репозиторий на github с датасетами для NLP
kelijah
Выложил некоторые полезные датасеты сюда: https://github.com/Koziev/NLP_Datasets:

Перефразировки

Частоты слов с учетом частей речи

Леммы

Приведение слов к нейтральной форме "штучка-штука"

Черновики по задаче "Вопросно-ответная система на русском языке"
kelijah
Отстрелялся в задаче "Вопросно-ответная система на русском языке".
Исходники решения выложил в репозиторий https://github.com/Koziev/NLP_Comp/tree/master/SDSJ_A

Самый красивый, хотя и не самый точный, вариант - сеточная модель со сверточной и рекуррентной частями, написанная на питоне и Keras: https://github.com/Koziev/NLP_Comp/blob/master/SDSJ_A/models/nn5.py

Исходники утилиты для экспорта словаря в SQL базу
kelijah
В репозиторий выложил исходники и сборочные скрипты для утилиты decompiler.
Делает она такую вещь. Загружает собранный компилятором словарь и генерирует набор SQL-команд для загрузки словаря в реляционную СУБД.
В частности, можно залить словарь в SQLite таким набором действий.
Read more...Collapse )

?

Log in

No account? Create an account