Category: наука

Category was added automatically. Read all entries about "наука".

Генерация форм существительных с помощью GPT-2

Генерация определений слов с помощью GPT-2 и толкового словаря описана в этом посте.
Продолжим забивать языковые гвозди микроскопом!

Я обучил GPT-2 на парадигмах существительных из грамматического словаря. В обучающий датасет взято около 110 тысяч существительных, в каждом по 6 падежных форм для единственного числа. Модель училась из номинатива выдавать остальные 5 форм - родительный, творительный, винительный, дательный и предложный.

Примеры генерации:


Collapse )
Нужно еще добавить модель определения ударения и можно генерить Викисловарь.

NP чанкер и прототип шаблонизатора ответов для чатбота

В наборе NLP модулей для чатбота добавился очередной - NP chunker. Его прототип я уже кратко описывал тут. Для удобства использования в разных проектах чанкер именных групп выделен в отдельный модуль ruchunker.

В чатботе он позволяет делать следующее. Допустим, пользователь вводит вопрос:
Collapse )

Гугл: квантовое преимущество, искусственный интеллект, первые признаки сингулярности в google pay

Кто там мемично шутил про "бигдата, аджайл, где карту получали, в то отделение и ступайте"? Ввожу обязательные параметры в Google Pay, подключаю виртуальную визу. На форме ввода нужно ввести почтовый индекс. Ввожу - "неправильно заполнено поле индекса". Переввожу, пробую другие соседние индексы, пробую сменить город и индекс на Вологду - толку 0. Гуглю проблему (тонкий британский юмор ситуации). Оказывается, этому багу в гугл пэе много лет, но чинить его не торопятся. Да, нейросети, квантовое преимущество, искуственный интеллект - все в комплекте.
Collapse )

а вот простейшая seq2seq модель для генерации реплик в читчат боте что выдает

После обучения на объединенном датасете диалогов из Толоки + мои датасеты для чатбота, модель, не учитывающая контекст, а только текст заданного вопроса, выдает такую "болтовню":
Collapse )

Как будет выглядеть восстание машин на самом деле

На заметку любителям "сингулярности", поклонникам историй про скайнет и прочей "science fiction". Об этом Голливуд не снимет блокбастер, японцы не нарисуют мангу. Потому что такая правда незрелищна. И от этого будет еще обиднее, когда ЭТО начнется на самом деле.

Сегодня имел удовольствие поймать в логах работы веб-сервиса, работающего с СУБД Oracle, ошибку с текстом (текст чесслово не мой, он такой из ораклового клиента прилетел в C# код):

ORA-01460: затребовано нереализованное или неразумное преобразование

Вот именно так, скучно, по-канцелярски, и будет выглядеть восстание машин в реале. Вставляете карточку в банкомат, а он в ответ  "затребована неразумная операция".

Взаимная информация и алгоритм Леска для отбора ассоциаций: граф Бозон де Валуа

Что там с бозоном?

У обычного человека, более-менее интересующегося околонаучными новостями, для слова "бозон" скорее всего ассоциируются "Хиггс",  "коллайдер" и прочее. А что можно сказать по поводу следующего фрагмента:

"Происхождение Бозона неизвестно. Он родился не позже 800 года. Известно о нём не очень много. Его владения находились в Италии."

Звучит странно? Странно. Тем не менее, это достоверный факт, насколько можно верить википедии - см. викистатью Бозон Древний. Вообще, со словом "бозон" связано множество викистатей, что делает вторую часть рассказа про взаимную информацию немного более интригующей.
Collapse )

Сравнение оптимизаторов "Follow The Moving Leader" и "Nesterov moment + Adam"

Для задачи посимвольной генерации теста ответа в чатботе сравниваю два алгоритма оптимизации:

1) штатный keras.optimizers.nadam, описанный тут http://cs229.stanford.edu/proj2015/054_report.pdf
2) FTML из https://github.com/keras-team/keras-contrib/blob/master/keras_contrib/optimizers/ftml.py, описанный тут.

Сравнивается значение per instance accuracy, достигаемое при обучении нейросетки, то есть успехом считается генерация всей цепочки символов ответа без единой ошибки.
Collapse )

Сравнение оптимизаторов nadam и rmsprop с помощью F-теста

Еще одна серия экспериментов с моделью для векторизации символьного представления слов.
Сравним две штатных реализации оптимизаторов в Keras - rmsprop и nadam. Фиксируем batch_size значением 250, делаем несколько запусков обучения модели для каждого варианта оптимизатора (см. строку 356 в файле wordchar2vector_trainer.py).
Collapse )

Спин-офф: векторная модель для поиска по справочникам номенклатуры в кровавом энтерпрайзе

Пока готовятся остальные материалы по char & word language modelling, в голову проникла странная мысль. Или скорее вопрос для постановки задачи. Допустим, есть у нас набор справочников с описаниями всяких инженерных штук, типа такого:
Collapse )

Иллюстрация к принципу гештальт-психологии: сходное группируется со сходным

А именно: "... стимулы, схожие по размеру, очертаниям, цвету или форме, имеют тенденцию восприниматься вместе ..." (цитирую по http://ru.wikipedia.org/wiki/%D0%93%D0%B5%D1%88%D1%82%D0%B0%D0%BB%D1%8C%D1%82%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F#.D0.9F.D1.80.D0.B8.D0.BD.D1.86.D0.B8.D0.BF.D1.8B_.D0.B3.D0.B5.D1.88.D1.82.D0.B0.D0.BB.D1.8C.D1.82.D0.B0)

Вот забавная иллюстрация:

Collapse )