Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

Masked NP Language Modeling

Идея эксперимента с MNPLM была следующая.
Что, если учить генеративную нейросетку восстанавливать не просто какое-то слово в контексте предложения, а цельное словосочетание?

К примеру, в предложении "Голодная кошка ловит серую мышку" будем запикивать именную группу прямого дополнения и просить сетку по строке "Голодная кошка ловит [NP]" догадаться, какие варианты подстановок [NP] допустимы. Главная мысль - так как целое словосочетание лучше описывает объективную сущность, то модель сформирует более качественное представление о мире.

Возможное практические применение модели - аугментация текстовых датасетов, а именно их рандомизация (несинонимичные замены).

Весь код, датасеты и небольшая техническая справка выложены в репозитории https://github.com/Koziev/masked_np_language_model.

Под катом - некоторые результаты, полученные после обучения rugpt-small на 10 миллионах сэмплов.

В столбце "result" показан конечный вариант после подстановки.
Input: на чердаке голодная кошка отчаянно ловит [np1]
+--------------------------+-------------------------------------------------------------------+
| np1                      | result                                                            |
+--------------------------+-------------------------------------------------------------------+
| каждое утро              | на чердаке голодная кошка отчаянно ловит каждое утро              |
| червяка размером с кошку | на чердаке голодная кошка отчаянно ловит червяка размером с кошку |
| мышей и тараканов        | на чердаке голодная кошка отчаянно ловит мышей и тараканов        |
| дохлую мышь.             | на чердаке голодная кошка отчаянно ловит дохлую мышь.             |
| свою добычу              | на чердаке голодная кошка отчаянно ловит свою добычу              |
+--------------------------+-------------------------------------------------------------------+





Input: [np1] в подвале играли в гестапо
+-----------------------+--------------------------------------------------+
| np1                   | result                                           |
+-----------------------+--------------------------------------------------+
| несколько подростков  | несколько подростков в подвале играли в гестапо  |
| двое детей            | двое детей в подвале играли в гестапо            |
| два немца             | два немца в подвале играли в гестапо             |
| несколько раз         | несколько раз в подвале играли в гестапо         |
| подростки - подростки | подростки - подростки в подвале играли в гестапо |
+-----------------------+--------------------------------------------------+





Input: дети в подвале играли [pp1]
+------------+----------------------------------+
| pp1        | result                           |
+------------+----------------------------------+
| в волейбол | дети в подвале играли в волейбол |
| в бильярд  | дети в подвале играли в бильярд  |
| в бочу     | дети в подвале играли в бочу     |
| в футбол   | дети в подвале играли в футбол   |
+------------+----------------------------------+




Input: у самурая нет [np1] , у самурая есть путь
+----------------------+----------------------------------------------------------+
| np1                  | result                                                   |
+----------------------+----------------------------------------------------------+
| способа достичь цели | у самурая нет способа достичь цели , у самурая есть путь |
| пути в мир           | у самурая нет пути в мир , у самурая есть путь           |
| способа выжить       | у самурая нет способа выжить , у самурая есть путь       |
| необходимости бежать | у самурая нет необходимости бежать , у самурая есть путь |
| способа победить     | у самурая нет способа победить , у самурая есть путь     |
+----------------------+----------------------------------------------------------+




Input: вы [np1] продаете ?
+--------------------+----------------------------------+
| np1                | result                           |
+--------------------+----------------------------------+
| какой бензин       | вы какой бензин продаете ?       |
| какие книги        | вы какие книги продаете ?        |
| Сколько же времени | вы Сколько же времени продаете ? |
| какую машину       | вы какую машину продаете ?       |
| билеты на паром    | вы билеты на паром продаете ?    |
+--------------------+----------------------------------+



Tags: gpt, masked language modeling
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments