Category: армия

Category was added automatically. Read all entries about "армия".

Мысли по препроцессингу для word2vector

1. Нормализовать порядок слов в предлождениях.

  • На уровне предиката - американизировать(*) SVO или  японизировать SOV. Например, "яблоко я съел" ==> "я съел яблоко".

  • На уровне группы существительного - приименное прилагательное ставить всегда слева "Друзья боевые не подвели меня" ==> "Боевые друзья не подвели меня"

  • На уровне предложного паттерна - переставлять предлог на первую позицию "Километрах в десяти от насыпи" ==> "В десяти километрах от насыпи"

  • На уровне глагольной группы - ставить наречие слева "Сходи туда" ==> "Туда сходи".

Бывают еще аномалии, но они настолько редки, что не должны влиять никак на генерацию векторных репрезентаций, если в них не участвуют столь же редкие слова. Поэтому предыдущий список, думаю, достаточен.

Из общих соображений, такая нормализация должна улучшать репрезентации за счет того, что устраняются малочастотные варианты контекста употребления слова, несущие несущественные оттенки смысла или чисто стилевое отличие.

(*) англизировать звучить совсем криво.

2. Спорная мысль, но что-то в ней должно быть полезное.

Устойчивые Nграммы - мержить:
идут друг за другом ==> идут друг_за_другом
заметил с ужасом ==> заметил с_ужасом