Компьютерная лингвистика

Новостная лента www.solarix.ru

Начал выкладывать компоненты лемматизатора в репозиторий
kelijah
В репозитории грамматического словаря https://github.com/Koziev/GrammarEngine выложены все исходники и сборочные файлы для лемматизатор, см. каталог https://github.com/Koziev/GrammarEngine/tree/master/src/demo/ai/solarix/engines/lemmatizator.

Также выложен C# wrapper для вызова API лемматизатора из .NET код.

В общий сборочный сценарий для CMake добавлены соответствующие инструкции, так что теперь лемматизатор собирается среди всех прочих утилит.

Индексирование и поиск в текстовом файле размером 70 Гб с помощью Lucene.NET
kelijah
С помощью утилитки (проект для VS2015 на C# лежит тут) проиндексировал текстовый файл размером 70 Гб.
Обработка длилась примерно 20 часов, из которых 5 или 6 часов длилась финальная оптимизация индекса с полным выеданием канала на диск.
Общий объем индекса составил 90 Гб. С учетом того, что я сохранял индексируемые текстовые поля в индексе, получилось достаточно экономно.
Поиск по этому индексу выполняется очень шустро, релевантность нормальная, memory footprint минимальный:скрин с результатами поиска...Collapse )Вся работа с индексом сделана через Lucene.NET (цеплял к проекту через нугет). У меня был очень удачный опыт использования C++-порта CLucene десять лет тому назад в настольной поисковке, так что я в общем-то ожидал, что все пройдет нормально.

?

Log in

No account? Create an account