?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Датасет с ударениями для русского лексикона (>1.6 миллионов слов)
kelijah
В репозиторий https://github.com/Koziev/NLP_Datasets выложен мой датасет с данными об ударениях.
Примерно такой объем был использован в коде лексического шаблонизатора для конкурса ClassicAI.
Поясненения есть в README.md, сам упакованный датасет доступен по ссылке.

Взаимная информация и алгоритм Леска для отбора ассоциаций: граф Бозон де Валуа
kelijah
Что там с бозоном?

У обычного человека, более-менее интересующегося околонаучными новостями, для слова "бозон" скорее всего ассоциируются "Хиггс",  "коллайдер" и прочее. А что можно сказать по поводу следующего фрагмента:

"Происхождение Бозона неизвестно. Он родился не позже 800 года. Известно о нём не очень много. Его владения находились в Италии."

Звучит странно? Странно. Тем не менее, это достоверный факт, насколько можно верить википедии - см. викистатью Бозон Древний. Вообще, со словом "бозон" связано множество викистатей, что делает вторую часть рассказа про взаимную информацию немного более интригующей.
Read more...Collapse )