Category: искусство

Category was added automatically. Read all entries about "искусство".

Новая версия датасета с русскоязычными диалогами (130 Мб)

Выложил в репозиторий архивчик с текстовым файлом - 130 Мб русскоязычных диалогов, извлеченных из большого корпуса (художественная литература всех жанров, документалистика и еще всякое):

- Андрюха! Да чего же теперь будет?
- Что надо, Арбузик, то и будет!

- Мне бы Шиповника...
- Какого еще Шиповника?


Каждый диалог содержит от 2 реплик, отделяется пустой строкой. Чистка выполнялась автоматически, некоторое количество мусора в диалогах осталось.

Эрративы и распространенные опечатки

Сначала таблица со статистикой. Обработано 2 млрд. слов в художественных текстах общим объемом ~20 Гб в кодировке utf-8. Интересовала частотность одного из самых употребимых "эрративов" ТЫЩА:
Collapse )