В рубрике полезных наборов данных, набор данных для анализа простоты официального государственного языка созданный по результатам сбора новостей с официального сайта Правительства РФ [1]. В наборе 9823 текста новости, 558582 предложений за 9 лет (начиная с 2012 года), а по каждому тексту и по каждому предложению набор метрик измерения сложности текста. Для текстов есть расчёт показателей простоты текста, перечни сложных слов и лемм, частотности слов по числу слогов и так далее. Набор можно использовать для формирования словарей официальной лексики, анализа изменения официального языка с течением времени, измерения средней сложности официального языка и многого другого.

Например, 90.8% всех новостей на сайте правительства попадают в диапазон сложности текста от 10 до 24. Где цифра означает число необходимых лет обучения для понимания текста. 10 - это десять классов школы, а 24 - это аспирантура, второе высшее, иное узкоспециализированное знание.

А в целом сложность менее 18 (полное высшее образование) есть у 65% всех опубликованных текстов новостей.

И есть небольшое число текстов состоящих исключительно из длинных перечислений и сложность их текстов резко выше чем всех остальных.

В распакованном виде это 345 мегабайт, относительно небольшой объём. Для тех кто хочет поработать вначале с метриками, есть укороченные версии наборов данных, без текстов, но с метриками по каждому тексту и ссылке саму публикацию на официальном сайте Пр-ва.

Все метрики подсчитаны доработанной версией алгоритма с проекта Простой русский язык [2] и с помощью лемматизатора spacy добавлены уточнено определение предложений и также собираются не только комплексные слова, но и их леммы.

Ссылки:
[1] https://ngodata.ru/dataset/plainlang-gov-news
[2] http://plainrussian.ru

#opendata #plainlanguage #datasets