Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].

Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово

Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.

Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.

Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.

Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.

Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat

Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/

#russian #plainrussian #language