Ivan Begtin

В качестве небольшого оффтопика я написал текст на блог в Medium о выборе минималистичного текстового редактора [1]. Текст немного великоват для отправки в канал в Telegram или в Facebook, но в процессе его написания я в очередной раз задумался насколько актуальны вопрос "чистописания" во всем что касается госуправления.

Государственный и нормативный юридический языки жутковаты для восприятия простыми людьми. Или даже непростыми, но ценящими свое время людьми. Вот уже за долгие годы я до сих пор не встретил ни одного качественного редактора текстов для юристов дающего инструменты упрощения текста для понимания простыми людьми с сохранением смысла.

Ссылки:
[1] https://medium.com/@ibegtin/chooseminimalisticeditor-22b6ccecd980

#opengov #plainlanguage

Medium

Выбор минималистичного текстового редактора – Ivan Begtin – Medium

Зачем нужен минималистичный редактор и как им пользоваться

1.35K views08:04

Ivan Begtin

Один из самых простых внешне и сложных внутри общественно полезных проектов которыми я занимался - это "Простой русский язык" http://plainrussian.ru

Это сервис который проверяет текст на предмет его простоты и измеряет эту простоту в годах обучения и возрасте аудитории.

Визуально сервис простой для безобразия, просто форма в которой можно ввести ссылку или, во вкладке рядом, текст и получить измерение сложности по нескольким формулам. Самое сложное в том что в России не было формул измерения этой самой понятности текста. Они есть для английского, испанского, португальского, немецкого и ещё многих языков, но в России не проводились научные исследования, а мне очень хотелось измерять эту понятность и желательно простым образом.

Поэтому много лет назад я потратил несколько месяцев на то чтобы такие формулы адаптировать под русский язык. В статье на Хабре "Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов" [1] в 2014 году я рассказывал как это делалось. Не имея возможности проверить эти формулы на разных аудиториях, я, по сути, на базе обучающей выборки из текстов внеклассного чтения методом грубого перебора коэффициентов подобрал такие их показатели при которых среднее отклонение расчётного и предобученного значений было минимальным.

Тогда же и появился сервис plainrussian.ru и тогда же было доступно его API [2]. И тогда же я выложил исходный код формул [3], каждый желающий может реализовать это в своём приложении.

А моей изначальной идеей, как ни странно, было автоматически измерить сложность несколько сотен тысяч текстов с государственных сайтов и других источников. Потом, когда оказалось что формулы потребовали не 1-2 дней как я планировал, а нескольких месяцев, то я и не завершил создание базы сложности текстов.

Это один из тех проектов которые, на мой взгляд, могут быть исключительно некоммерческими. Многое можно ещё сделать к нему в довесок. Например, в телеграме @PlainRussianBot написан поверх этого API. Это наш внутренний бот в Инфокультуре для проверки текстов, но его можно использовать и извне. Он понимает команды /help, /url, /text и если ему переслать файл doc то он извлечет из него текст и измерит его сложность.

Ссылки:
[1] https://habr.com/company/infoculture/blog/238875/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian

Хабр

Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов

Так сложилось что в последние годы мне лично приходится всё больше и больше сталкиваться с различными государственными текстами, особенно законами и финансовыми...

1.03K viewsIvan Begtin, edited 17:57

Ivan Begtin

Институт проблем правоприменения сделал очень познавательное исследование "Сложность правовых актов в России" [1], они упоминают и наш проект Инфокультуры "Простым языком" [2].

То что исследованы именно юридические тексты - это важно, огромногое количество законов, других НПА, судебных и иных решений порождаемых ежедневно являются просто неподъёмными для обычного человека. А их сложность лишь ухудшают эту ситуацию.

Ссылки:
[1] http://enforce.spb.ru/images/analit_zapiski/memo_readability_2018_web.pdf
[2] http://plainrussian.ru

#plainlanguage #plainrussian

1.49K viewsIvan Begtin, 15:35

Ivan Begtin

Я редко пишу про этот проект Инфокультуры, потому что он не про данные, он про понятность. Много лет назад моим увлечением была оценка сложности текстов, и как-то я потратил несколько месяцев жизни на то, чтобы адаптировать 5 формул оценки читабельности английского языка для русского языка. Во всех формулах использовались те или иные метрики и коэффициенты: среднее число слов в предложении, среднее число слогов в слове и тд. Вот их-то я и адаптировал для русского языка.

И вот уже много лет существует проект "Простой русский язык" http://plainrussian.ru, где можно проверить любой текст (например, новости на сайте Казначейства или Правительства РФ), а также использовать API для проверки.

Это, действительно, очень простой, бесплатный, открытый сервис, доступный каждому.

Если есть идеи и предложения, что хотелось бы в нём увидеть дополнительно, не стесняйтесь, пишите мне.

#API #plainlanguage

1.72K viewsIvan Begtin, 08:28

Ivan Begtin

В рубрике полезных наборов данных, набор данных для анализа простоты официального государственного языка созданный по результатам сбора новостей с официального сайта Правительства РФ [1]. В наборе 9823 текста новости, 558582 предложений за 9 лет (начиная с 2012 года), а по каждому тексту и по каждому предложению набор метрик измерения сложности текста. Для текстов есть расчёт показателей простоты текста, перечни сложных слов и лемм, частотности слов по числу слогов и так далее. Набор можно использовать для формирования словарей официальной лексики, анализа изменения официального языка с течением времени, измерения средней сложности официального языка и многого другого.

Например, 90.8% всех новостей на сайте правительства попадают в диапазон сложности текста от 10 до 24. Где цифра означает число необходимых лет обучения для понимания текста. 10 - это десять классов школы, а 24 - это аспирантура, второе высшее, иное узкоспециализированное знание.

А в целом сложность менее 18 (полное высшее образование) есть у 65% всех опубликованных текстов новостей.

И есть небольшое число текстов состоящих исключительно из длинных перечислений и сложность их текстов резко выше чем всех остальных.

В распакованном виде это 345 мегабайт, относительно небольшой объём. Для тех кто хочет поработать вначале с метриками, есть укороченные версии наборов данных, без текстов, но с метриками по каждому тексту и ссылке саму публикацию на официальном сайте Пр-ва.

Все метрики подсчитаны доработанной версией алгоритма с проекта Простой русский язык [2] и с помощью лемматизатора spacy добавлены уточнено определение предложений и также собираются не только комплексные слова, но и их леммы.

Ссылки:
[1] https://ngodata.ru/dataset/plainlang-gov-news
[2] http://plainrussian.ru

#opendata #plainlanguage #datasets

ngodata.ru

Корпус новостей с официального сайта Правительства РФ с разметкой по простоте языка - Данные НКО

Набор данных из новостей с сайта Правительства РФ http://government.ru/news с текстами извлеченными из страниц сайта и расширенными метриками простоты языка.
В качестве инструментов разметки...

1.56K viewsIvan Begtin, 07:42

Ivan Begtin

Алексей Лукацкий проверил регуляторные документы по инфобезу через наш сервис Простой язык [1] и отметил наиболее сложную нормативку. А я со своей стороны расскажу что когда-то простой русский язык я сделал после того как потратил несколько месяцев на то чтобы адаптировать формулы английского языка под русский. Это было непросто и делал я это, Вы не поверите, брут-форсным перебором нескольких миллионов комбинаций коэффициентов.

Потому что самое главное в этих формулах - это привязка значений к годам обучения. Если формула выдаёт 10 - это означает что 10 лет надо учиться чтобы понять этот текст (примерно 9-11 классы школы), а сложность в 18 означает что учиться надо 18 лет (а то есть 11 классов школы + 5 лет ВУЗа + ещё чему-то, например, в аспирантуре) ну и так далее.

Дело в том что формулы читабельности основаны на нескольких параметрах сложности текста таких как:
- среднее число слов на предложение
- среднее число слогов в словах
- среднее число слогов на предложение
- число сложных слов на предложение
и так далее.

Есть корреляция между сложностью текста и этими и другими параметрами, но как эту корреляцию переложить в формулу? И вот для этого я собирал кучу текстов для внеклассного чтения где были рекомендации для возраста и адаптировал формулы под поиск наименьшего среднего отклонения и наименьшего максимального отклонения. Иначе говоря, если если коэффициенты у формулы должны давать результат при котором максимально допустимое отклонение в оценки сложности текста не более 2, то есть если текст для внеклассного чтения для 9-го класса то алгоритм не может ошибаться в его отношении в пределах 9-11, но не более. А среднее отклонение по всей обучающей выборке должно быть как можно ниже.

Дальше чтобы не вдаваться в сложную математику я просто перебрал все коэффициенты с шагом в 0.01 для всех формул и это заняло около месяца на нескольких домашних компьютерах.
Самой точной оказывалась формула SMOG (Simple Measure of Gobbledygook) с адаптированными коэффициентами поэтому она и является базовой в оценке plainrussian.ru.

Всё это было более 7 лет назад, сам код можно увидеть по ссылке на Github [2]. Сейчас его надо переработать чтобы лучше учитывать определение предложений, лучше понимать бюрократические тексты (нужна отдельная шкала) и ещё многое другое до чего постепенно "доходят руки".

Ссылки:
[1] https://plainrussian.ru
[2] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian

4.52K viewsIvan Begtin, 08:59

Ivan Begtin

11-13 мая пройдёт большая международная конференция Access for All. Plain Language is a Civil Right [1]. Там большая насыщенная программа [2] со спикерами из десятков стран о практике простоты языка.

Конференция платная, не очень дешёвая, но есть скидки по тому к странам с какими доходами вы относитесь. Россия страна со средними доходами и код скидки ZONE2. Вместе с ним стоимость участия: $49.00 для студентов, $109 для членов ассоциаций, $139.00 для тех кто в ассоциации не входит.

Организует конференцию Clarity International, Center for Plain Language и Plain Language Association International. Я лично вхожу в ассоциацию Clarity International уже много лет, плачу членские взносы и получаю по подписке их журнал и поэтому получу небольшую скидку. Много лет я также представляю Россию в Clarity International и ещё 4 человека из России входят в Plain Language Association [3] и вот и всё. Практически никто от России не выступает на международных конференциях, честно говоря я вот тоже этого не делаю. Рассказываю только на российских конференциях или вот последняя моя презентация с российско-германского форума [4], но вот к этой международной конференции, увы, я не успел подготовиться, но с удовольствием послушаю участников.

Напомню что у Информационной культуры есть проект по простоте и понятности русского языка [5] где можно измерить сложность языка в годах обучения. У проекта есть открытое API с помощью которого можно анализировать тексты автоматически/автоматизировано.

Ссылки:
[1] https://www.accessforallconference.com/
[2] https://www.accessforallconference.com/may-program
[3] https://plainlanguagenetwork.org/membership/member-directory/
[4] https://www.beautiful.ai/player/-MZCRhasvASjRmvzWl7c
[5] https://plainrussian.ru

#plainlanguage #plainrussian

1.94K viewsIvan Begtin, 09:17

Ivan Begtin

В Высшей школе экономики разместили в открытом доступе сервис "Оценка синтаксической сложности нормативных текстов" для проверки языка нормативных документов [1]. Сервис, безусловно, полезный, надеюсь он будет активно применяться российскими нормотворцами, а у каждого законопроекта будет автоматическая оценка его сложности. Ко всему прочему результаты проекта также весьма интересны по оценке сложности российских законов [2] и открытые данные в виде корпуса российских законов [3].

Из пожеланий, сервису нехватает API и подробностей методологии, но и в таком виде он будет полезен.

А я напомню что ещё много лет назад в @infoculture мы создали сервис "Простой русский язык" который даёт оценку сложности любого текста [4]. Этот сервис не так сложно устроен как сервис от НИУ ВШЭ и он не затачивался под законы, а скорее на общедоступные простые тексты. Главное что его код открыт [5] включая все формулы используемые для расчёта. Подробнее о том как он создавался я писал на Хабре несколько лет назад [6]

Я от себя добавлю что давно думаю над актуализацией сервиса по простоте языка, но не могу найти под это ни коммерческого, ни общественного заказчика. Большинство вполне устраивает текущий сервис и другие инструменты, как ни странно. Вот только для нормативных документов он плохо применим, это правда.

Так что надеюсь проект который делает команда НИУ ВШЭ будет развиваться и применяться на практике.

Ссылка:
[1] http://lawreadability.hse.ru
[2] http://lawreadability.hse.ru/project-results/
[3] http://lawreadability.hse.ru/data-sources/
[4] https://plainrussian.ru/
[5] https://github.com/infoculture/plainrussian
[6] https://habr.com/ru/post/239511/

#opendata #plainrussian #plainlanguage

1.93K viewsIvan Begtin, 06:40

Ivan Begtin

Среди приложений по улучшению написанных текстов много лет выделялся Grammarly [1], стартап основанный в кремниевой долине в 2009 году несколькими выходцами из Украины и поднявший 200М инвестиций за эти 12 лет. Его особенность была в понимании контекста и эффективных подсказках по замене слов, конструкций, замене пунктуации под разные стили написания текстов и даже виды английского языка.

Те кто сталкивался с образованием в зарубежных университетах знают что многие из них заключают большой корпоративный договор с Grammarly и предоставляют его своим студентам бесплатно.

И вот 2020 году появился стартап Writer.com [2], со многими похожими на Grammarly свойствами, опять же заточенный под английский язык и в буквально совсем недавно они получили второй раунд финансирования в 20 миллионов долларов [3] под автоматизацию проверки текстов по корпоративным руководствам стилей адаптированным под их бренды. Идея, с одной стороны оригинальная, а с другой как раз под ожидания клиентов и адаптацию практики аутсорсинга подготовки пресс-релизов, контента для сайтов и много чего ещё связанного с текстами. Крупные компании отдают пресс-релизы на аутсорс, но хотят контролировать их качество, гендерную нейтральность и ещё много чего, актуального как минимум в США.

Впрочем Writer.com появился не на пустом месте, до него основатели делали стартап Qordoba в котором совмещали сервисы управления контентом, перевода и упрощения языка. Далее, по видимому, упрощение языка оказалось наиболее перспективной темой для развития и инвестиций.

Это довольно сильный уход от модели существования большинства сервисов по проверки грамматики. Большая их часть развивались как продукты для тех для кого язык не родной и проверка грамматики позволяет избежать основных ошибок. Поэтому так много клиентов у Grammarly среди университетов, для студентов кому английский язык не родной. А у Writer.com модель основанная на улучшении контроле текстов которые могут быть написаны и носителями языка, но под решение корпоративных задач.

Ссылки:
[1] https://www.crunchbase.com/organization/grammarly
[2] https://www.crunchbase.com/organization/writer
[3] https://techcrunch.com/2021/11/15/writers-automated-style-guide-for-web-based-publishing-brings-in-21m-a-round/

#plainlanguage #startups #language

Crunchbase

Superhuman (formerly Grammarly) - Crunchbase Company Profile & Funding

Superhuman delivers an AI-powered productivity platform to assist with writing, collaboration, email management, and task automation.

👍1

1.97K viewsIvan Begtin, 21:07

Ivan Begtin

В Новой Зеландии приняли закон о простом языке (plain language act). Об
этом в статье в Guardian [1] в том числе и о том почему этот закон приняли, а причина в том чтобы законы были понятны и тем людям для которых английский язык не основной. Иначе говоря - это защита прав мигрантов, о чём бы и другим странам было бы не лишне подумать.

Текст закона можно прочитать на сайте Парламента Новой Зеландии [2], как и дебаты парламента где он довольно активно обсуждался.

Ссылки:
[1] https://www.theguardian.com/world/2022/oct/20/new-zealand-passes-plain-language-bill-to-jettison-jargon
[2] https://www.parliament.nz/en/pb/bills-and-laws/bills-proposed-laws/document/BILL_115953/plain-language-bill

#plainlanguage #plainenglish

❤15🔥9👍5🤣2🤔1😢1🌚1

3.08K viewsIvan Begtin, 13:45

Ivan Begtin

Интересный продукт/сервис/проект Explainpaper [1] по переводу научных статей с
"непонятного научного" на простой язык․ Мне лично, в какой-то степени, везёт, я читаю статьи где всё, обычно, довольно таки понятно. Но есть немало научных статей написанных таким языком что надо в нём пробираться словно сквозь дебри.

О внутренностях проекта очень мало информации, но сама его возможность весьма интересна.

Ссылки:
[1] https://www.explainpaper.com

#ai #plainlanguage #openaccess #openscience

👍15🤣2🔥1

2.41K viewsIvan Begtin, 15:01

Ivan Begtin

Собрал свои публичные презентации по нескольким темам и понял что получится большой пост если перечислять все. Вот тут самые основные:

Открытые данные
- Раскрытие данных о госфинансах как часть государственной политики - про проекты открытости госфинансов и их значимости
- Открытые данные как основа госполитики - о том как устроены открытые данные в мире
- Как искать данные с помощью каталогов данных. Проект Datacatalogs.ru - об одном из первых каталогов-каталогов данных
- Sharing Data for Disaster Response and Recovery Programs - об открытых данных в вопросах чрезвычайных ситуаций и восстановления
- Открытость информационных систем нормотворчества - об открытости/закрытости систем нормотворчества в России

Data engineering
- Dateno. Global Data Discovery search engine - презентация проекта поиска по данным Dateno
- Datacrafter. Каталог и озеро данных на базе MongoDB - презентация для выступления на конференции SmartData, о внутренностях продукта Datacrafter и куча технических подробностей

Open Data Armenia
- Open Finances. International and Armenia overview - обзор проектов по открытости госфинансов в мире и в Армении
- Open Data, Open Code, Open Licenses - о разных компонентах открытости

Открытый код
- Открытый код в других странах - Как и в каком объёме и кто именно публикует открытый код, почему это важно и почему это становится всё более популярным

Приватность
- Слежка через государственные мобильные приложения - о том как государственные органы следят за гражданами с помощью мобильных приложений и сливают информацию о их передвижении и действиях коммерческим компаниям
- Термины и объекты регулирования: ADM-системы - о том что такое системы для автоматического принятия решения и как они описываются в разных странах
- О необходимости контроля и аудита ADM- систем - о том как регулировать ИИ используемый для автоматического принятия решений

Веб архивация
- Организация веб-архивов - о том как устроены современные интернет архивы и Национальный цифровой архив (ruarxive.org)
- Дата инженерия и цифровая гуманитаристика - о том какие большие цифровые гуманитарные проекты есть в мире и про Национальный цифровой архив

Понятный язык
- Простой и понятный русский язык - о простоте русского языка и её измерении
- Простота нормативно-правового языка - о подходах к оценке нормативно-правовых текстов

P.S. Всего у меня 200+ неразобранных презентаций за последние 15 лет, в онлайне не больше 30. Что-то устаревает, что-то нельзя публиковать, что-то бессмысленно без самого выступления, но, по мере разбора завалов, буду выкладывать дальше.

#opendata #opensource #plainlanguage #webarchives #digitalpreservation #dataengineering #armenia

Beautiful.ai

Раскрытие данных о госфинансах как часть государственной политики в РФ

Get started with Beautiful.ai today.

👍26🔥12👏3❤1

1.57K viewsIvan Begtin, 11:41

Ivan Begtin

Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.

Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem

#opensource #datadocumentation #datapolicy #plainlanguage

Stateofdocs

State of Docs Report 2025

Read the State of Docs Report 2025 and see what documentation professionals say about the state of the industry

👍8

1.39K viewsIvan Begtin, 06:35

Ivan Begtin

Тем временем мои руки добрались до экспериментов с MCP серверами для разных сервисов. В качестве эксперимента я сейчас взял сервис оценки простоты русского языка PlainRussian.ru который я когда-то очень-очень давно создавал и передал в Инфокультуру. У сервиса есть немало лояльных пользователей, при том что он не менялся уже больше 10 лет, есть API и вообще он просто устроен. Сейчас я на его основе сделал простейший MCP сервер который проверил через AnythingLLM и одну из последних открытых моделей от OpenAI.

Хорошая новость - всё быстро завелось и заработало, LLM достаточно корректно интерпретирует результаты.

Это значит что для других продуктов, более серьёзных и коммерческих, таких как Dateno.io можно сделать MCP сервер в довольно короткие сроки.

Не так очевидно потенциальная нагрузка на такое API если его выставить наружу без авторизации. Не сожрёт ли оно слишком много ресурсов. Нужен бенчмарк и нагрузочное тестирование, возможно достаточно интенсивное.

Поэтому тут развилка, сделать ли общедоступный MCP сервер для подключения кого угодно, и делать ли тогда авторизацию? Или сделать открытый репозиторий чтобы каждый мог поднять собственный MCP сервер, тогда надо больше усилий потратить на хорошее документирование.

P.S. Одна из причин почему я когда-то перестал развивать PlainRussian была в том что как раз с помощью LLM его функции можно заменить достаточно неплохо и с тем что полноценный анализатор сложности текста требует гораздо больше инвестиций, непонятно возвратных ли. Но как общественное благо в простом варианте, несомненно, польза от такого сервиса есть.

Пока всё это в рамках экспериментов с MCP протоколом, чуть позже я точно поделюсь кодом/доступом к сервису для тех кому это нужно на практике.

#plainlanguage #plainrussian

👍8❤5🔥5

1.75K viewsIvan Begtin, 16:47

About

Blog

Apps

Platform