Ivan Begtin
9.01K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я вчера практически весь день провел на CAIGF (Central Asian Intenet Governance Forum), говорил, как всегда про данные, рассказывал немного про Dateno и Open Data Armenia, про дефицит открытых данных в странах Центральной Азии, сильном сдвиге публикации данных в сторону ИИ, в том что важно устанавливать приоритет на дата продукты и о том что вне зависимости от того открыты данные или нет, должны быть доступны метаданные и четкие условия доступа к данным разного типа, от полностью открытых (открытые данные под свободными лицензиями) до доступных ограниченному числу пользователей по четким регламентам.

Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.

Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.

#opendata #data #conferences #centralasia #thoughts
🔥1065👌2
Где ИИ инструменты были бы полезны и где их нет. Автоматизация работы с почтой

Я смотрю на свои повседневные инструменты и сервисы с которыми я работаю и рефлексирую о том где ИИ ассистенты были бы очень полезны и где их нет. Вот пример подобного.

У меня более 31 тысячи писем в основном почтовом ящике и около 8600 во втором и по нескольку тысяч в других. Даже при том что я придерживаюсь практики zero inbox, в нем, все равно, накапливается до 300-400 писем в входящих. И тут кажется что совершенно естественно применять ИИ ассистента который бы по команде умел бы структурировать и каталогизировать входящие письма. У Google есть встраивание Gemini в Gmail, но проблема в том что Gemini там на все запросы выдает инструкции и ничего сам не делает.

Есть внешние инструменты вроде Manus которые умеют подключаться к Gmail и даже писать код который разметит и рассортирует все письма или подключение ChatGPT к Outlook Email, но совсем не хочется давать доступ внешнему сервису к своей почте. Тем более поскольку нет желания обучать его на своих письмах.

Я подозреваю что такие ассистенты для почты постепенно появляются внутри наиболее массовых продуктов (тот же Gemini внутри Gmail), но пока недостаточно хорошо. А стартапы вроде Superhuman Mail или Inbox Zero, ИМХО, имеют мало перспектив поскольку экосистемы вроде Google или Microsoft сильно выигрывают.

Кроме того есть ощущение что интерфейсы к почте используемые ИИ ассистентами, мягко говоря, неэффективны. Обработку почту внутри самого сервиса можно было бы колоссально оптимизировать использовать внутреннее API.

Подозреваю что, всё таки, все пойдет скорее по пути стыковки ИИ агентов крупных AI BigTech'ов со своими аккаунтами и управление через них с разными защитными механизмами вроде обязательных бэкапов и тд.

#ai #thoughts #email #productivity
10👍5🔥31
Я только-только хотел написать что блокировки VPN уже не столько и не только убивают российскую ИТ отрасль, как оставшуюся, пока что, в живых науку, как нашел текст в канале Алексея Хохлова в котором про то же самое.

Я бы тут сформулировал так, что из множество профессий у ИТшников всегда было чуть больше свободы отъезда из России из-за возможности дистанционной работы и хотя бы технического знания английского языка. А у исследователей глобальная востребованность в тех специализациях где была и есть возможность коммуницировать с зарубежными коллегами и где есть "живая наука", со спросом и предложением и инвестициями.

Я знаю многих людей из академических организаций которые пользовались, да и пользуются изнутри России VPN'ами не только чтобы обойти блокировки РКН, но даже чаще чтобы обойти блокировки в зарубежных сервисах связанных с их научной работой. Да, российские подсети уже несколько лет как блокируются на многих таких сервисах и доступ к данным, публикациям и сервисам может быть заблокирован.

Вообще я не могу не вернуться к той мысли что блокировки VPN и ограничения Интернета, телеграма и тд. это когда ради политических решений идеи разрушение коммуникации, экономики, общественных отношений и принципиальной возможности для самореализации.

Не буду расписывать в подробностях к чему это приведет, но точно не к тому что спрос на доступ в Интернет куда-то исчезнет.

#thoughts
💯32💔1243
Я тут было хотел в очередной раз "пнуть" российский портал открытых данных data.gov.ru, на предмет его бессмысленности, но посмотрел там раздел новости понял что всё, похоже он обречен. Даже нерелевантные новости Минэка там не обновляются с октября 2025 года, а релевантная вообще была только одна, о запуске портала в июле 2025.

Похоже что эта лошадь сдохла также как и предыдущая. Надо сделать архивную копию на случай если "внезапно перестанет работать". Но поскольку в России давно уже не ориентируются на рейтинги оценки цифровизации в мире, то судьба нац портала открытых данных столь незавидная

#opendata #russia #thoughts
👍14💯731🐳1
Я [не так уж] недавно озадачился темой баз знаний и баз документов для работы с ИИ да и без него тоже и не то чтобы в восторге от того что есть в практическом использовании. Если посмотреть на то как об этом думают другие, например, Andrey Karpathy в его тексте LLM Knowledge Bases то там речь про связку Obsidian как личный инструмент редактирования и набор инструментов по поиску и обогащению материалов с помощью LLM.

Вот эта модель, когда в ядре используются связанные Markdown файлы, а способы редактирования могут быть разные, Obsidian один из наиболее популярных, но далеко не единственный. Способ работающий, до каких то пределов и для подготовки сжатых смысловых связанных блоков.

Какие есть еще варианты связок редактор/интерфейс, LLM и тд. ?

Самый очевидный воспользоваться каким-нибудь Notion где AI встроен можно сказать естественным образом.

Есть еще OpenKB на базе PageIndex в котором вообще нет UI интерфейса, но есть возможность делать запросы с командной строки. Веб интерфейс это не проблема, можно поднять один из Markdown wiki продуктов вроде Docusaurus, но сам подход выглядит так:
добавляешь документ в любом формате -> он преобразуется в Markdown -> Markdown индексируется в базу знаний - > можно задавать вопросы естественным языком.

Карпатый в своих рассуждениях еще упоминал qmd любопытный тул как раз для такой базы знаний.

Я про все это тоже думаю, сразу в контексте 3-х близких задач:
1. Личная база знаний, которая у меня как и у многих на базе Obsidian и к которой хотелись бы LLM возможности что называется из коробки, а не через разные *Claw.
2. База знаний для работы доменных экспертов когда есть пул специалистов в предметной области и они готовят материалы для обучения LLM под предметную область какой бы она ни была (кулинария, юриспруденция, поэззия и тд). Тут идеально если есть Вики инструмент, на том же Markdown'е. И в который раз можно лишь посетовать про дефицит структурированных вики, хотя есть тот же Outline.
3. Хранилище документов под очень большие объёмы, условно в миллионы документов, с тем что документы могут быть разного типа с разными профилями метаданных и также подключаемыми. У этого есть разные решения, от технических, все метаданные в индекс OpenSearch, а профили описывать в разными схемами в YAML, до концептуальных через создание онтологии и использование институциональных репозиториев вроде Hyrax, DSpace, Islandora и тд. Институциональные репозитории и библиотечные системы далеки очень от инженерных паттернов и не факт что это лучшее решение.

Может показаться что эти задачи отличаются, но вот мне представляется что они очень близки.

#thoughts #ai #documents
6👍5🔥42
ProgramBench интересный проект и исследование из Meta про проверке способности LLM не просто программировать, но и проектировать архитектуру приложений.

LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.

Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.

Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.

#opensource #ai #thoughts
👍6🔥21
Почему я задумался про LLM Knowledge base и работу с базами знаний через LLM? У меня есть какое-то, немало количество материалов собранных из большого числа небольших записок и недописанных книг. Эти книги, изначально в формате лонгридов и страниц для Gitbook'а можно назвать существенными кусками (ядром) того что можно назвать доменной базой знаний, в понимании домена как очерченной предметной области.

У меня таких областей было и есть несколько и вот сейчас без применения ИИ ассистентов работать с ними очень сложно. И из реально работающих инструментов реально наиболее оптимален Notion, но со всеми оговорками зависимости от его проприетарности.

Идеальный инструмент - это продукт работающий локально на компьютере или в локальной сети, позволяющий вносить знания по предпопределенным профилям и шаблонам, с визуальным редактированием и совместной работы от 5 редакторов. Самое очевидное тут Mediawiki/Wikibase, с оговоркой что там внутри не Markdown, что там очень консервативное API и интеграции, и с не менее консервативными инструментами метаописания и редактирования.

Тут я вспомнил что есть и другой путь. Переводить все документы в YAML и формировать их структурированными блоками. YAML/TOML файлы значительно проще редактировать сохраняя структурную целостность, заполняя метаданными и так далее, а конвертация в Markdown может быть автоматической/автоматизированной.

Это неидеальный сценарий поскольку он требует редактирования базы знаний в IDE, а не визуальном редакторе и такой редактор надо делать (что не так сложно с помощью генеративных LLM).

#thoughts #knowledge
7🔥4👍32
Мысли вслух по поводу применения ИИ для создания наборов данных. Многие российские ведомства за последние годы удалили немало статистических данных и других датасетов, отчетов и докладов со своих сайтов, но, на самом деле, произошло примерно следующее. Данные пропали в структурированном виде, но фрагментарно публикуются их пресс-службами в виде агргеированных цифр и, реже, публикуются разного рода отраслевыми изданиями.

Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".

Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.

Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.

Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.

А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.

В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.

#opendata #data #thoughts
8👍64😁1
По поводу введения "платы за VPN сервисы" в России, давайте называть всё своими именами. Это выглядит как цифровой налог на бедных. Понятно что те кому это критично найдут на это деньги (или способ обойти и это) и понятно что интернет-провайдеров будут люто за это ненавидеть. А для людей с небольшими и средними доходами - это будет очень болезнено. И отличить любой другой зарубежный трафик от VPN будет практически невозможно. И богатых имеющих доступ к зарубежному трафику тоже будут ненавидеть, не так сильно как провайдеров и регуляторов, но тоже. Общий градус злости будет сильно выше

Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.

#thoughts
💯325😢5🤝2
Радует что в ответ на мой запрос про парсинг НЭБа сразу несколько откликов, ожидаемо какого-то простого решения нет и парсинг займет некоторое осмысленное время, однако сама задача привела меня к мысли о том какими сейчас могут быть конкурсы и хакатоны про открытые данные.

Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.

Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.

Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.

И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.

У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.

Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.

Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).

Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.

#opendata #thoughts
👍10🔥832❤‍🔥2
По поводу блокировок в России Pypi, репозитория библиотек кода для Python и заявлений Роскомнадзора по поводу того что "это не они", все довольно просто. Pypi как и тысячи других сервисов в мире используют CDN, в данном случае сервис Fastly. Вот его Роскомнадзор уже несколько раз блокировал в предыдущих блокировках других ресурсов. Сейчас, я подозреваю, в очередной раз блокировали что-то еще использующее Fastly и затронули Pypi "случайно". Что РКН не оправдывает и не оправдывало никогда.

Проблема в том что таких инцидентов будет больше. Из-за наплыва ИИ агентов все больше онлайн ресурсов используют CDN'ы, просто из-за роста трафика, из-за задач блокировки ИИ агентов и краулеров, из-за роста нагрузки на инфраструктуру.

#thoughts #comments #russia
👍11🕊5💯2