Ivan Begtin

В рубрике интересных продуктов с открытым кодом MapLibre набор библиотек и спецификаций для создания настраиваемых онлайн карт с активным использованием GPU для оптимизации обработки и отображения изображений.

Делается довольно большой командой и большим числом контрибьюторов, это один из эффективных открытых проектов по сбору денег со спонсоров -по итогам 1-го квартала 2025 года их баланс составлял $653 тысячи, что для не самого крупного проекта довольно неплохо.

В частности в ноябре они выпустили первую версию сервера Martin для создания векторных плиток на лету из баз PostGIS и многое другое. Жаль они у них в планах нет выпуска каталога геоданных потому что Geonetwork и Geonode развиваются медленно.

#opensource #geodata #geospatial

👍7

1.66K viewsIvan Begtin, 09:59

Ivan Begtin

Я недавно писал про Fairstack китайский комплект ПО для открытой науки и про их ПО для институциональных репозитриев данных InstDB. Важная характеристика китайской науки - это систематизация и доступность данных, в том числе по разным дисциплинам. Но есть немаловажный нюанс - существенная изолированность от мира.

У меня есть реестр из 72 инсталляций InstDB из которых удалось открыть лишь 12 при попытках открыть их с IP адресов в Армении, России, США и Германии. Причем 12 открылись только с IP адреса в России, а с других открывались только 6. При том что я точно знаю что большая часть этих сайтов работают, но пока не обзавелся сервером/IP адресом в Китае. Но данные из этих порталов эффективно индексируются внутри Китая в базу SciDB и в поисковик findata.cn.

#opendata #openaccess

Ivan Begtin in Чат к каналу @begtin

В рубрике как это устроено у них Fairstack 1.0 комплект продуктов и сервисов от Китайской академии наук (СAS) по организации инфраструктуры работы с данными для исследователей. Включает множество инструментов с открытым кодом и разработанных в компьютерном…

👍5❤2

1.42K viewsIvan Begtin, 13:21

Ivan Begtin

Mattermost изначально продукт с открытым кодом активно использовавшийся по всему миру как альтернатива Slack которую можно было бы установить локально для своей команды перешли в режим open core и начиная с 11 версии ввели ограничение в максимум 10 000 сообщений, а все что до определенной даты уходят в архив без воможности просмотра. Пользователи у которых это произошло после обновления справедливо негодуют.

Лично я бы сказал что после такого шага пользоваться Mattermost'ом уже нельзя, потому что монетизация - это нормально, а вот монетизация через подобное принуждение и острый дискомфорт пользователей это очень плохой трек.

Как и всегда проблема в дефиците качественных альтернатив.

#opensource #opencore

💯5✍4😢4😱3🌚1

1.82K viewsIvan Begtin, 04:10

Ivan Begtin

Forwarded from Open Data Armenia

Всем привет! Для тех у кого есть немного времени помочь сообществу мы подготовили несколько задач для волонтеров по сбору данных. Наша цель наполнить каталог данных data.opendata.am большим числом наборов данных посвященных культуре Армении и армян по всему миру опубликованные в разных странах и на разных языках.

Для этого есть две задачи сейчас и чуть позже появится большой перечень задач:
1. Сбор слов посвященных Армении и армянам на разных языках

У нас есть репозиторий armenian-keywords где уже собраны ключевые слова (имена, фамилии, места, просто слова) идентифицируемые как армянские или к относящиеся к Армении и историческим местам связанным с армянской культурой. Сейчас в репозитории 4074 слова на русском языке и немного на английском. В планах собрать списки слов на английском, французском, испанском, португальском, немецком, итальянском, турецком и арабском языках как наиболее приоритетных.

Эти списки слов будут использоваться для поиска контента в самых разных источниках и каталогах культурного наследия.

Если Вы умеете работать с открытым кодом и данными в CSV, то можете создавать обновления и правки прямо в этот репозиторий, а если Вы не работаете с кодом и данными, но хотели бы помочь, то можете отправить в issues (задачи в репозитории) списки слов или ссылки на страницы/сайты где они могут быть.

Если у Вас есть идеи как можно этот процесс дополнить и улучшить то они всячески приветствуются!

2. Извлечение информации о армянском культурном наследии из Госкаталога музейного фонда РФ (goskatalog.ru)

В госкаталоге музейного фонда РФ (goskatalog.ru) собрано немало записей о культурных объектах советского и имперского периодов истории России и СССР. В том числе немало этих объектов относятся к Армении напрямую или к художниках/композиторам/скульпторам и тд. армянского происхождения.

Мы выгрузили все содержание каталога в форме специального файла с данными в формате Parquet и он доступен для анализа и обработки. Если кто-то из участников имеет опыт в дата инженерии и науке о данных, то полезной помощью для нас было бы найти и извлечь из этого файла записи относящиеся к Армении и армянской культуре используя ранее собранные ключевые слова из репозитория armenian-keywords. Это не очень сложная, но и не простая задача, поскольку в файле более 30 миллионов записей и в сжатом виде он составляет 3GB
—
Чуть позже будут дополнительные задачи по сбору данных из других источников культурного наследия в разных странах.

Спасибо всем кто готов помогать создавая открытые данные!

#opendata #armenia #culture #volunteering #helpneeded

👍5❤4⚡3

1.37K viewsIvan Begtin, 07:06

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- How to Stay Ahead of AI as an Early-Career Engineer в IEEE Spectrum о том как меняются требования к джуниорам в ИТ на фоне применения ИИ. Если вкратце то требования к кандидатам растут, хуже всего тем кто умеет не начальном уровне кодить и не вкладывался в собственное развитие многие годы. Ключевой вопрос в том как должно меняться образование?
- Congress: Protect NCAR and Climate Research союзе обеспокоенных ученых в США призывает остановить закрытие Национального центра атмосферных исследований (NCAR) США которое недавно было анонсировано администрацией Трампа
- The Hidden Price of Data статья в журнале IMF про то как измерять стоимость данных в экономике и экономическими методами, автор статьи написала книгу на эту тему, тоже полезную для понимания того как экономика данных устроена.
- Instagram CLI для тех кто любит текстовые терминалы и серьезное намерен бороться с "гниеним мозга" (brainrot) утилита для работы с инстаграмом с командной строки. Я бы пошел дальше и вместо отображения изображения сразу бы давал текстовое описание извлеченное из него с помощью LLM

#ai #instagram #data #careers #it

IEEE Spectrum

How to Stay Ahead of AI as an Early-Career Engineer

How can recent grads navigate a job market transformed by AI? Learn how to make AI work for you, not against you.

👍7🔥1

1.55K viewsIvan Begtin, edited 09:35

Ivan Begtin

В продолжение размышлений про ИИ агенты, я тут недавно добрался до того чтобы посмотреть интервью Романа Ямпольского про то что в перспективе 5-10 лет мир придет к 99% безработицы с учетом развития ИИ агентов и, хотя я не разделяю такого фатализма, но согласен с тем что всё развивается очень быстро и пока не проглядываются пределы и ограничения технологий не позволяющие делать дальнейшие технологические прорывы.

Это, в каком-то смысле, ситуация противоположная тому о чем писали фантасты, поскольку ИИ разрабатывается не тайно крупными корпорациями или секретными госагентствами, а максимально публично на спекулятивные (венчурные) деньги сверхсконцентрированными на этой задаче.

Для всех кто работал в технологическом секторе быстрое проникновение новых технологий это не редкость, собственно высокие заработки в ИТ были обусловлены необходимостью быстрой адаптации к новым технологиям, а в случае внедрения в ИИ изменения настолько ускорились что не у всех эта адаптация срабатывает. Что говорить о других профессиях где вообще не привыкли столь резким и быстрым изменениям. Масштабы страхов работающих по найму и надежды инвесторов в стартапы здесь сходятся в масштабе ожиданий, но не в результате.

Последний месяц я занимаюсь актуализацией многих технических заданий, дорожных карт и иных планов разработки и уже просто явно вижу что есть задачи которые в ближайший год не заменить с помощью ИИ (пока не заменить), а есть те которые поддаются автоматизации на 70-80% если не сейчас то в ближайшем будущем.

По сути люди [пока] незаменимы сейчас во всех вопросах связанных с коммуникациями, например, организовать хакатон или договориться с поставщиком данных или нанять или уволить человека, но с помощью ИИ агентов вполне себе пишется техническая и отчетная документация, разворачивается инфраструктура, разрабатываются базы данных, создается ПО, осуществляется тестирование и тд. Для чего нужны меньшие по размеру команды (ну или снижение активного найма и обучение действующих команд).

Всё это делает многие длинные планы сразу нерелевантными поскольку их необходимо пересматривать уже не ежегодно, а ежеквартально также как и планы управления ресурсами, людьми, бюджетами и критическими зависимостями.

Лично у меня пока нет каких-то далеко идущих выводов от происходящего или прорывных решений потому что всё меняется слишком быстро, но общая стратегия в быстрой адаптации идущим изменениям.

Я вот для себя лично все больше понимаю что с идущими изменениями вокруг ИИ агентов большую ценность приобретает повышение архитектурных ИТ навыков, а не узкотехнических. Условно надо не идеально знать какой-то язык программирования, а уметь формулировать архитектурные паттерны для ИИ агентов.

#thougths #ai

YouTube

The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy

WARNING: AI could end humanity, and we’re completely unprepared. Dr. Roman Yampolskiy reveals how AI will take 99% of jobs, why Sam Altman is ignoring safety, and how we’re heading toward global collapse…or even World War III.

Dr. Roman Yampolskiy is a leading…

👍5💯3❤2⚡1

1.56K viewsIvan Begtin, 13:40

Ivan Begtin

Manus, популярный сервис аналитического ИИ агента, продался Meta.

Даже не знаю радоваться или огорчаться. Потому что сервис один из лучших для задач Deep Research и с ресурсами Meta может стать еще лучше, а с другой стороны бигтехи славны "убийством стартапов"

#ai #manus #meta

🤔8⚡2

1.99K viewsIvan Begtin, 09:29

Ivan Begtin

Forwarded from 4CIO: чат свободного сообщества (_)

Решение компании Proton (создателя защищенной почты Proton Mail) перенести значительную часть своей инфраструктуры из Швейцарии в Германию и Норвегию вызвано радикальными изменениями в швейцарском законодательстве, которые ставят под угрозу фундаментальный принцип сервиса — анонимность пользователей,.

Ниже приведены подробности этого процесса, основанные на предоставленных источниках:

### Причина ухода: Законопроект OCPT 2025
Главным катализатором стал пересмотр постановления о надзоре за коммуникациями, известный как OCPT 2025. Основные положения этого закона включают:
* Обязательный сбор метаданных: Сервисы, имеющие более 5000 пользователей, обязаны внедрить интерфейс для передачи властям метаданных (IP-адреса источника и назначения, объем данных, временные метки) по официальному запросу и хранить их в течение 6 месяцев.
* Прямая трансляция данных: Для сервисов с аудиторией более 1 миллиона пользователей требования еще жестче: они должны обеспечить возможность потоковой передачи данных в режиме реального времени по запросу спецслужб.
* Автоматизация слежки: В проект заложены алгоритмы обнаружения аномалий для автоматической фильтрации потоков метаданных.

Основатель Proton Энди Йен заявляет, что в таких условиях сервис в Швейцарии станет менее приватным, чем Gmail в США, что делает невозможным выполнение обещания «никаких логов»,.

### Новые локации: Германия и Норвегия
Proton инвестирует 100 миллионов швейцарских франков в перенос серверов, выбирая страны с более строгими правовыми гарантиями,:
1. Германия (Франкфурт): Выбрана из-за сильной судебной защиты. Конституционный суд Германии трижды отменял законы о массовом хранении данных.
2. Норвегия (Осло): Страна соблюдает нормы GDPR, политически стабильна и предлагает экологические преимущества. Центры обработки данных работают на гидроэнергии, а субарктический климат обеспечивает естественное охлаждение.

### Масштаб и сроки
* Сентябрь 2025 года: Запуск первых узлов искусственного интеллекта (Lumo) во Франкфурте.
* 2030 год: Цель по практически полному выводу серверов почты и VPN из Швейцарии.
* Штаб-квартира: Proton сохранит головной офис в Женеве, чтобы продолжать юридическую борьбу и лоббировать интересы цифровой приватности в стране.

### Экономические и репутационные риски
Уход Proton наносит удар по бренду Швейцарии как «тихой гавани» для данных. По оценкам Университета Санкт-Галлена, услуги, ориентированные на конфиденциальность (включая финансы и страхование), составляют более 10% ВВП Швейцарии. Критики закона называют его «легализованной массовой кражей со взломом» и опасаются, что страна потеряет доверие, которое зарабатывалось десятилетиями,.

Аналогия для понимания ситуации:
Представьте, что Швейцария всегда была банком с самыми надежными сейфами, где никто не спрашивал, что вы храните. Новый закон подобен требованию установить внутри каждого сейфа камеру, которая в реальном времени транслирует в полицию, кто, когда и сколько раз открывал свою ячейку. В такой ситуации владелец банка решает перевезти сами ячейки в другое место, где право на тайну частной жизни всё еще защищено законом, оставляя в старом здании только приемную. https://www.youtube.com/watch?v=w_CsiZf03tM

YouTube

Why Is Proton Leaving Switzerland? #10minutes to understand

10 Minutes to Understand: Why Is Proton Leaving Switzerland?

The Swiss Confederation, once a symbol of “Swiss Privacy,” is now planning to connect a real-time surveillance pipeline (OSCPT 2025) to all digital services with over 5,000 users, with the ambition…

👍13😢3❤2

1.62K viewsIvan Begtin, 12:07

Ivan Begtin

До Нового года осталось всего несколько часов, я решил что поздравлять с ним с помощью сгенерированной ИИ картинкой будет плохим предзнаменованием поэтому ограничусь текстом.

Пусть Новый 2026 год будет спокойней предыдущих, количество глобальной хтони в мире поуменьшится, новые технологии пусть открываются для мира, чтобы работы у всех было достаточно, хватало время на себя, семью, учёбу, хобби и думать о вечном.

1❤53💯11❤‍🔥6⚡4👍4🍾4👏2🎉2

1.49K viewsIvan Begtin, 18:01

Ivan Begtin

В продолжение рассуждений вслух о ИИ агентах в разработке, о том насколько ИИ агенты об ограничениях которые явным образом видны при их применении. Я, напомню, экспериментирую с ИИ агентами для приведения в порядок унаследованного кода и далее с переносом практики на уже современный код и проекты.

Я взял свою старую библиотеку для Python по парсингу дат в условно любых форматах qddate и поставил себе 2-х дневный спринт по приведению её в порядок и актуализации. Про эту библиотеку я ранее рассказывал, её основное применение было в инструменте newsworker по автоматическому извлечению новостей из веб сайтов у которых нет RSS лент и для задач мэтчинга дат в metacrafter.

Пока из наблюдений:
1. Максимально самодостаточный код. ИИ агенты стараются писать с минимальным числом зависимостей. Это, с одной стороны, повышает его переносимость, а с другой стороны код становится длиннее, непонятно зачем существует множество программных библиотек если они не используются. При применении библиотек, если не задано иных условий, будут использоваться наиболее популярные. Применительно к решаемой задаче ИИ агент явным образом предпочитает использовать библиотеку re для регулярных выражений, потому что она замечательно задокументирована и имеет множество примеров. Но в задачах быстрого парсинга данных на Python гораздо эффективнее библиотека Pyparsing (есть ещё несколько альтернатив, но, в любом случае, не стандартная библиотека для регулярных выражения Python)
2. Неполнота при любых неспецифичных запросах. Взаимодействие с ИИ агентом в режиме "возьми этот код и улучши его/ускорь его" всегда дает набор оптимизаций и изменений, но очень редко полный или наиболее эффективный. Гораздо более действенный метод в том что бы задавать вопросы в стиле "может ли применение Y улучшить производительность/качество кода X?" и далее последовательные уточняющие вопросы. В случае qddate у меня был длинный список гипотез которые могли бы улучшить и оптимизировать алгоритм, например: мэтчинг префиксов строк, учет кодировки строк, анализ разделителей в датах и так далее. Точечные вопросы к ИИ ассистенту помогли в оптимизации кода через проверку этих гипотез
3. Бенчмарки обязательны. А еще лучше четко сформулированные критерии результатов. В случае qddate оценки очень понятные - это нулевые FAR (False Acceptance Rate) и FRR (False Rejection Rate) для входящих данных, а также скорость сравнимая или превышающая аналоги. С генерацией тестовых данных, скриптов для бенчмарков ИИ агенты вполне справляются при наличии правильно заданной рамки. Например, особенность qddate в том что он заточен под обработку потоков строк из веб страниц и его основное преимущество в отсеве большого числа строк которые точно не даты, а скорость парсинга дат при это вторична по отношении к скорости отсева. Поэтому главный бенчмарк основан на множестве строк из большого числа веб страниц.
4. Анализ конкурентов. ИИ агенты вполне умеют сравнивать код в нескольких репозиториях кода и давать инсайты и сравнения по ключевым критериям. К примеру, qddate не единственная существующая попытка написать универсальную библиотеку для парсинга условно любых дат. Есть такие решения как dateparser от команды ScrapingHub создатели которой сделали поддержку 200+ языков и есть давно не обновлявшаяся dateutil сфокусированная на датах на английском языке и преимущественно тем которые генерирует ПО. Из всех агентов Antigravity в режиме Gemini 3 Pro (High) выдает наиболее точные инсайты по реализации таких программных библиотек. В данном случае мне этот анализ не дал инсайтов которые можно было бы применить потому что qddate изначально создавалась как интенсивно оптимизированная библиотека, но дало знания и улучшенное понимание областей применения. Сравнение библиотек можно посмотреть вот тут и оно неплохо объясняет применение каждого инструмента для разных задач.

👍7❤3⚡2✍1

1.38K viewsIvan Begtin, 10:17

Ivan Begtin

По итогам могу сказать что если Google сменит ценовую политику для корпоративного применения Antigravity (сейчас она 183.6 евро за месяц) или если его конкуренты прокачают свои решения для ещё большей эффективности, то работу над кодом это ускорят не а 2-3 раза, а в 10-30 раз.

Разработка любого внутреннего инструмента или конечного приложения теперь должна быть устроена иначе. На начальной стадии обязательно нужно писать текст видения результата который должен включать:
1. Описание того что создается
2. Описание результатов включая критерии качества:
- измеряемые индикаторы качества (в данном случае FAR/FRR)
- сравнение результатов с существующими аналогами если они есть
3. Гипотезы
4. Правила управления зависимостями
5. Правила организации кода, репозитория и автоматического покрытия тестами и документирования

Частично это вписывается в логику руководства ИИ агента в AGENTS.md или GEMINI.md, но лишь частично, скорее всего всё это необходимо оформлять во внутренние руководства по организации разработки с использованием ИИ агентов.

#opensource #ai #aiagents #coding #thoughts #devnotes

👍11🔥6❤‍🔥2✍2

1.42K viewsIvan Begtin, edited 10:17

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе, ~~охранниками с дубинками~~ и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных

#readings #ai #opensource

www.nerd-lang.org

Story - NERD

Why NERD exists.

❤6✍2❤‍🔥1👌1

1.35K viewsIvan Begtin, 11:18

Ivan Begtin

2025 год закончился, пора переходить к предсказаниям на 2026 и вот мой набор необязательно самых реалистичных, но вполне возможных предсказаний.

1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.

2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.

3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.

4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.

5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.

Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!😎

#thoughts #ideas #happynewyear

Please open Telegram to view this post

VIEW IN TELEGRAM

😱9🐳6⚡5❤5😁5✍3🤔3🙏3👍2

1.93K viewsIvan Begtin, edited 17:06

Ivan Begtin

Я ещё помню времена когда искусством в софтверной разработке было создание приложений работающих быстро и занимающих мало физической и оперативной памяти и писать небольшие приложения было прямо таки непросто, были десятки самых разных архиваторов для запускаемых файлов, а многие функции специально переписывались на ассемблере чтобы не зависеть от стандартных библиотек.

Тем более забавно наблюдать как некоторые разработчики пишут с помощью LLM'ок приложения в той же идеологии. Например, браузер для Википедии в 100kb для Linux использующий только вызовы syscalls. Его разработчик пишет что почти весь код написал с помощью GPT-5.2.

Казалось бы почему бы некоторым разработчикам особо распухших приложений не применить LLM для их оптимизации, но будем честными некоторые приложения проще написать с нуля чем переделать и даже с помощью LLM создание приложений с минимальным футпринтом остается нетривиальной задачей.

#curiosities #dev #opensource

👍17🔥4🤔4

1.29K viewsIvan Begtin, 05:52

Ivan Begtin

Ещё немного рефлексии по прошедшему году, я стал заметно больше писать про технологии и данные чем про общественное связанное с открытостью и не только. Причин у этого несколько, основная, конечно, в запуске Dateno где мы делаем поисковик по данным и тут не до идеологии или политики, а ключевое - это технологии, охват, актуализация и тд. Открытые данные там в основе, но они не единственная форма общедоступных данных которые подлежат индексации.

Чтобы объяснить смену фокуса моих интересов, даже хотя бы самому себе, надо погрузится в то что происходит с открытостью информации и данных в мире.

1. Кризис открытости и свободы доступа к информации в мире.

Да, да, он идет не один год и связан в меньшей степени с тем что данные не должны открываться и информация публиковаться, а с тем что фокус интересов государств, доноров и общества резко сместился на ИИ. Я вижу это буквально повсеместно в изменившихся направлениях действий международных НКОшей которые теперь выставляют ИИ во главу приоритетов (потому что их доноры также выставляют это как нечто приоритетное). Например, Open Knowledge Foundation переключились на AI Literacy и прилагают попытки к работе с "public AI", но это все имеет уже смутное отношение к проповедованию открытости. Аналогично и со многими другими группами, они, в большей части, имеют сейчас активно анти-бигтеховскую повестку. Аналогично с Open Data Charter которые занимаются адаптацией законодательства по открытости данных под разработку ИИ. И там и там и во многих других группах есть при этом острый дефицит компетенций в AI, но важнее то что фокус сменяется и многие активисты сейчас задаются вопросом "зачем помогать создавать открытые данные и пропагандировать их если выгодоприобретатели этого большие AI-бигтехи?". Ответ на этот вопрос могут найти не все, сообщество медленно затухает и на сегодня оно активно в вопросах открытого доступа (Open Access), но слабо активно в вопросах открытых государственных данных.

Поэтому вопросы усилий государств по открытости или противодействия открытости хотя и есть, но ушли на второй план. Да, что-то закрывается, что-то открывается, это фоновые события в ситуации общего снижения открытости из-за ограничения ИИ ботов, ускорения введения пэйволлов и тд. из-за того что основными потребителями данных становятся ИИ боты.

2. Все большая оторванность экосистемы открытых данных от дата инженерии и современной разработки

Это то что у меня лично вызывает легкое раздражение, но у этого есть объективные причины. Экосистема открытых данных была и остается построена на небольшом числе открытых продуктов и некотором числе слабо-коммерческих, но все они вообще никак не адаптированы не то что под ИИ инженерию, но и слабоваты технологически с точки зрения дата инженерии.Из каталогов открытых данных коммерчески чуть-чуть успешным является только Huwise (бывший OpenDataSoft) на котором работают сотни муниципалитетов в Европе и некоторое число инсталляций в других странах. Но это успешность условна, они довольно быстро меняются от каталога открытых данных в "data marketplace". На мой взгляд путь сомнительный, возможный. По такому пути когда-то ушел проект data.world который начинался как публичный каталог данных, а потом сделал пивот в корпоративную дата платформу и в июле 2025 г. их купили ServiceNow. По сути в основе экосистемы открытых данных в мире сейчас находятся CKAN и Geonetwork. И надо сказать что скорость, качество и плотность изменения что их что других продуктов в этой области сейчас несравнимо ниже чем у даже не самых популярных дата инженерных продуктов с открытым кодом. Там нет поддержки современных форматов данных, Изменения проводятся с большими задержками и акцентами на совместимость, а не развитие.

Это важно потому что открытость данных - это технологическая тема, чем больше она оторвана от инженерной экосистемы, тем сложнее их интегрировать. И у этой оторванности много причин, финансовых, персональных, технических, но она есть и её необходимо фиксировать.

(продолжение в следующей части)

👍8❤2

1.06K viewsIvan Begtin, 10:17

Ivan Begtin

(Часть вторая)

3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.

Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.

Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.

У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента

Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.

Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.
—

Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.

#thoughts #openness #data #opendata #openaccess

👍12❤1

1.25K viewsIvan Begtin, 10:17

Ivan Begtin

Число вопросов в StackOverflow падает уже несколько лет и сократилось в несколько раз. В декабре 2024 года их было 18029, а в декабре 2025 года их всего лишь 3862 - итого сокращение в 4.6x раз

Причины достаточно очевидны и те же что у Википедии. Зачем обращаться к первоисточнику когда ИИ ассистенты и агенты дают сравнимый или лучший результат.

Можно сказать что проходит, возможно уже прошла, целая эпоха.

#ai #programming #thoughts

💔11👍4😢4🌚3❤1🔥1💅1

1.58K viewsIvan Begtin, 13:01

Ivan Begtin

cartes.gouv.fr новый федеральный портал геоданных Франции, анонсирован в середине декабря 2025 года IGN France (Национальный институт географической и лесной информации). В его основе продукт с открытым кодом Geonetwork с расширением в виде geonetwork-ui для более удобного поиска и визуализации. Пока там всего 174 набора данных и сервиса API, но явно будет больше.

Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.

Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.

#opendata #france #geodata

👍8

1.42K viewsIvan Begtin, 15:26

Ivan Begtin

Обычно я подвожу личные итоги года не в под Новый год, а под 6-е января, в свой день рождения. Итоги эти практически все связаны с профессиональной работой, а не с чем-то личным, и в этом году они созвучны многому что я слышу от других в ИТ.

ИИ агенты стремительно меняют отрасль и игнорировать их не то что нельзя, а необходимо использовать и использовать активно. Для меня 2025 год - это продолжение всё большего погружения в технологии и всё меньшее за их пределами. Я практически до минимумам сократил участие во всех мероприятиях кроме совсем необходимых, сократил преподавание и гораздо меньше стал интересоваться политикой за пределами практических действий, гораздо больше погрузился в дата-инженерию и теперь ещё и практические аспекты ИИ. Из по настоящему любимых хобби осталось то что связано с цифровой архивацией и цифровым культурным наследием.

Похожим образом примерно 20 лет назад я уходил из роли технического архитектора в системном интеграторе в создание собственной компании через восстановления знаний в Python и создание первого стартапа используя самую раннюю версию Django и MySQL для анализа госзакупок. Фактически за год я тогда восстановил хард скиллы.

Зато что я могу сказать точно что наконец-то чувствую себя восстановившимся после COVID'а. Первые 2 года после него дались мне, честно говоря, довольно тяжело и только к 2024 я уже более менее нормально начал себя чувствовать, а в 2025 году уже чувствую себя достаточно живым чтобы ощущать что мир меняется слишком быстро чтобы позволить себе отставать.

#thoughts #personal

3❤57👏10🍾7👍3🙏2

1.36K viewsIvan Begtin, edited 20:54

About

Blog

Apps

Platform