Ivan Begtin
9.08K subscribers
2.53K photos
4 videos
114 files
5.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе, охранниками с дубинками и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных

#readings #ai #opensource
62❤‍🔥1👌1
2025 год закончился, пора переходить к предсказаниям на 2026 и вот мой набор необязательно самых реалистичных, но вполне возможных предсказаний.

1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.

2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.

3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.

4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.

5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.

Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!😎

#thoughts #ideas #happynewyear
Please open Telegram to view this post
VIEW IN TELEGRAM
😱9😁6🐳655🤔43🙏3👍2
Я ещё помню времена когда искусством в софтверной разработке было создание приложений работающих быстро и занимающих мало физической и оперативной памяти и писать небольшие приложения было прямо таки непросто, были десятки самых разных архиваторов для запускаемых файлов, а многие функции специально переписывались на ассемблере чтобы не зависеть от стандартных библиотек.

Тем более забавно наблюдать как некоторые разработчики пишут с помощью LLM'ок приложения в той же идеологии. Например, браузер для Википедии в 100kb для Linux использующий только вызовы syscalls. Его разработчик пишет что почти весь код написал с помощью GPT-5.2.

Казалось бы почему бы некоторым разработчикам особо распухших приложений не применить LLM для их оптимизации, но будем честными некоторые приложения проще написать с нуля чем переделать и даже с помощью LLM создание приложений с минимальным футпринтом остается нетривиальной задачей.

#curiosities #dev #opensource
👍17🔥4🤔4
Ещё немного рефлексии по прошедшему году, я стал заметно больше писать про технологии и данные чем про общественное связанное с открытостью и не только. Причин у этого несколько, основная, конечно, в запуске Dateno где мы делаем поисковик по данным и тут не до идеологии или политики, а ключевое - это технологии, охват, актуализация и тд. Открытые данные там в основе, но они не единственная форма общедоступных данных которые подлежат индексации.

Чтобы объяснить смену фокуса моих интересов, даже хотя бы самому себе, надо погрузится в то что происходит с открытостью информации и данных в мире.

1. Кризис открытости и свободы доступа к информации в мире.

Да, да, он идет не один год и связан в меньшей степени с тем что данные не должны открываться и информация публиковаться, а с тем что фокус интересов государств, доноров и общества резко сместился на ИИ. Я вижу это буквально повсеместно в изменившихся направлениях действий международных НКОшей которые теперь выставляют ИИ во главу приоритетов (потому что их доноры также выставляют это как нечто приоритетное). Например, Open Knowledge Foundation переключились на AI Literacy и прилагают попытки к работе с "public AI", но это все имеет уже смутное отношение к проповедованию открытости. Аналогично и со многими другими группами, они, в большей части, имеют сейчас активно анти-бигтеховскую повестку. Аналогично с Open Data Charter которые занимаются адаптацией законодательства по открытости данных под разработку ИИ. И там и там и во многих других группах есть при этом острый дефицит компетенций в AI, но важнее то что фокус сменяется и многие активисты сейчас задаются вопросом "зачем помогать создавать открытые данные и пропагандировать их если выгодоприобретатели этого большие AI-бигтехи?". Ответ на этот вопрос могут найти не все, сообщество медленно затухает и на сегодня оно активно в вопросах открытого доступа (Open Access), но слабо активно в вопросах открытых государственных данных.

Поэтому вопросы усилий государств по открытости или противодействия открытости хотя и есть, но ушли на второй план. Да, что-то закрывается, что-то открывается, это фоновые события в ситуации общего снижения открытости из-за ограничения ИИ ботов, ускорения введения пэйволлов и тд. из-за того что основными потребителями данных становятся ИИ боты.

2. Все большая оторванность экосистемы открытых данных от дата инженерии и современной разработки

Это то что у меня лично вызывает легкое раздражение, но у этого есть объективные причины. Экосистема открытых данных была и остается построена на небольшом числе открытых продуктов и некотором числе слабо-коммерческих, но все они вообще никак не адаптированы не то что под ИИ инженерию, но и слабоваты технологически с точки зрения дата инженерии.Из каталогов открытых данных коммерчески чуть-чуть успешным является только Huwise (бывший OpenDataSoft) на котором работают сотни муниципалитетов в Европе и некоторое число инсталляций в других странах. Но это успешность условна, они довольно быстро меняются от каталога открытых данных в "data marketplace". На мой взгляд путь сомнительный, возможный. По такому пути когда-то ушел проект data.world который начинался как публичный каталог данных, а потом сделал пивот в корпоративную дата платформу и в июле 2025 г. их купили ServiceNow. По сути в основе экосистемы открытых данных в мире сейчас находятся CKAN и Geonetwork. И надо сказать что скорость, качество и плотность изменения что их что других продуктов в этой области сейчас несравнимо ниже чем у даже не самых популярных дата инженерных продуктов с открытым кодом. Там нет поддержки современных форматов данных, Изменения проводятся с большими задержками и акцентами на совместимость, а не развитие.

Это важно потому что открытость данных - это технологическая тема, чем больше она оторвана от инженерной экосистемы, тем сложнее их интегрировать. И у этой оторванности много причин, финансовых, персональных, технических, но она есть и её необходимо фиксировать.

(продолжение в следующей части)
👍82
(Часть вторая)

3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.

Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.

Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.

У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента

Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.

Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.


Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.

#thoughts #openness #data #opendata #openaccess
👍121
Число вопросов в StackOverflow падает уже несколько лет и сократилось в несколько раз. В декабре 2024 года их было 18029, а в декабре 2025 года их всего лишь 3862 - итого сокращение в 4.6x раз

Причины достаточно очевидны и те же что у Википедии. Зачем обращаться к первоисточнику когда ИИ ассистенты и агенты дают сравнимый или лучший результат.

Можно сказать что проходит, возможно уже прошла, целая эпоха.

#ai #programming #thoughts
💔11👍4😢4🌚31🔥1💅1
cartes.gouv.fr новый федеральный портал геоданных Франции, анонсирован в середине декабря 2025 года IGN France (Национальный институт географической и лесной информации). В его основе продукт с открытым кодом Geonetwork с расширением в виде geonetwork-ui для более удобного поиска и визуализации. Пока там всего 174 набора данных и сервиса API, но явно будет больше.

Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.

Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.

#opendata #france #geodata
👍8
Обычно я подвожу личные итоги года не в под Новый год, а под 6-е января, в свой день рождения. Итоги эти практически все связаны с профессиональной работой, а не с чем-то личным, и в этом году они созвучны многому что я слышу от других в ИТ.

ИИ агенты стремительно меняют отрасль и игнорировать их не то что нельзя, а необходимо использовать и использовать активно. Для меня 2025 год - это продолжение всё большего погружения в технологии и всё меньшее за их пределами. Я практически до минимумам сократил участие во всех мероприятиях кроме совсем необходимых, сократил преподавание и гораздо меньше стал интересоваться политикой за пределами практических действий, гораздо больше погрузился в дата-инженерию и теперь ещё и практические аспекты ИИ. Из по настоящему любимых хобби осталось то что связано с цифровой архивацией и цифровым культурным наследием.

Похожим образом примерно 20 лет назад я уходил из роли технического архитектора в системном интеграторе в создание собственной компании через восстановления знаний в Python и создание первого стартапа используя самую раннюю версию Django и MySQL для анализа госзакупок. Фактически за год я тогда восстановил хард скиллы.

Зато что я могу сказать точно что наконец-то чувствую себя восстановившимся после COVID'а. Первые 2 года после него дались мне, честно говоря, довольно тяжело и только к 2024 я уже более менее нормально начал себя чувствовать, а в 2025 году уже чувствую себя достаточно живым чтобы ощущать что мир меняется слишком быстро чтобы позволить себе отставать.

#thoughts #personal
358👏10🍾7👍3🙏2
Полезный ежегодный обзор баз данных в тексте Databases in 2025: A Year in Review от Andy Pavlov.
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения

В оригинальном обзоре много ссылок и других событий

#data #rdbms #readings
5👍5
В блоге The Pragmatic Engineer текст созвучный моим мыслям When AI writes almost all code, what happens to software engineering? он частично под пэйволлом, ном открытой части достаточно чтобы понять о чем речь. А речь там ровно о том что я предсказывал - работы для начинающих разработчиков в ИТ будет меньше, а опытные будут цениться больше, возможно даже сильно больше, но общее падение профессиональной экспертизы - это то что нас уже почти неизбежно ждет. Причем перелом произошел в последние полгода с появлением новых LLM моделей которые стали неожиданно хорошо справляться с задачами программирования.

Я добавлю что любые дискуссии по поводу перспектив применения ИИ в разработке будут релевантны только если обсуждающие пробовали последние LLM модели: Gemini 3, GPT-5.2 и Opus 4.5.

#ai #softwareengineering #programming #trends
1👍10
Я неоднократно писал про такой продукт с открытым кодом OpenRefine, он малоизвестен в дата инженерной и корпоративно аналитической среде, но хорошо известен многим журналистам расследователям, аналитикам работающим над публикацией данных, всем кто работает в среде с интеграциями в Википедией и Викидатой и многим цифровым библиотекарям, архивистам и тд.

OpenRefine изначально вырос из проекта Google Refine который, в свою очередь, разрабатывался внутри проекта FreeBase который после поглощения Google превратился в Google Knowledge Graph.

OpenRefine позволяет вручную и полувручную, с использованием языка GREL (General Refine Expression Language) или кода на Jython через веб интерфейс чистить табличные наборы данных и сохранять их в CSV и я ряде других форматов. Никакого SQL, сложного кода, зато бесконечный цикл Undo/Redo.

Можно сказать что OpenRefine - это инструмент подготовки данных выросший из экосистемы управления знаниями. Явление он довольно редкое, и сам продукт довольно интересный, но не без ограничений.
Потому что внутри него не СУБД, а граф объектов на Java что резко ограничивало и ограничивает объемы редактируемых датасетов до 100 тысяч записей максимум. Но всё это с удобным UI и возможностью работать чистить данные без глубокого технического погружения в протоколы, SQL запросы и разработку кода.

Какое-то время назад я думал о том не создать ли более эффективную альтернативу OpenRefine. Даже экспериментировал с созданием обвязки с помощью MongoDB mongorefine что было очень прикольным опыт и тренировкой для мозгов, но совершенно точно непригодно для реальной работы потому что MongoDB даёт большую гибкость и очень низкую скорость обработки данных. Это был эксперимент, отложенный для дальнейших размышлений.

Сейчас посмотрев на OpenRefine и его развитие свежим взглядом я могу сказать следующее:
1. Да, с помощью LLM можно очень быстро сделать его аналог, с изначально более-правильной архитектурой на базе Polars + DuckLake или Iceberg, с разделением бэкэнда и фронтэнда/фронтэндов и превратить его в инструмент обогащения данных с помощью LLM и не только.
2. При этом у него очень понятная аудитория, инструмент мог бы быть коммерческим или некоммерческим, важнее что он точно будет востребован

В общем это стало выполнимой задачей, даже для очень небольшой команды в очень обозримые сроки. Но вот я пока довольно активно занят задачами в рамках Dateno что лично для меня даже более интересная задача и несравнимо больший вызов.

Поэтому широко делюсь идеей про создание инструмента очистки и обогащение данных с интерфейсом а ля OpenRefine, но с возможностью очищать и обогащать датасеты в миллионы записей и гигабайтного размера.

#opendata #opensource #ideas #dataquality #dataenrichment
👍1531🙏1🤝1
Подробный разбор на испанском языке о том как внедряются агентские ИИ в госуправлении в мире: Евросюзе, Сингапуре, Великобритании и США. Много примеров включая сингапурское руководство по агентсткому ИИ для госуслуг. Полезно для всех кто занимается этим внутри госорганов потому что это не далекое, а близкое будущее когда получение госуслуг будет автоматизировано не просто через ассистентов отвечающих на простые вопросы, а на режим который есть уже у ИИ агентов и когда запрос гражданина будет итеративно обрабатываться с помощью ИИ агента который будет запрашивать людей операторов систем там где нет подключения система-система.

Для граждан это может быть как существенным прорывом, так и ситуацией когда до оператора-человека вообще не достучаться.

Там много вопросов возникает в связи с тем что ИИ агенты могут автономно делать множественные запросы в разные информационные системы и с юридическим статусом коммуникации с ними.

Но это будущее, возможно неизбежное

#ai #government
👍10🤔21😱1😢1💯1
Кстати вопрос, кто уже пробовал Sourcecraft и его ИИ ассистента от Яндекса? Оно сравнимо ли с Cursor'ом или аналогичными ИИ инструментами? Стоит ли оно внимания за пределами "нужно на случай если в РФ заблокируют Github и Gitlab" или же всё пока на ранней степени зрелости/полезности/необходимости?

#questions
🤔6👍1
Хороший обзор Eight Software Markets AI That Will Transform Differently того как изменится рынок программного обеспечения в ближайшее время под воздействием развития ИИ инструментов. Из 8 ИТ рынка по настоящему радоваться могут исследователи, для них открывается бесконечный новый мир быстрого создания ПО и кода под свои задачи.

Сложнее всего будет всем кто делает корпоративные продукты, конкуренция резко усилится и ускорится, буквально во всем и тут будет ситуация что ты или быстро меняешься или уходишь на свалку истории.

Там в обзоре упоминается еще и геймдев, проекты сделанные как хобби и много чего другое.

А я вот думаю одним из важнейших глобальных изменений будет высокая скорость клонирования существующих продуктов. Чем лучше твой продукт, его API и интерфейс документированы, тем проще конкурентам воспроизвести его логику за сроки кратно меньшие чем потраченные тобой.

Можно представить, на выбор, укоренившихся вендоров ПО в некоторых отраслях и спокойно имевших свою долю рынка и неспешно на нем живших, а вдруг окажется что то что они делали пару десятилетий можно воспроизвести за 6 месяцев? за 3 месяца?

Некоторые крупные "столпы рынка" могут внезапно попадать, а суды вокруг воспроизведения API станут куда более массовыми чем сейчас.

#ai #thoughts #itmarket
👍101
Подробный доклад Framework for Open Data Maturity - Country Profiles and Clusters о измерении зрелости открытости данных в Евросоюзе с сопоставлением текущей практики и того как измеряются уровни цифровизации, применения ИИ и другие цифровые аспекты. Доклад с четким фокусом только на европейские страны, но весьма обстоятельный

#opendata #eu #ratings
1👍611
В продолжение моих малореалистичных предсказаний вот краткое изложение предсказаний экспертов из Стенфорда.

Они гораздо более скучные реалистичные чем мои

ИИ в 2026: от хайпа к реальной оценке и измерению

Эксперты Стэнфорда считают, что 2026-й станет годом прагматичного подхода к искусственному интеллекту: не обещаниями и «чудесами», а оценкой реальной пользы, затрат и рисков. Вместо вопроса *«может ли ИИ что-то сделать?»* будет *«насколько хорошо, в каких условиях и для кого?»*.

AGI не появится
Общий искусственный интеллект широкого уровня всё ещё остаётся в будущем, и в ближайшем году его не ожидают.

«Суверенный» ИИ и геополитика
Страны активнее развивают собственные ИИ-экосистемы или запускают чужие модели на своих серверах, чтобы контролировать данные и снизить зависимость от крупных поставщиков.

Прозрачность и понимание
В науке и медицине усиливается внимание к объяснимости моделей — не только к результату, но и к тому, *как* система приходит к выводу.

Юридический ИИ — сложнее задач
Системы для юристов пойдут дальше простого чернового текста: научатся сопоставлять документы, синтезировать аргументы и давать оценки с привязкой к метрикам качества.

Реализм вместо пузыря
Инвестиции огромны, но эффективность ИИ в реальных процессах всё ещё умеренная. Ожидается больше тщательно измеренных данных о том, где технология действительно работает, а где — нет.

Медицина: постепенный «момент ChatGPT»
Методы самообучения и большие качественные наборы данных позволят медленным до сих пор медицинским ИИ-системам быстрее развиваться — в том числе для диагностики редких заболеваний.

Измерение воздействия на экономику
Вместо деклараций появятся «дашборды» для измерения влияния ИИ на производительность, рабочие места и отходы. Это позволит видеть результаты в реальном времени и корректировать стратегии.

По моему уже пришло время предсказаний в стиле Saxo Bank'а в отношении экономики, только вместо экономики предсказывать будущее ИИ (с другой стороны мы разве не подошли вплотную когда ИИ технологии и экономика становятся синонимами?)

#ai #readings
👍9322