Ivan Begtin

2025 год закончился, пора переходить к предсказаниям на 2026 и вот мой набор необязательно самых реалистичных, но вполне возможных предсказаний.

1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.

2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.

3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.

4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.

5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.

Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!😎

#thoughts #ideas #happynewyear

Please open Telegram to view this post

VIEW IN TELEGRAM

😱9😁6🐳6❤5⚡5🤔4✍3🙏3👍2

2.2K viewsIvan Begtin, edited 17:06

Ivan Begtin

(Часть вторая)

3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.

Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.

Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.

У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента

Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.

Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.
—

Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.

#thoughts #openness #data #opendata #openaccess

👍12❤1

1.39K viewsIvan Begtin, 10:17

Ivan Begtin

Число вопросов в StackOverflow падает уже несколько лет и сократилось в несколько раз. В декабре 2024 года их было 18029, а в декабре 2025 года их всего лишь 3862 - итого сокращение в 4.6x раз

Причины достаточно очевидны и те же что у Википедии. Зачем обращаться к первоисточнику когда ИИ ассистенты и агенты дают сравнимый или лучший результат.

Можно сказать что проходит, возможно уже прошла, целая эпоха.

#ai #programming #thoughts

💔11👍4😢4🌚3❤1🔥1💅1

1.77K viewsIvan Begtin, 13:01

Ivan Begtin

Обычно я подвожу личные итоги года не в под Новый год, а под 6-е января, в свой день рождения. Итоги эти практически все связаны с профессиональной работой, а не с чем-то личным, и в этом году они созвучны многому что я слышу от других в ИТ.

ИИ агенты стремительно меняют отрасль и игнорировать их не то что нельзя, а необходимо использовать и использовать активно. Для меня 2025 год - это продолжение всё большего погружения в технологии и всё меньшее за их пределами. Я практически до минимумам сократил участие во всех мероприятиях кроме совсем необходимых, сократил преподавание и гораздо меньше стал интересоваться политикой за пределами практических действий, гораздо больше погрузился в дата-инженерию и теперь ещё и практические аспекты ИИ. Из по настоящему любимых хобби осталось то что связано с цифровой архивацией и цифровым культурным наследием.

Похожим образом примерно 20 лет назад я уходил из роли технического архитектора в системном интеграторе в создание собственной компании через восстановления знаний в Python и создание первого стартапа используя самую раннюю версию Django и MySQL для анализа госзакупок. Фактически за год я тогда восстановил хард скиллы.

Зато что я могу сказать точно что наконец-то чувствую себя восстановившимся после COVID'а. Первые 2 года после него дались мне, честно говоря, довольно тяжело и только к 2024 я уже более менее нормально начал себя чувствовать, а в 2025 году уже чувствую себя достаточно живым чтобы ощущать что мир меняется слишком быстро чтобы позволить себе отставать.

#thoughts #personal

3❤58👏10🍾7👍3🙏2

1.56K viewsIvan Begtin, edited 20:54

Ivan Begtin

Хороший обзор Eight Software Markets AI That Will Transform Differently того как изменится рынок программного обеспечения в ближайшее время под воздействием развития ИИ инструментов. Из 8 ИТ рынка по настоящему радоваться могут исследователи, для них открывается бесконечный новый мир быстрого создания ПО и кода под свои задачи.

Сложнее всего будет всем кто делает корпоративные продукты, конкуренция резко усилится и ускорится, буквально во всем и тут будет ситуация что ты или быстро меняешься или уходишь на свалку истории.

Там в обзоре упоминается еще и геймдев, проекты сделанные как хобби и много чего другое.

А я вот думаю одним из важнейших глобальных изменений будет высокая скорость клонирования существующих продуктов. Чем лучше твой продукт, его API и интерфейс документированы, тем проще конкурентам воспроизвести его логику за сроки кратно меньшие чем потраченные тобой.

Можно представить, на выбор, укоренившихся вендоров ПО в некоторых отраслях и спокойно имевших свою долю рынка и неспешно на нем живших, а вдруг окажется что то что они делали пару десятилетий можно воспроизвести за 6 месяцев? за 3 месяца?

Некоторые крупные "столпы рынка" могут внезапно попадать, а суды вокруг воспроизведения API станут куда более массовыми чем сейчас.

#ai #thoughts #itmarket

Substack

Eight Software Markets That AI Will Transform Differently

Not All Software Is Created Equal, And It Won't be Recreated Equally

👍10❤1

1.99K viewsIvan Begtin, 18:13

Ivan Begtin

Я довольно много писал про разные форматы файлов в дата инженерии и не только, с одной стороны это кажется очень внутренне-технической темой, неочевидной для тех кто не работает с данными постоянно, с другой стороны в обзоре от Andy Pavlov про СУБД за 2025 год активная конкуренция форматов явно упоминается. Потому что (внезапно!) оказалось что то как ты хранишь данные и то как хранят данные кто-то ещё и которые тебе необходимо использовать может быть как очень удобно и практично, так и создавать ничем не обоснованные дополнительные издержки.

Я привожу в пример как часто на порталах открытых данных публикуют CSV или XML файлы внутри ZIP архивов в формате: один файл - один архив. Но данные/файлы внутри ZIP архивов не приспособлены (без шаманства) для потоковой обработки. Их надо вначале распаковать куда-то как временные файлы, а потом уже обрабатывать и временные файлы удалять. Если файлы небольшие то и ладно, а если это десятки и сотни гигабайт и таких задач много, то возникает вопрос: А отчего же так? Это решается распространением датасетов не в виде ZIP архивов, а сжатием из GZip, LZMA, Zstandard, LZ4 и тд., способами и форматами сжатых данных изначально приспособленных под потоковую обработку. Собственно под такие форматы я делал iterabledata, библиотеку для Python. Она про то чтобы условно любой файл с таблицами или объектами можно было бы перебирать как это принято в Python в csv.DictReader. Последовательный перебор с возвращанием каждой записи как словаря (dict).

Но это лишь один уровень оптимизации, далее вопрос в выборочной обработке данных. Почему в какой-то момент так выстрелил довольно старый формат Parquet? Помимо хорошей компресии и возможности быстрого чтения данных он ещё и дает возможность выборочного чтения и фильтрации данных. К примеру, в отношении XML файлов это уже не работает, в отношении JSON, с большими ограничениями (для JSONl да, в остальных случаях нет) и так далее. А ещё есть огромное число форматов имеющих предметное и отраслевое применение где всё что можно - это, либо считывать их в память целиком, или перебирать содержание по каждой записи.

Вот примеры таких форматов: WARC (файлы веб архивов), PCAP (файлы перехвата сетевого трафика), SAS (файлы статпакета SAS), и еще много что: BSON, KML, GML, XLS, ODS и так далее. Реально огромное число форматов не поддаются фильтрации без загрузки в память или не через фильтрацию при тотальном переборе.

Поэтому когда доходит до их обработки, приходится преобразовывать их полностью или частично в parquet. К примеру, для WARC файлов я всегда их преобразую в один или несколько parquet файлов с метаданными, а оригинальные файлы рассматриваю как контейнеры для контента. И это я не сам придумал, а подсмотрел когда-то у Common Crawl, они поступают аналогично поскольку без этой процедуры собирать статистику сложно, надо перелопачивать каждый WARC файл, а это гигабайты-терабайты-петабайты.

Однако и сам формат Parquet'а неидеален и об этом регулярно пишут в разных местах и появляются такие форматы как Lance, Vortex, Nimble, Vortex, FastLanes и другие. Пока они довольно редки в открытом доступе, но постепенно проявляются. Впрочем parquet оказался достаточно эффективным чтобы эта замена длилась ещё какое-то количество леь

А вот чтобы я бы предсказал так то что грядет тренд на parquet'изацию данных, когда просто сильно удобнее распространять их в структурированном подобным образом виде. Возможно через рассмотрения parquet файлов как контейнеры, а возможно как файлы-сателлиты с метаданным к файлам контейнерам. К примеру, можно вполне заменить VCF файлы (генетика) на Parquet или файлы LDIF (директории пользователей LDAP) на Parquet или файлы KML и GML (геоданные) и тд.

#thoughts #data #dataengineering #fileformats

Ivan Begtin

Полезный ежегодный обзор баз данных в тексте Databases in 2025: A Year in Review от Andy Pavlov.
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими…

👍6✍1

1.57K viewsIvan Begtin, 08:37

Ivan Begtin

Чем следователь (дознаватель) отличается от археолога ? Археолог копает чтобы поместить результаты в музей/архив, а следователь чтобы найти улики преступления. Но существенная часть их работы пересекается, оба копаются в земле, инвентаризируют и изучают результаты. Некоторые инструменты (лопаты, щётки) практически идентичные.

Применительно к цифровым артефактам ситуация очень похожая. Работа цифрового архивиста и цифрового дознавателя во многом пересекается.

Цифровые архивисты работают с архивами, как правило, связанными с общедоступными массивами цифровых материалов или организационными, они изучают, зачастую, очень унаследованные данные, файлы, электронную почту и тд. в целях инвентаризации и обеспечения доступа. При этом им необходимо уметь понимать форматы в которых эти материалы хранятся, иметь инструменты которые позволяют их просматривать или преобразовывать и так далее. Увлекательное дело для всех кто любит копаться в ~~цифровом мусоре~~ ценных артефактов прошлых поколений.

Цифровые дознаватели работают почти всегда с личными и корпоративными данными, электронной почтой, перехваченными сообщениями и файлами полученными из устройств пользователей и серверов - образов дисков и памяти компьютеров, телефонов, планшетов и так далее. Инструменты цифрового дознания формируют отдельную экосистему, они, по большей части (но не все), проприетарны и оперируют извлечением структурированных знаний из установленного ПО и памяти. Например, извлекая данные контактов и сообщений мессенжеров, почты, последних скачанных файлов и тд.

И там и там все сохраняется в базы с метаданными оформленным по своим правилам. Тоже пересекающиеся по логике и содержанию.

Удивительное дело, так почему не дознавателей не учат на архивистов, а архивистов на дознавателей? 🙈

Впрочем на цифровых архивистов вообще мало где учат, в России точно нет, вообще это только в ряде стран такая явная специализация есть. А цифровые дознаватели не везде сформировались как явная профессия и чаще совмещается или декларируется как киберследователь (ИТ-детектив) и в компаниях по кибербезопасности их больше чем в правоохранительных органах (а может быть и нет).

#thoughts

1👍11✍4⚡2👌1💊1

1.73K viewsIvan Begtin, 10:35

Ivan Begtin

Cursor выпустил гайд с лучшими практиками по использованию ИИ агентов в разработке. Рекомендации все довольно понятные, я бы даже сказал что очевидные для опытных разработчиков, но могут быть не настолько очевидными для кого-то ещё.

Важный акцент там на стадии планирования и вопросам к ассистенту до реализации фич или исправления багов.

А я бы добавил к этому следующее:
1. Планирование через OpenSpec или его аналоги. Очень хорошо структурирует процесс проектирования и коммуникации с ИИ агентом. Для сложного и унаследованного кода - это просто необходимо. В принципе разделять планирование и реализацию, на стадии планирования не меняется код, а результаты - спеки и планы.
2. Cursor и аналогичные инструменты (Antigravity, Copilot и тд.) могут выполнять роль инструментов исследовательской поддержки и аналитики. Например, формируz отчеты по конкурентам, проектируя инструменты бенчмарков с ними, подготовка аналитики по разным функциям, проектирование верхнеуровневой архитектуры и тд.
3. ИИ ассистент - это не только объект проверки (а не кривой ли код он написал?), но и сам является контуром контроля качества. Поэтому на каждой итерации внедрения фич необходим контур создания и проверки тестов, линтинга кода, обновления документации и тд. Это частично решается уже сейчас на стадиях планирования и спеков, но опыт показывает что явное указание этих обязательных проверок дает больше гарантии что код будет не поломан и документация будет актуальной.
4. Инструменты для разработки вполне способны не только писать код, но и писать документы. Подход такой же может быть как к репозиториям кода с использованием спецификаций, планирования и тд. Иначе говоря при проектировании больших ИТ продуктов можно создать отдельный репозиторий с архитектурой продуктов и от него создавать все остальные. Например, если надо условно с нуля сделать продукт у которого есть фронтэнд, бэкэнд, REST API, SDK, интеграционные модули и тд., то вместо того чтобы все засовывать в один репозиторий или сразу разбивать на множество, имеет смысл собрать архитектурный репозиторий с документами.

#ai #coding #thoughts #readings

Cursor

Cursor agent best practices

A comprehensive guide to working with coding agents, from starting with plans to managing context, customizing workflows, and reviewing code.

👍13❤2🔥1🐳1

2.05K viewsIvan Begtin, 10:01

Ivan Begtin

Разные мысли вслух, включая безумные😎:
1. Сервисы автогенерации документации сейчас массово используются для документирования репозиториев (zread.ai и аналоги), но пока не применяются массово для других цифровых коллекций объектов/артефактов. Этот подход переносим на другие комплексные объекты (законы, группы законов и НПА, кадастровые коды территорий, подсети, IP адреса, уголовные или арбитражные дела, муниципалитеты и так далее). Не выглядит безумным
2. Персональные данные умерших кто защищает персональные данные тех кто умер и у кого может уже не быть родственников чьи права могут быть затронуты? Государство может установить правила обработки этих данных с указанием периода защиты по аналогии с авторским правом и отчислениями в специальный государственный фонд, Выглядит безумным 😜, но не нереалистичным и болезненным для бизнеса
3. Rewriter сервис переписывания кода с помощью ИИ применимый для замены продуктов с неприятными лицензиями на приятные. Юридически - поди докажи что права нарушены. Пример, делаем проприетарный продукт в котором хотелось бы использовать инструменты под GPL/AGPL/SSPL, но не хочется открывать код. Быстро наберет популярность на волне хэйта. Не выглядит безумным, но очень специфичным
4. Автоматические порталы данных для стран где нет порталов данных. Это пара десятков стран для которых могут работать автономные ИИ агенты собирающие данные с официальных сайтов, упаковывающие их в наборы данных и публикующие в автоматическом или полуавтоматическом режиме. Актуально для всех очень малых стран где ничего такого нет. Безумным не выглядит, но монетизация тоже маловероятна. Зато перезапуск региональных и городских порталов данных реалистичен.

#opendata #ai #thoughts #ideas

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7❤3🔥1👏1😁1

1.71K viewsIvan Begtin, 19:15

Ivan Begtin

Разные мысли вслух:
1. Термин "большие данные" в 2026 году выглядит анахронизмом, а экономика больших данных особенно. Когда слышу его от кого-либо то вот прямо таки ощущаю что человек находится вне контекста и, либо не понимает предметной области (увы), либо довольно долго был от нее оторван. Условно нет никакой "экономики больших данных", есть экономика данных, но и она, условно, слепляется с ИИ стартапами и ИИ экономикой. В этом есть странное смешение хайпа, реальности и страха потому что это гораздо большие изменения цифровых экосистем чем что-то ещё.
2. Евросоюз запустил публичное обсуждение с~~тратегии импортозамещения и снижения зависимости от США~~ стратегии открытой цифровой экосистемы которая должна помочь цифровому суверенитету ЕС и которая формируется из открытости кода, открытости данных и так далее. Мне такой подход нравится больше чем российское импортозамещение, но реалистичность реального цифрового суверенитета для ЕС, по моему, невелика. Однако если ВЫ резидент ЕС и работаете с открытым кодом и данными, то почему бы не поддержать такое хорошее дело?

#opendata #bigdata #thoughts #opensource #eu

European Commission - Have your say

❤8👍5👏2

1.55K viewsIvan Begtin, 08:57

About

Blog

Apps

Platform