В продолжение размышлений про ИИ агенты, я тут недавно добрался до того чтобы посмотреть интервью Романа Ямпольского про то что в перспективе 5-10 лет мир придет к 99% безработицы с учетом развития ИИ агентов и, хотя я не разделяю такого фатализма, но согласен с тем что всё развивается очень быстро и пока не проглядываются пределы и ограничения технологий не позволяющие делать дальнейшие технологические прорывы.
Это, в каком-то смысле, ситуация противоположная тому о чем писали фантасты, поскольку ИИ разрабатывается не тайно крупными корпорациями или секретными госагентствами, а максимально публично на спекулятивные (венчурные) деньги сверхсконцентрированными на этой задаче.
Для всех кто работал в технологическом секторе быстрое проникновение новых технологий это не редкость, собственно высокие заработки в ИТ были обусловлены необходимостью быстрой адаптации к новым технологиям, а в случае внедрения в ИИ изменения настолько ускорились что не у всех эта адаптация срабатывает. Что говорить о других профессиях где вообще не привыкли столь резким и быстрым изменениям. Масштабы страхов работающих по найму и надежды инвесторов в стартапы здесь сходятся в масштабе ожиданий, но не в результате.
Последний месяц я занимаюсь актуализацией многих технических заданий, дорожных карт и иных планов разработки и уже просто явно вижу что есть задачи которые в ближайший год не заменить с помощью ИИ (пока не заменить), а есть те которые поддаются автоматизации на 70-80% если не сейчас то в ближайшем будущем.
По сути люди [пока] незаменимы сейчас во всех вопросах связанных с коммуникациями, например, организовать хакатон или договориться с поставщиком данных или нанять или уволить человека, но с помощью ИИ агентов вполне себе пишется техническая и отчетная документация, разворачивается инфраструктура, разрабатываются базы данных, создается ПО, осуществляется тестирование и тд. Для чего нужны меньшие по размеру команды (ну или снижение активного найма и обучение действующих команд).
Всё это делает многие длинные планы сразу нерелевантными поскольку их необходимо пересматривать уже не ежегодно, а ежеквартально также как и планы управления ресурсами, людьми, бюджетами и критическими зависимостями.
Лично у меня пока нет каких-то далеко идущих выводов от происходящего или прорывных решений потому что всё меняется слишком быстро, но общая стратегия в быстрой адаптации идущим изменениям.
Я вот для себя лично все больше понимаю что с идущими изменениями вокруг ИИ агентов большую ценность приобретает повышение архитектурных ИТ навыков, а не узкотехнических. Условно надо не идеально знать какой-то язык программирования, а уметь формулировать архитектурные паттерны для ИИ агентов.
#thougths #ai
Это, в каком-то смысле, ситуация противоположная тому о чем писали фантасты, поскольку ИИ разрабатывается не тайно крупными корпорациями или секретными госагентствами, а максимально публично на спекулятивные (венчурные) деньги сверхсконцентрированными на этой задаче.
Для всех кто работал в технологическом секторе быстрое проникновение новых технологий это не редкость, собственно высокие заработки в ИТ были обусловлены необходимостью быстрой адаптации к новым технологиям, а в случае внедрения в ИИ изменения настолько ускорились что не у всех эта адаптация срабатывает. Что говорить о других профессиях где вообще не привыкли столь резким и быстрым изменениям. Масштабы страхов работающих по найму и надежды инвесторов в стартапы здесь сходятся в масштабе ожиданий, но не в результате.
Последний месяц я занимаюсь актуализацией многих технических заданий, дорожных карт и иных планов разработки и уже просто явно вижу что есть задачи которые в ближайший год не заменить с помощью ИИ (пока не заменить), а есть те которые поддаются автоматизации на 70-80% если не сейчас то в ближайшем будущем.
По сути люди [пока] незаменимы сейчас во всех вопросах связанных с коммуникациями, например, организовать хакатон или договориться с поставщиком данных или нанять или уволить человека, но с помощью ИИ агентов вполне себе пишется техническая и отчетная документация, разворачивается инфраструктура, разрабатываются базы данных, создается ПО, осуществляется тестирование и тд. Для чего нужны меньшие по размеру команды (ну или снижение активного найма и обучение действующих команд).
Всё это делает многие длинные планы сразу нерелевантными поскольку их необходимо пересматривать уже не ежегодно, а ежеквартально также как и планы управления ресурсами, людьми, бюджетами и критическими зависимостями.
Лично у меня пока нет каких-то далеко идущих выводов от происходящего или прорывных решений потому что всё меняется слишком быстро, но общая стратегия в быстрой адаптации идущим изменениям.
Я вот для себя лично все больше понимаю что с идущими изменениями вокруг ИИ агентов большую ценность приобретает повышение архитектурных ИТ навыков, а не узкотехнических. Условно надо не идеально знать какой-то язык программирования, а уметь формулировать архитектурные паттерны для ИИ агентов.
#thougths #ai
YouTube
The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy
WARNING: AI could end humanity, and we’re completely unprepared. Dr. Roman Yampolskiy reveals how AI will take 99% of jobs, why Sam Altman is ignoring safety, and how we’re heading toward global collapse…or even World War III.
Dr. Roman Yampolskiy is a leading…
Dr. Roman Yampolskiy is a leading…
👍5❤3💯3⚡1
Forwarded from 4CIO: чат свободного сообщества (_)
Решение компании Proton (создателя защищенной почты Proton Mail) перенести значительную часть своей инфраструктуры из Швейцарии в Германию и Норвегию вызвано радикальными изменениями в швейцарском законодательстве, которые ставят под угрозу фундаментальный принцип сервиса — анонимность пользователей,.
Ниже приведены подробности этого процесса, основанные на предоставленных источниках:
### Причина ухода: Законопроект OCPT 2025
Главным катализатором стал пересмотр постановления о надзоре за коммуникациями, известный как OCPT 2025. Основные положения этого закона включают:
* Обязательный сбор метаданных: Сервисы, имеющие более 5000 пользователей, обязаны внедрить интерфейс для передачи властям метаданных (IP-адреса источника и назначения, объем данных, временные метки) по официальному запросу и хранить их в течение 6 месяцев.
* Прямая трансляция данных: Для сервисов с аудиторией более 1 миллиона пользователей требования еще жестче: они должны обеспечить возможность потоковой передачи данных в режиме реального времени по запросу спецслужб.
* Автоматизация слежки: В проект заложены алгоритмы обнаружения аномалий для автоматической фильтрации потоков метаданных.
Основатель Proton Энди Йен заявляет, что в таких условиях сервис в Швейцарии станет менее приватным, чем Gmail в США, что делает невозможным выполнение обещания «никаких логов»,.
### Новые локации: Германия и Норвегия
Proton инвестирует 100 миллионов швейцарских франков в перенос серверов, выбирая страны с более строгими правовыми гарантиями,:
1. Германия (Франкфурт): Выбрана из-за сильной судебной защиты. Конституционный суд Германии трижды отменял законы о массовом хранении данных.
2. Норвегия (Осло): Страна соблюдает нормы GDPR, политически стабильна и предлагает экологические преимущества. Центры обработки данных работают на гидроэнергии, а субарктический климат обеспечивает естественное охлаждение.
### Масштаб и сроки
* Сентябрь 2025 года: Запуск первых узлов искусственного интеллекта (Lumo) во Франкфурте.
* 2030 год: Цель по практически полному выводу серверов почты и VPN из Швейцарии.
* Штаб-квартира: Proton сохранит головной офис в Женеве, чтобы продолжать юридическую борьбу и лоббировать интересы цифровой приватности в стране.
### Экономические и репутационные риски
Уход Proton наносит удар по бренду Швейцарии как «тихой гавани» для данных. По оценкам Университета Санкт-Галлена, услуги, ориентированные на конфиденциальность (включая финансы и страхование), составляют более 10% ВВП Швейцарии. Критики закона называют его «легализованной массовой кражей со взломом» и опасаются, что страна потеряет доверие, которое зарабатывалось десятилетиями,.
Аналогия для понимания ситуации:
Представьте, что Швейцария всегда была банком с самыми надежными сейфами, где никто не спрашивал, что вы храните. Новый закон подобен требованию установить внутри каждого сейфа камеру, которая в реальном времени транслирует в полицию, кто, когда и сколько раз открывал свою ячейку. В такой ситуации владелец банка решает перевезти сами ячейки в другое место, где право на тайну частной жизни всё еще защищено законом, оставляя в старом здании только приемную. https://www.youtube.com/watch?v=w_CsiZf03tM
Ниже приведены подробности этого процесса, основанные на предоставленных источниках:
### Причина ухода: Законопроект OCPT 2025
Главным катализатором стал пересмотр постановления о надзоре за коммуникациями, известный как OCPT 2025. Основные положения этого закона включают:
* Обязательный сбор метаданных: Сервисы, имеющие более 5000 пользователей, обязаны внедрить интерфейс для передачи властям метаданных (IP-адреса источника и назначения, объем данных, временные метки) по официальному запросу и хранить их в течение 6 месяцев.
* Прямая трансляция данных: Для сервисов с аудиторией более 1 миллиона пользователей требования еще жестче: они должны обеспечить возможность потоковой передачи данных в режиме реального времени по запросу спецслужб.
* Автоматизация слежки: В проект заложены алгоритмы обнаружения аномалий для автоматической фильтрации потоков метаданных.
Основатель Proton Энди Йен заявляет, что в таких условиях сервис в Швейцарии станет менее приватным, чем Gmail в США, что делает невозможным выполнение обещания «никаких логов»,.
### Новые локации: Германия и Норвегия
Proton инвестирует 100 миллионов швейцарских франков в перенос серверов, выбирая страны с более строгими правовыми гарантиями,:
1. Германия (Франкфурт): Выбрана из-за сильной судебной защиты. Конституционный суд Германии трижды отменял законы о массовом хранении данных.
2. Норвегия (Осло): Страна соблюдает нормы GDPR, политически стабильна и предлагает экологические преимущества. Центры обработки данных работают на гидроэнергии, а субарктический климат обеспечивает естественное охлаждение.
### Масштаб и сроки
* Сентябрь 2025 года: Запуск первых узлов искусственного интеллекта (Lumo) во Франкфурте.
* 2030 год: Цель по практически полному выводу серверов почты и VPN из Швейцарии.
* Штаб-квартира: Proton сохранит головной офис в Женеве, чтобы продолжать юридическую борьбу и лоббировать интересы цифровой приватности в стране.
### Экономические и репутационные риски
Уход Proton наносит удар по бренду Швейцарии как «тихой гавани» для данных. По оценкам Университета Санкт-Галлена, услуги, ориентированные на конфиденциальность (включая финансы и страхование), составляют более 10% ВВП Швейцарии. Критики закона называют его «легализованной массовой кражей со взломом» и опасаются, что страна потеряет доверие, которое зарабатывалось десятилетиями,.
Аналогия для понимания ситуации:
Представьте, что Швейцария всегда была банком с самыми надежными сейфами, где никто не спрашивал, что вы храните. Новый закон подобен требованию установить внутри каждого сейфа камеру, которая в реальном времени транслирует в полицию, кто, когда и сколько раз открывал свою ячейку. В такой ситуации владелец банка решает перевезти сами ячейки в другое место, где право на тайну частной жизни всё еще защищено законом, оставляя в старом здании только приемную. https://www.youtube.com/watch?v=w_CsiZf03tM
YouTube
Why Is Proton Leaving Switzerland? #10minutes to understand
10 Minutes to Understand: Why Is Proton Leaving Switzerland?
The Swiss Confederation, once a symbol of “Swiss Privacy,” is now planning to connect a real-time surveillance pipeline (OSCPT 2025) to all digital services with over 5,000 users, with the ambition…
The Swiss Confederation, once a symbol of “Swiss Privacy,” is now planning to connect a real-time surveillance pipeline (OSCPT 2025) to all digital services with over 5,000 users, with the ambition…
👍13😢3❤2
До Нового года осталось всего несколько часов, я решил что поздравлять с ним с помощью сгенерированной ИИ картинкой будет плохим предзнаменованием поэтому ограничусь текстом.
Пусть Новый 2026 год будет спокойней предыдущих, количество глобальной хтони в мире поуменьшится, новые технологии пусть открываются для мира, чтобы работы у всех было достаточно, хватало время на себя, семью, учёбу, хобби и думать о вечном.
Пусть Новый 2026 год будет спокойней предыдущих, количество глобальной хтони в мире поуменьшится, новые технологии пусть открываются для мира, чтобы работы у всех было достаточно, хватало время на себя, семью, учёбу, хобби и думать о вечном.
1❤55💯11❤🔥6⚡4👍4🍾4👏2🎉2
В продолжение рассуждений вслух о ИИ агентах в разработке, о том насколько ИИ агенты об ограничениях которые явным образом видны при их применении. Я, напомню, экспериментирую с ИИ агентами для приведения в порядок унаследованного кода и далее с переносом практики на уже современный код и проекты.
Я взял свою старую библиотеку для Python по парсингу дат в условно любых форматах qddate и поставил себе 2-х дневный спринт по приведению её в порядок и актуализации. Про эту библиотеку я ранее рассказывал, её основное применение было в инструменте newsworker по автоматическому извлечению новостей из веб сайтов у которых нет RSS лент и для задач мэтчинга дат в metacrafter.
Пока из наблюдений:
1. Максимально самодостаточный код. ИИ агенты стараются писать с минимальным числом зависимостей. Это, с одной стороны, повышает его переносимость, а с другой стороны код становится длиннее, непонятно зачем существует множество программных библиотек если они не используются. При применении библиотек, если не задано иных условий, будут использоваться наиболее популярные. Применительно к решаемой задаче ИИ агент явным образом предпочитает использовать библиотеку re для регулярных выражений, потому что она замечательно задокументирована и имеет множество примеров. Но в задачах быстрого парсинга данных на Python гораздо эффективнее библиотека Pyparsing (есть ещё несколько альтернатив, но, в любом случае, не стандартная библиотека для регулярных выражения Python)
2. Неполнота при любых неспецифичных запросах. Взаимодействие с ИИ агентом в режиме "возьми этот код и улучши его/ускорь его" всегда дает набор оптимизаций и изменений, но очень редко полный или наиболее эффективный. Гораздо более действенный метод в том что бы задавать вопросы в стиле "может ли применение Y улучшить производительность/качество кода X?" и далее последовательные уточняющие вопросы. В случае qddate у меня был длинный список гипотез которые могли бы улучшить и оптимизировать алгоритм, например: мэтчинг префиксов строк, учет кодировки строк, анализ разделителей в датах и так далее. Точечные вопросы к ИИ ассистенту помогли в оптимизации кода через проверку этих гипотез
3. Бенчмарки обязательны. А еще лучше четко сформулированные критерии результатов. В случае qddate оценки очень понятные - это нулевые FAR (False Acceptance Rate) и FRR (False Rejection Rate) для входящих данных, а также скорость сравнимая или превышающая аналоги. С генерацией тестовых данных, скриптов для бенчмарков ИИ агенты вполне справляются при наличии правильно заданной рамки. Например, особенность qddate в том что он заточен под обработку потоков строк из веб страниц и его основное преимущество в отсеве большого числа строк которые точно не даты, а скорость парсинга дат при это вторична по отношении к скорости отсева. Поэтому главный бенчмарк основан на множестве строк из большого числа веб страниц.
4. Анализ конкурентов. ИИ агенты вполне умеют сравнивать код в нескольких репозиториях кода и давать инсайты и сравнения по ключевым критериям. К примеру, qddate не единственная существующая попытка написать универсальную библиотеку для парсинга условно любых дат. Есть такие решения как dateparser от команды ScrapingHub создатели которой сделали поддержку 200+ языков и есть давно не обновлявшаяся dateutil сфокусированная на датах на английском языке и преимущественно тем которые генерирует ПО. Из всех агентов Antigravity в режиме Gemini 3 Pro (High) выдает наиболее точные инсайты по реализации таких программных библиотек. В данном случае мне этот анализ не дал инсайтов которые можно было бы применить потому что qddate изначально создавалась как интенсивно оптимизированная библиотека, но дало знания и улучшенное понимание областей применения. Сравнение библиотек можно посмотреть вот тут и оно неплохо объясняет применение каждого инструмента для разных задач.
Я взял свою старую библиотеку для Python по парсингу дат в условно любых форматах qddate и поставил себе 2-х дневный спринт по приведению её в порядок и актуализации. Про эту библиотеку я ранее рассказывал, её основное применение было в инструменте newsworker по автоматическому извлечению новостей из веб сайтов у которых нет RSS лент и для задач мэтчинга дат в metacrafter.
Пока из наблюдений:
1. Максимально самодостаточный код. ИИ агенты стараются писать с минимальным числом зависимостей. Это, с одной стороны, повышает его переносимость, а с другой стороны код становится длиннее, непонятно зачем существует множество программных библиотек если они не используются. При применении библиотек, если не задано иных условий, будут использоваться наиболее популярные. Применительно к решаемой задаче ИИ агент явным образом предпочитает использовать библиотеку re для регулярных выражений, потому что она замечательно задокументирована и имеет множество примеров. Но в задачах быстрого парсинга данных на Python гораздо эффективнее библиотека Pyparsing (есть ещё несколько альтернатив, но, в любом случае, не стандартная библиотека для регулярных выражения Python)
2. Неполнота при любых неспецифичных запросах. Взаимодействие с ИИ агентом в режиме "возьми этот код и улучши его/ускорь его" всегда дает набор оптимизаций и изменений, но очень редко полный или наиболее эффективный. Гораздо более действенный метод в том что бы задавать вопросы в стиле "может ли применение Y улучшить производительность/качество кода X?" и далее последовательные уточняющие вопросы. В случае qddate у меня был длинный список гипотез которые могли бы улучшить и оптимизировать алгоритм, например: мэтчинг префиксов строк, учет кодировки строк, анализ разделителей в датах и так далее. Точечные вопросы к ИИ ассистенту помогли в оптимизации кода через проверку этих гипотез
3. Бенчмарки обязательны. А еще лучше четко сформулированные критерии результатов. В случае qddate оценки очень понятные - это нулевые FAR (False Acceptance Rate) и FRR (False Rejection Rate) для входящих данных, а также скорость сравнимая или превышающая аналоги. С генерацией тестовых данных, скриптов для бенчмарков ИИ агенты вполне справляются при наличии правильно заданной рамки. Например, особенность qddate в том что он заточен под обработку потоков строк из веб страниц и его основное преимущество в отсеве большого числа строк которые точно не даты, а скорость парсинга дат при это вторична по отношении к скорости отсева. Поэтому главный бенчмарк основан на множестве строк из большого числа веб страниц.
4. Анализ конкурентов. ИИ агенты вполне умеют сравнивать код в нескольких репозиториях кода и давать инсайты и сравнения по ключевым критериям. К примеру, qddate не единственная существующая попытка написать универсальную библиотеку для парсинга условно любых дат. Есть такие решения как dateparser от команды ScrapingHub создатели которой сделали поддержку 200+ языков и есть давно не обновлявшаяся dateutil сфокусированная на датах на английском языке и преимущественно тем которые генерирует ПО. Из всех агентов Antigravity в режиме Gemini 3 Pro (High) выдает наиболее точные инсайты по реализации таких программных библиотек. В данном случае мне этот анализ не дал инсайтов которые можно было бы применить потому что qddate изначально создавалась как интенсивно оптимизированная библиотека, но дало знания и улучшенное понимание областей применения. Сравнение библиотек можно посмотреть вот тут и оно неплохо объясняет применение каждого инструмента для разных задач.
👍7❤3⚡2✍1
По итогам могу сказать что если Google сменит ценовую политику для корпоративного применения Antigravity (сейчас она 183.6 евро за месяц) или если его конкуренты прокачают свои решения для ещё большей эффективности, то работу над кодом это ускорят не а 2-3 раза, а в 10-30 раз.
Разработка любого внутреннего инструмента или конечного приложения теперь должна быть устроена иначе. На начальной стадии обязательно нужно писать текст видения результата который должен включать:
1. Описание того что создается
2. Описание результатов включая критерии качества:
- измеряемые индикаторы качества (в данном случае FAR/FRR)
- сравнение результатов с существующими аналогами если они есть
3. Гипотезы
4. Правила управления зависимостями
5. Правила организации кода, репозитория и автоматического покрытия тестами и документирования
Частично это вписывается в логику руководства ИИ агента в AGENTS.md или GEMINI.md, но лишь частично, скорее всего всё это необходимо оформлять во внутренние руководства по организации разработки с использованием ИИ агентов.
#opensource #ai #aiagents #coding #thoughts #devnotes
Разработка любого внутреннего инструмента или конечного приложения теперь должна быть устроена иначе. На начальной стадии обязательно нужно писать текст видения результата который должен включать:
1. Описание того что создается
2. Описание результатов включая критерии качества:
- измеряемые индикаторы качества (в данном случае FAR/FRR)
- сравнение результатов с существующими аналогами если они есть
3. Гипотезы
4. Правила управления зависимостями
5. Правила организации кода, репозитория и автоматического покрытия тестами и документирования
Частично это вписывается в логику руководства ИИ агента в AGENTS.md или GEMINI.md, но лишь частично, скорее всего всё это необходимо оформлять во внутренние руководства по организации разработки с использованием ИИ агентов.
#opensource #ai #aiagents #coding #thoughts #devnotes
👍11🔥6❤🔥2✍2
Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе,охранниками с дубинками и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных
#readings #ai #opensource
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе,
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных
#readings #ai #opensource
www.nerd-lang.org
Story - NERD
Why NERD exists. The story of an LLM-native language.
❤6✍2❤🔥1👌1
2025 год закончился, пора переходить к предсказаниям на 2026 и вот мой набор необязательно самых реалистичных, но вполне возможных предсказаний.
1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.
2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.
3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.
4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.
5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.
Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!😎
#thoughts #ideas #happynewyear
1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.
2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.
3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.
4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.
5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.
Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!
#thoughts #ideas #happynewyear
Please open Telegram to view this post
VIEW IN TELEGRAM
😱9😁6🐳6❤5⚡5🤔4✍3🙏3👍2
Я ещё помню времена когда искусством в софтверной разработке было создание приложений работающих быстро и занимающих мало физической и оперативной памяти и писать небольшие приложения было прямо таки непросто, были десятки самых разных архиваторов для запускаемых файлов, а многие функции специально переписывались на ассемблере чтобы не зависеть от стандартных библиотек.
Тем более забавно наблюдать как некоторые разработчики пишут с помощью LLM'ок приложения в той же идеологии. Например, браузер для Википедии в 100kb для Linux использующий только вызовы syscalls. Его разработчик пишет что почти весь код написал с помощью GPT-5.2.
Казалось бы почему бы некоторым разработчикам особо распухших приложений не применить LLM для их оптимизации, но будем честными некоторые приложения проще написать с нуля чем переделать и даже с помощью LLM создание приложений с минимальным футпринтом остается нетривиальной задачей.
#curiosities #dev #opensource
Тем более забавно наблюдать как некоторые разработчики пишут с помощью LLM'ок приложения в той же идеологии. Например, браузер для Википедии в 100kb для Linux использующий только вызовы syscalls. Его разработчик пишет что почти весь код написал с помощью GPT-5.2.
Казалось бы почему бы некоторым разработчикам особо распухших приложений не применить LLM для их оптимизации, но будем честными некоторые приложения проще написать с нуля чем переделать и даже с помощью LLM создание приложений с минимальным футпринтом остается нетривиальной задачей.
#curiosities #dev #opensource
👍17🔥4🤔4
Ещё немного рефлексии по прошедшему году, я стал заметно больше писать про технологии и данные чем про общественное связанное с открытостью и не только. Причин у этого несколько, основная, конечно, в запуске Dateno где мы делаем поисковик по данным и тут не до идеологии или политики, а ключевое - это технологии, охват, актуализация и тд. Открытые данные там в основе, но они не единственная форма общедоступных данных которые подлежат индексации.
Чтобы объяснить смену фокуса моих интересов, даже хотя бы самому себе, надо погрузится в то что происходит с открытостью информации и данных в мире.
1. Кризис открытости и свободы доступа к информации в мире.
Да, да, он идет не один год и связан в меньшей степени с тем что данные не должны открываться и информация публиковаться, а с тем что фокус интересов государств, доноров и общества резко сместился на ИИ. Я вижу это буквально повсеместно в изменившихся направлениях действий международных НКОшей которые теперь выставляют ИИ во главу приоритетов (потому что их доноры также выставляют это как нечто приоритетное). Например, Open Knowledge Foundation переключились на AI Literacy и прилагают попытки к работе с "public AI", но это все имеет уже смутное отношение к проповедованию открытости. Аналогично и со многими другими группами, они, в большей части, имеют сейчас активно анти-бигтеховскую повестку. Аналогично с Open Data Charter которые занимаются адаптацией законодательства по открытости данных под разработку ИИ. И там и там и во многих других группах есть при этом острый дефицит компетенций в AI, но важнее то что фокус сменяется и многие активисты сейчас задаются вопросом "зачем помогать создавать открытые данные и пропагандировать их если выгодоприобретатели этого большие AI-бигтехи?". Ответ на этот вопрос могут найти не все, сообщество медленно затухает и на сегодня оно активно в вопросах открытого доступа (Open Access), но слабо активно в вопросах открытых государственных данных.
Поэтому вопросы усилий государств по открытости или противодействия открытости хотя и есть, но ушли на второй план. Да, что-то закрывается, что-то открывается, это фоновые события в ситуации общего снижения открытости из-за ограничения ИИ ботов, ускорения введения пэйволлов и тд. из-за того что основными потребителями данных становятся ИИ боты.
2. Все большая оторванность экосистемы открытых данных от дата инженерии и современной разработки
Это то что у меня лично вызывает легкое раздражение, но у этого есть объективные причины. Экосистема открытых данных была и остается построена на небольшом числе открытых продуктов и некотором числе слабо-коммерческих, но все они вообще никак не адаптированы не то что под ИИ инженерию, но и слабоваты технологически с точки зрения дата инженерии.Из каталогов открытых данных коммерчески чуть-чуть успешным является только Huwise (бывший OpenDataSoft) на котором работают сотни муниципалитетов в Европе и некоторое число инсталляций в других странах. Но это успешность условна, они довольно быстро меняются от каталога открытых данных в "data marketplace". На мой взгляд путь сомнительный, возможный. По такому пути когда-то ушел проект data.world который начинался как публичный каталог данных, а потом сделал пивот в корпоративную дата платформу и в июле 2025 г. их купили ServiceNow. По сути в основе экосистемы открытых данных в мире сейчас находятся CKAN и Geonetwork. И надо сказать что скорость, качество и плотность изменения что их что других продуктов в этой области сейчас несравнимо ниже чем у даже не самых популярных дата инженерных продуктов с открытым кодом. Там нет поддержки современных форматов данных, Изменения проводятся с большими задержками и акцентами на совместимость, а не развитие.
Это важно потому что открытость данных - это технологическая тема, чем больше она оторвана от инженерной экосистемы, тем сложнее их интегрировать. И у этой оторванности много причин, финансовых, персональных, технических, но она есть и её необходимо фиксировать.
(продолжение в следующей части)
Чтобы объяснить смену фокуса моих интересов, даже хотя бы самому себе, надо погрузится в то что происходит с открытостью информации и данных в мире.
1. Кризис открытости и свободы доступа к информации в мире.
Да, да, он идет не один год и связан в меньшей степени с тем что данные не должны открываться и информация публиковаться, а с тем что фокус интересов государств, доноров и общества резко сместился на ИИ. Я вижу это буквально повсеместно в изменившихся направлениях действий международных НКОшей которые теперь выставляют ИИ во главу приоритетов (потому что их доноры также выставляют это как нечто приоритетное). Например, Open Knowledge Foundation переключились на AI Literacy и прилагают попытки к работе с "public AI", но это все имеет уже смутное отношение к проповедованию открытости. Аналогично и со многими другими группами, они, в большей части, имеют сейчас активно анти-бигтеховскую повестку. Аналогично с Open Data Charter которые занимаются адаптацией законодательства по открытости данных под разработку ИИ. И там и там и во многих других группах есть при этом острый дефицит компетенций в AI, но важнее то что фокус сменяется и многие активисты сейчас задаются вопросом "зачем помогать создавать открытые данные и пропагандировать их если выгодоприобретатели этого большие AI-бигтехи?". Ответ на этот вопрос могут найти не все, сообщество медленно затухает и на сегодня оно активно в вопросах открытого доступа (Open Access), но слабо активно в вопросах открытых государственных данных.
Поэтому вопросы усилий государств по открытости или противодействия открытости хотя и есть, но ушли на второй план. Да, что-то закрывается, что-то открывается, это фоновые события в ситуации общего снижения открытости из-за ограничения ИИ ботов, ускорения введения пэйволлов и тд. из-за того что основными потребителями данных становятся ИИ боты.
2. Все большая оторванность экосистемы открытых данных от дата инженерии и современной разработки
Это то что у меня лично вызывает легкое раздражение, но у этого есть объективные причины. Экосистема открытых данных была и остается построена на небольшом числе открытых продуктов и некотором числе слабо-коммерческих, но все они вообще никак не адаптированы не то что под ИИ инженерию, но и слабоваты технологически с точки зрения дата инженерии.Из каталогов открытых данных коммерчески чуть-чуть успешным является только Huwise (бывший OpenDataSoft) на котором работают сотни муниципалитетов в Европе и некоторое число инсталляций в других странах. Но это успешность условна, они довольно быстро меняются от каталога открытых данных в "data marketplace". На мой взгляд путь сомнительный, возможный. По такому пути когда-то ушел проект data.world который начинался как публичный каталог данных, а потом сделал пивот в корпоративную дата платформу и в июле 2025 г. их купили ServiceNow. По сути в основе экосистемы открытых данных в мире сейчас находятся CKAN и Geonetwork. И надо сказать что скорость, качество и плотность изменения что их что других продуктов в этой области сейчас несравнимо ниже чем у даже не самых популярных дата инженерных продуктов с открытым кодом. Там нет поддержки современных форматов данных, Изменения проводятся с большими задержками и акцентами на совместимость, а не развитие.
Это важно потому что открытость данных - это технологическая тема, чем больше она оторвана от инженерной экосистемы, тем сложнее их интегрировать. И у этой оторванности много причин, финансовых, персональных, технических, но она есть и её необходимо фиксировать.
(продолжение в следующей части)
👍8❤2
(Часть вторая)
3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.
Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.
Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.
У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента
Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.
Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.
—
Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.
#thoughts #openness #data #opendata #openaccess
3. Резкое падение стоимости создания наборов данных
Звучит парадоксально, но факт, с прогрессом ИИ агентов создать данные из существующих материалов в любой форме проще чем просить предоставить их в машиночитаемом виде. Реальные ограничения возникают только в отношении данных которые недоступны ни в каком виде, но если они всё таки есть, хоть сканами, хоть запутанными текстами, датасеты из них собираются. Это сразу же меняет несколько важных нарративов.
Во-первых любые аргументы госорганов и других публичных институций о стоимости создания машиночитаемых данных, с применением ИИ агентов она падает если не до нуля, то существенно низких значений.
Во-вторых если материалы опубликованы в каком-то виде, то зачем запрашивать госорган? Можно написать автоматизированный скрейпер с помощью ИИ агента.
У меня есть живой пример подобного когда я давно откладывал задачу получения статистики из Статбанка Армении (statbank.armstat.am) из-за того что у них было поломано API и древняя версия ПО на котором он сделан. Развилка была в том чтобы:
a) Попросить у них данные (ждать пришлось бы долго и это не системное решение)
б) Заплатить фрилансеру написать парсер
в) Сделать парсер за пару часов с помощью ИИ агента
Ключевая мысль в том что коммуникация с владельцами данных теперь может быть исключена из процесса. Технологические решения, в существенной части случаев, оказываются эффективнее евангелизма и убеждения владельцев данных в том что данные надо публиковать.
Условно зачем убеждать, к примеру, Пр-во Армении публиковать данные если мы и так их соберем и опубликуем на opendata.am ? Шутка, убеждать конечно же надо, но думаю что идея ясна.
—
Всё это о том что последние технологические изменения имеют настолько сильное влияние на всю экосистему открытости информации, доступности данных и тд. что и выходят на первый приоритет.
#thoughts #openness #data #opendata #openaccess
👍12❤1
Число вопросов в StackOverflow падает уже несколько лет и сократилось в несколько раз. В декабре 2024 года их было 18029, а в декабре 2025 года их всего лишь 3862 - итого сокращение в 4.6x раз
Причины достаточно очевидны и те же что у Википедии. Зачем обращаться к первоисточнику когда ИИ ассистенты и агенты дают сравнимый или лучший результат.
Можно сказать что проходит, возможно уже прошла, целая эпоха.
#ai #programming #thoughts
Причины достаточно очевидны и те же что у Википедии. Зачем обращаться к первоисточнику когда ИИ ассистенты и агенты дают сравнимый или лучший результат.
Можно сказать что проходит, возможно уже прошла, целая эпоха.
#ai #programming #thoughts
💔11👍4😢4🌚3❤1🔥1💅1
cartes.gouv.fr новый федеральный портал геоданных Франции, анонсирован в середине декабря 2025 года IGN France (Национальный институт географической и лесной информации). В его основе продукт с открытым кодом Geonetwork с расширением в виде geonetwork-ui для более удобного поиска и визуализации. Пока там всего 174 набора данных и сервиса API, но явно будет больше.
Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.
Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.
#opendata #france #geodata
Всего же на центральном портале открытых данных Франции data.gouv.fr 70481 наборов данных существенная часть которых - это геоданные страны.
Французский подход в активном использовании открытого кода везде где только возможно при создании госпроектов, включая каталоги данных.
#opendata #france #geodata
👍8
Обычно я подвожу личные итоги года не в под Новый год, а под 6-е января, в свой день рождения. Итоги эти практически все связаны с профессиональной работой, а не с чем-то личным, и в этом году они созвучны многому что я слышу от других в ИТ.
ИИ агенты стремительно меняют отрасль и игнорировать их не то что нельзя, а необходимо использовать и использовать активно. Для меня 2025 год - это продолжение всё большего погружения в технологии и всё меньшее за их пределами. Я практически до минимумам сократил участие во всех мероприятиях кроме совсем необходимых, сократил преподавание и гораздо меньше стал интересоваться политикой за пределами практических действий, гораздо больше погрузился в дата-инженерию и теперь ещё и практические аспекты ИИ. Из по настоящему любимых хобби осталось то что связано с цифровой архивацией и цифровым культурным наследием.
Похожим образом примерно 20 лет назад я уходил из роли технического архитектора в системном интеграторе в создание собственной компании через восстановления знаний в Python и создание первого стартапа используя самую раннюю версию Django и MySQL для анализа госзакупок. Фактически за год я тогда восстановил хард скиллы.
Зато что я могу сказать точно что наконец-то чувствую себя восстановившимся после COVID'а. Первые 2 года после него дались мне, честно говоря, довольно тяжело и только к 2024 я уже более менее нормально начал себя чувствовать, а в 2025 году уже чувствую себя достаточно живым чтобы ощущать что мир меняется слишком быстро чтобы позволить себе отставать.
#thoughts #personal
ИИ агенты стремительно меняют отрасль и игнорировать их не то что нельзя, а необходимо использовать и использовать активно. Для меня 2025 год - это продолжение всё большего погружения в технологии и всё меньшее за их пределами. Я практически до минимумам сократил участие во всех мероприятиях кроме совсем необходимых, сократил преподавание и гораздо меньше стал интересоваться политикой за пределами практических действий, гораздо больше погрузился в дата-инженерию и теперь ещё и практические аспекты ИИ. Из по настоящему любимых хобби осталось то что связано с цифровой архивацией и цифровым культурным наследием.
Похожим образом примерно 20 лет назад я уходил из роли технического архитектора в системном интеграторе в создание собственной компании через восстановления знаний в Python и создание первого стартапа используя самую раннюю версию Django и MySQL для анализа госзакупок. Фактически за год я тогда восстановил хард скиллы.
Зато что я могу сказать точно что наконец-то чувствую себя восстановившимся после COVID'а. Первые 2 года после него дались мне, честно говоря, довольно тяжело и только к 2024 я уже более менее нормально начал себя чувствовать, а в 2025 году уже чувствую себя достаточно живым чтобы ощущать что мир меняется слишком быстро чтобы позволить себе отставать.
#thoughts #personal
3❤58👏10🍾7👍3🙏2
Полезный ежегодный обзор баз данных в тексте Databases in 2025: A Year in Review от Andy Pavlov.
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения
В оригинальном обзоре много ссылок и других событий
#data #rdbms #readings
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения
В оригинальном обзоре много ссылок и других событий
#data #rdbms #readings
Andy Pavlo - Carnegie Mellon University
Databases in 2025: A Year in Review
The world tried to kill Andy off but he had to stay alive to to talk about what happened with databases in 2025.
❤5👍5
В блоге The Pragmatic Engineer текст созвучный моим мыслям When AI writes almost all code, what happens to software engineering? он частично под пэйволлом, ном открытой части достаточно чтобы понять о чем речь. А речь там ровно о том что я предсказывал - работы для начинающих разработчиков в ИТ будет меньше, а опытные будут цениться больше, возможно даже сильно больше, но общее падение профессиональной экспертизы - это то что нас уже почти неизбежно ждет. Причем перелом произошел в последние полгода с появлением новых LLM моделей которые стали неожиданно хорошо справляться с задачами программирования.
Я добавлю что любые дискуссии по поводу перспектив применения ИИ в разработке будут релевантны только если обсуждающие пробовали последние LLM модели: Gemini 3, GPT-5.2 и Opus 4.5.
#ai #softwareengineering #programming #trends
Я добавлю что любые дискуссии по поводу перспектив применения ИИ в разработке будут релевантны только если обсуждающие пробовали последние LLM модели: Gemini 3, GPT-5.2 и Opus 4.5.
#ai #softwareengineering #programming #trends
Pragmaticengineer
When AI writes almost all code, what happens to software engineering?
No longer a hypothetical question, this is a mega-trend set to hit the tech industry
1👍10
Я неоднократно писал про такой продукт с открытым кодом OpenRefine, он малоизвестен в дата инженерной и корпоративно аналитической среде, но хорошо известен многим журналистам расследователям, аналитикам работающим над публикацией данных, всем кто работает в среде с интеграциями в Википедией и Викидатой и многим цифровым библиотекарям, архивистам и тд.
OpenRefine изначально вырос из проекта Google Refine который, в свою очередь, разрабатывался внутри проекта FreeBase который после поглощения Google превратился в Google Knowledge Graph.
OpenRefine позволяет вручную и полувручную, с использованием языка GREL (General Refine Expression Language) или кода на Jython через веб интерфейс чистить табличные наборы данных и сохранять их в CSV и я ряде других форматов. Никакого SQL, сложного кода, зато бесконечный цикл Undo/Redo.
Можно сказать что OpenRefine - это инструмент подготовки данных выросший из экосистемы управления знаниями. Явление он довольно редкое, и сам продукт довольно интересный, но не без ограничений.
Потому что внутри него не СУБД, а граф объектов на Java что резко ограничивало и ограничивает объемы редактируемых датасетов до 100 тысяч записей максимум. Но всё это с удобным UI и возможностью работать чистить данные без глубокого технического погружения в протоколы, SQL запросы и разработку кода.
Какое-то время назад я думал о том не создать ли более эффективную альтернативу OpenRefine. Даже экспериментировал с созданием обвязки с помощью MongoDB mongorefine что было очень прикольным опыт и тренировкой для мозгов, но совершенно точно непригодно для реальной работы потому что MongoDB даёт большую гибкость и очень низкую скорость обработки данных. Это был эксперимент, отложенный для дальнейших размышлений.
Сейчас посмотрев на OpenRefine и его развитие свежим взглядом я могу сказать следующее:
1. Да, с помощью LLM можно очень быстро сделать его аналог, с изначально более-правильной архитектурой на базе Polars + DuckLake или Iceberg, с разделением бэкэнда и фронтэнда/фронтэндов и превратить его в инструмент обогащения данных с помощью LLM и не только.
2. При этом у него очень понятная аудитория, инструмент мог бы быть коммерческим или некоммерческим, важнее что он точно будет востребован
В общем это стало выполнимой задачей, даже для очень небольшой команды в очень обозримые сроки. Но вот я пока довольно активно занят задачами в рамках Dateno что лично для меня даже более интересная задача и несравнимо больший вызов.
Поэтому широко делюсь идеей про создание инструмента очистки и обогащение данных с интерфейсом а ля OpenRefine, но с возможностью очищать и обогащать датасеты в миллионы записей и гигабайтного размера.
#opendata #opensource #ideas #dataquality #dataenrichment
OpenRefine изначально вырос из проекта Google Refine который, в свою очередь, разрабатывался внутри проекта FreeBase который после поглощения Google превратился в Google Knowledge Graph.
OpenRefine позволяет вручную и полувручную, с использованием языка GREL (General Refine Expression Language) или кода на Jython через веб интерфейс чистить табличные наборы данных и сохранять их в CSV и я ряде других форматов. Никакого SQL, сложного кода, зато бесконечный цикл Undo/Redo.
Можно сказать что OpenRefine - это инструмент подготовки данных выросший из экосистемы управления знаниями. Явление он довольно редкое, и сам продукт довольно интересный, но не без ограничений.
Потому что внутри него не СУБД, а граф объектов на Java что резко ограничивало и ограничивает объемы редактируемых датасетов до 100 тысяч записей максимум. Но всё это с удобным UI и возможностью работать чистить данные без глубокого технического погружения в протоколы, SQL запросы и разработку кода.
Какое-то время назад я думал о том не создать ли более эффективную альтернативу OpenRefine. Даже экспериментировал с созданием обвязки с помощью MongoDB mongorefine что было очень прикольным опыт и тренировкой для мозгов, но совершенно точно непригодно для реальной работы потому что MongoDB даёт большую гибкость и очень низкую скорость обработки данных. Это был эксперимент, отложенный для дальнейших размышлений.
Сейчас посмотрев на OpenRefine и его развитие свежим взглядом я могу сказать следующее:
1. Да, с помощью LLM можно очень быстро сделать его аналог, с изначально более-правильной архитектурой на базе Polars + DuckLake или Iceberg, с разделением бэкэнда и фронтэнда/фронтэндов и превратить его в инструмент обогащения данных с помощью LLM и не только.
2. При этом у него очень понятная аудитория, инструмент мог бы быть коммерческим или некоммерческим, важнее что он точно будет востребован
В общем это стало выполнимой задачей, даже для очень небольшой команды в очень обозримые сроки. Но вот я пока довольно активно занят задачами в рамках Dateno что лично для меня даже более интересная задача и несравнимо больший вызов.
Поэтому широко делюсь идеей про создание инструмента очистки и обогащение данных с интерфейсом а ля OpenRefine, но с возможностью очищать и обогащать датасеты в миллионы записей и гигабайтного размера.
#opendata #opensource #ideas #dataquality #dataenrichment
openrefine.org
General Refine Expression Language | OpenRefine
Basics
👍15❤3✍1🙏1🤝1
Подробный разбор на испанском языке о том как внедряются агентские ИИ в госуправлении в мире: Евросюзе, Сингапуре, Великобритании и США. Много примеров включая сингапурское руководство по агентсткому ИИ для госуслуг. Полезно для всех кто занимается этим внутри госорганов потому что это не далекое, а близкое будущее когда получение госуслуг будет автоматизировано не просто через ассистентов отвечающих на простые вопросы, а на режим который есть уже у ИИ агентов и когда запрос гражданина будет итеративно обрабатываться с помощью ИИ агента который будет запрашивать людей операторов систем там где нет подключения система-система.
Для граждан это может быть как существенным прорывом, так и ситуацией когда до оператора-человека вообще не достучаться.
Там много вопросов возникает в связи с тем что ИИ агенты могут автономно делать множественные запросы в разные информационные системы и с юридическим статусом коммуникации с ними.
Но это будущее, возможно неизбежное
#ai #government
Для граждан это может быть как существенным прорывом, так и ситуацией когда до оператора-человека вообще не достучаться.
Там много вопросов возникает в связи с тем что ИИ агенты могут автономно делать множественные запросы в разные информационные системы и с юридическим статусом коммуникации с ними.
Но это будущее, возможно неизбежное
#ai #government
De los chatbots a los agentes autónomos: IA agéntica en los servicios públicos | datos.gob.es
Plataforma de datos abiertos del Gobierno de España
👍10🤔2❤1😱1😢1💯1
Кстати вопрос, кто уже пробовал Sourcecraft и его ИИ ассистента от Яндекса? Оно сравнимо ли с Cursor'ом или аналогичными ИИ инструментами? Стоит ли оно внимания за пределами "нужно на случай если в РФ заблокируют Github и Gitlab" или же всё пока на ранней степени зрелости/полезности/необходимости?
#questions
#questions
🤔6👍1
Хороший обзор Eight Software Markets AI That Will Transform Differently того как изменится рынок программного обеспечения в ближайшее время под воздействием развития ИИ инструментов. Из 8 ИТ рынка по настоящему радоваться могут исследователи, для них открывается бесконечный новый мир быстрого создания ПО и кода под свои задачи.
Сложнее всего будет всем кто делает корпоративные продукты, конкуренция резко усилится и ускорится, буквально во всем и тут будет ситуация что ты или быстро меняешься или уходишь на свалку истории.
Там в обзоре упоминается еще и геймдев, проекты сделанные как хобби и много чего другое.
А я вот думаю одним из важнейших глобальных изменений будет высокая скорость клонирования существующих продуктов. Чем лучше твой продукт, его API и интерфейс документированы, тем проще конкурентам воспроизвести его логику за сроки кратно меньшие чем потраченные тобой.
Можно представить, на выбор, укоренившихся вендоров ПО в некоторых отраслях и спокойно имевших свою долю рынка и неспешно на нем живших, а вдруг окажется что то что они делали пару десятилетий можно воспроизвести за 6 месяцев? за 3 месяца?
Некоторые крупные "столпы рынка" могут внезапно попадать, а суды вокруг воспроизведения API станут куда более массовыми чем сейчас.
#ai #thoughts #itmarket
Сложнее всего будет всем кто делает корпоративные продукты, конкуренция резко усилится и ускорится, буквально во всем и тут будет ситуация что ты или быстро меняешься или уходишь на свалку истории.
Там в обзоре упоминается еще и геймдев, проекты сделанные как хобби и много чего другое.
А я вот думаю одним из важнейших глобальных изменений будет высокая скорость клонирования существующих продуктов. Чем лучше твой продукт, его API и интерфейс документированы, тем проще конкурентам воспроизвести его логику за сроки кратно меньшие чем потраченные тобой.
Можно представить, на выбор, укоренившихся вендоров ПО в некоторых отраслях и спокойно имевших свою долю рынка и неспешно на нем живших, а вдруг окажется что то что они делали пару десятилетий можно воспроизвести за 6 месяцев? за 3 месяца?
Некоторые крупные "столпы рынка" могут внезапно попадать, а суды вокруг воспроизведения API станут куда более массовыми чем сейчас.
#ai #thoughts #itmarket
Substack
Eight Software Markets That AI Will Transform Differently
Not All Software Is Created Equal, And It Won't be Recreated Equally
👍10❤1