Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Разные мысли вслух про аналитику:
- непонятно эпоха дашбордов прошла или нет, ощущения что отношение к ним меняется по мере изменений привычек пользователей использовать ИИ ассистенты. Тем кому это стало привычным встраивание ассистента в BI системы принесет это немало пользы, но нет ощущения массовости пока что.
- ИИ ассистент внутри продукта или продукт адаптированный под ИИ ассистента? Вопрос как общий так и частный применительно к дата аналитике. А может быть и то и то. К примеру, внутри Censys ИИ ассистент хорошо отвечает на вопросы по внутренней документации и генерирует запросы из человеческого описания, но не выполняет их.
- со многими аналитическими публичными проектами нынче беда-беда. Недавно я раскопал несколько документов с видением разных проектов по аналитике на общедоступных данных в РФ и отправил их в deep research инструменты. На что они хором дали вывод что все это нужно и полезно, но несет прямые риски и вообще может быть причиной для иноагентства. С публичной аналитикой нынче сложно, данные могут быть доступны, но свобода их анализа ограничена рисками самого разного толка.
- продвинутые deep research инструменты теперь применяют финансовые ограничители, а не токенные. Устанавливаешь что на исследование готов потратить $5 и получаешь отчет на $5, устанавливаешь что готов $50 то и получаешь результат... получше и так далее. В любом случае это дешевле чем чем проводить такой анализ самостоятельно или нанимать кого-то.

#thoughts
10🔥1
И ещё одна мысль вслух, про свежее регулировании ИИ в РФ. Разделение на суверенные и национальные ИИ системы где национальные - это обученные на российских датасетах и внутрироссийскими моделями, а национальные типа на любых датасетов и могут использовать любые open source модели.

Первое - тут сразу понятно уши какого зеленого танцующего слона тут видны.
Второе - российские датасеты для обучения ИИ? серьёзно? поднимите мне веки, покажите мне их

Я бы сказал что оборонительное регулирование (guardian legislation) неизбежно во всех странах пытающихся создавать собственные LLM за госсчёт или за счет национальных технологических монополий и олигополий.

Регуляторы многих стран сейчас будут списывать друг у друга всё то плохое регулирование которое они только смогут придумать.

А какое могло бы быть хорошим?

#thoughts #aiagents
👍8🤔54💯4🔥3😢1🗿1
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.

Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.

Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.

В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.

А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?

Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.

#opendata #ai #thoughts
👍4🔥421
В качестве регулярных напоминаний, помимо телеграм канала я также пишу в рассылке на Substack, электронную почту (пока что) в России не блокируют так что можно на нее подписаться и получать мои тексты на почту. Ранее я туда писал редко и, в основном, длинные тексты поскольку большая часть читателей была в Телеграм, сейчас подумываю о том что дублировать тексты из Телеграм канала и там тоже. Тогда письма будут приходить сильно чаще, но это будет удобнее кому в Telegram теперь будет тяжело.

По поводу ведения Телеграм канала, я придерживаюсь того же мнения что и Катерина Аксенова, я ее пост пересылал недавно. Любой информационный канал очень сильно зависит от платформы, в VK или Max'е повторить эффект накопления аудитории и дискуссий очень сложно и непонятно зачем. Поэтому нет, я не буду заводить канал в Max'е и давно прекратил дублировать тексты в VK, это требует слишком много усилий с непонятным результатом при том что и телеграм канал я создавал не как медиа, а как открытую записную книжку. Я потому и проставляю теги у каждого поста потому что регулярно ищу и читаю написанное ранее. Если кому-то полезно написанное мной, то и хорошо.

А также про Dateno и на английском я чаще пишу в LinkedIn и сильно реже в Medium

#blogging #thoughts
20👍16🔥4👏2
Ещё мысли вслух:
1. Если присмотреться к наиболее популярным репозиториям в Github'е которые попадают в ежесуточные, еженедельные и ежемесячные списки Trending то в какой-то недавний момент почти 100% из них - это разного рода инструменты и руководства для работы с ИИ агентами или сами открытые ИИ агенты или иной код для работы с ИИ.

В какой-то момент ИИ инструменты стали синонимом разработки, хайп ли или реальные изменения достигшие неимоверного масштаба. Фактически стремительный переход к AI-first разработке не только в том смысле что с помощью ИИ ассистентов пишется код, но и в том что все наиболее популярные разработки идут в сторону усиления этого тренда. Лично я ничего подобного не наблюдал ранее.

2. Похоже осталось немного времени когда ИИ инструменты получат возможность осуществлять оплату от имени пользователя и это сильно повлияет не только на рынок сервисов, но и на рынок дата продуктов (и данных соответственно). Например, когда появится возможность задавать ИИ агентам задачи. в стиле "исследуй то-то и то-то, найди сведения о том-то и том-то, систематизируй знания в этой области и потрать на это исследование не более $200" причем не обязательно на токены для запросов к LLM, а, например, для подключения к платному API, платным базам данных и тд. Неизбежно изменение тарификации, агентская тарификация - это вам не ручная подписка на доступ, это оплата здесь и сейчас по числу запросов к сервису. Это поломает бизнес модели многих онлайн сервисов и даст новые возможности многим другим. И это актуально потому что сейчас ИИ агенты делают выводы по общедоступным сведениям преимущественно.

#thoughts #ai #business
👍1310🔥2
Я тут думал как бы прокомментировать идущие и грядущие блокировки Интернета в РФ. По моему то что предсказания ИА Панорама начали сбываться это более чем иллюстративно к нынешней российской реальности.

Если коротко то политические решения однозначно начали доминировать над экономическими. Нарушается не только личное, но и любое профессиональное общение с теми кто живет и работает в странах с которыми Россия (пока что) торгует. Экономическое воздействие ограничительных мер если и анализируется, то очень секретно, а больше похоже что никак не анализируется. Социальное пространство сильно сжимается и это не одноразовое действие - это ежедневно ощущаемая людьми невозможность общаться с семьёй, друзьями, коллегами и тд.

Ограничения - это хреново, самоизоляция страны это ещё хуже. Я слышу как ощущения "осажденной крепости" у многих сменяется тем что осада то идет не снаружи, а изнутри.

У тех кто еще как-то умудрялся оставаться в России и работать на компании не в России, теперь всё жестче стоит выбор уезжать безвозвратно.

Печально это всё.

#thoughts
💯357🔥3🌚3
Разные мысли вслух:
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.

#opendata #ai #thoughts
👍54
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍6🔥531
Еще немного размышлений вслух про дата продукты и открытые данные. Я поизучал спецификацию ODPS (Open Data Product Specification) в её последней редакции версии 4.1. Её, кстати, правильно читать не как спецификацию про открытые дата продукты, а как открытую спецификацию на дата продукты. Это, конечно, неплохой документ и чуть ли не единственный описывающий данные именно к продукт и спецификация сама по себе имеет ценность не только для технического описания, но и как шаблона для внутреннего описания дата продуктов. Условно хороший документ спецификации для API к доступу к данным на этапе проектирования (скорее продуктового чем технического).

Но, при этом, со своими ограничениями:
1. Малая экосистема. У дата продукта может быть более одного интерфейса, это могут быть данные доступные через REST API, в формате для массовой выгрузки (bulk download), в формате специализированного API (WFC и OGC совместимые). Хотя в спецификации это всё предусмотрено, но каждый из этих интерфейсов, но нехватает инструментов тестирования этих множественных интерфейсов на основе спецификации.
2. Интеграция с ИИ агентами. Наличие ссылок на документацию - это важно, и, ИМХО, важно не просто наличие human-readable документации, но и документации для ИИ агента (в виде markdown похоже) для автоматизированного доступа к дата продукту.

Как я понимаю в части работы с общедоступными данными у ODPS есть реализация внутри X-Road, но при этом общедоступно действующих примеров нет и нет примеров её использования наиболее продвинутыми создателями открытых дата продуктов в госсекторе, к примеру, государственные API во Франции не описываются через ODPS хотя их описание и документация наиболее близки именно к описанию дата продуктов.

В принципе лично меня это смущает более всего, я знаю довольно много дата продуктов которые могли бы быть описаны с помощью ODPS, но не описываются по какой-то причине. Я подозреваю по той что за спецификацией не стоит кто-то достаточно крупный кто внедрил бы это в свой достаточно популярный каталог дата продуктов. К примеру достаточно крупных агрегатор сервисов API (но им спецификация не вполне подходит) или дата маркетплейс (таких крупных не так много). Кто-то вроде бывшего Quandl'а мог бы использовать подобную спецификацию.

#thoughts #data #specifications #dataengineering
🔥5👍3
Да, но... собрал наблюдения за происходящим:
- Github - это крупнейшая платформа для разработки, хранения кода и тд. Это большой плюс. Минус в растущем объёме технологического спама основанного на активности на ней. Например, ты лайкаешь какой-то репозиторий, а потом тебе приходят письма "Я знаю что тебе нравится такой-то продукт, а я делаю альтернативный. Посмотри на него пожалуйста". Или "Я обнаружил что ты активен в таком то репозитори, а мы делаем альтернативный проект вот такой. Попробуй его". Это не личные письма, а полностью автоматизированные рассылаемые массово. Со временем их число растет.
- когда open source проект набирает популярность - это повод к нему присмотреться, там часто нужный код, нужная функциональность и отзывчивые к запросам разработчики. Как только проект получает венчурные инвестиции - это повод начинать искать альтернативы, потому что инвестиции в 99% случаях идут на создание облачного сервиса и разработчики приоритетно начинают развивать именно его, забрасывая или искажая имеющиеся функции к KPI переданным инвесторами
- цифровая суверенизация по которой идут некоторые страны в мире - это не то чтобы однозначно плохо, те кто ратуют и продвигают её могут быть правы со своей колокольни. Но важно не забывать что это губительно для той быстрой гонки в разработке что сейчас есть в мире и исключают многие интересные продукты из глобальных экосистем. К примеру, как бы ни были хороши российские ИИ продукты, в мире они представлены минимально
- многие принципиально правильные идеи вроде стандартов описания данных на RDF маргинализируются несмотря на опору на многие внедрения и институциональную основу потому что разработка ИИ, дата инженерия, ИИ инженерия воспринимает их исключительно как жесткое легаси и все стандарты исходящие от практиков игнорируют институциональные стандарты везде где это возможно
- корпоративные каталоги данных выглядят хорошей идеей и очень логичной, но правильнее сказать что казались. После попыток заменить их на идею data discovery видно что и она не особенно приживается. А теперь вместе со снижением стоимости внутренней разработки ПО еще и возникает ситуация когда сделать с помощью ИИ свой внутренний каталог данных/конвееров и тд. быстрее, дешевле и проще чем внедрить внешний. Похоже этот рынок будет быстро меняться

#thoughts
65🤔41
Я тут, было дело, написал для самого себя лонгрид про ограничения интернета в России, потом перечитал его и понял что ничего нового не скажу. А если кратко, то можно на это смотреть как на меру антиэкономическую, как и многие другие меры снятия льгот, повышения налогов и тд.

Я понимаю что у правительства много идей по приданию динамики экономике России, но может быть главная идея была бы в том чтобы поотменять все запретительное, ограничивающее и обременяющее регулирование как минимум последних лет ?

Там список длинный получится. Но, как я много раз упоминал, сейчас политические причины любого регулирования доминируют над экономическими. Экономике явно будет хуже, из этого и надо строить свои личные и семейные стратегии того чем и где заниматься в ближайшие годы.

#thoughts
😢129👍32🔥1