Ivan Begtin

Судя по новостям в России начали банить Telegram и я мог бы много чего сказать про глупость этого, про то что по рядовым чиновникам и госслужащим это бьет не меньше чем по всем остальными о том что внутри российских госорганов недоверие MAX'у не меньшее чем у простых и продвинутых россиян. Политическая целесообразность, тем не менее, в РФ абсолютно затмевает экономическую.

Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.

#thoughts

❤29💯15🤝7🤔2

2.31K viewsIvan Begtin, 14:48

Ivan Begtin

Для меня один из давних вопросов в том могут ли LLM работать с двоичными данными и делать это хорошо. Но если я только задумывался об этом то ребята из Quesma проделали серию тестов с внедрением вредоносов в несколько бинарников популярных серверных продуктов и попробовали с помощью разных LLM их выявить используя опенсорные инструменты Ghidra и Radare2. А по итогам они написали подробный отчет в котором есть еще и ссылки на детали замеров и исходники.

В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)

Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.

#opensource #ai #itsecurity

👍7❤6

1.8K viewsIvan Begtin, 19:09

Ivan Begtin

Ещё в рубрике как это устроено у них о том что порталы и каталоги открытых данных даже со свободными лицензиями не всегда содержат открытые данные.

Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.

Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.

Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.

#opendata #datacatalogs

🔥3❤‍🔥2

1.65K viewsIvan Begtin, 09:41

Ivan Begtin

В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.

#opensource #data #datasets #dataengineering

GitHub

GitHub - wbsg-uni-mannheim/PyDI: The PyDI framework provides methods for end-to-end data integration. The framework covers all…

The PyDI framework provides methods for end-to-end data integration. The framework covers all steps of the integration process, including schema matching, data translation, entity matching, and dat...

👍8

1.58K viewsIvan Begtin, 18:42

Ivan Begtin

Мысли вслух, если все эти разговоры что РФ и США будут укреплять экономические связи если/когда закончится активная фаза военного конфликта, то звучит это всё так что существенная часть импортозамещения пойдет, выражаясь образно, ослу под хвост.

То есть от "отечественных ИТ продуктов" внутри госорганов отказа не будет, а вот бизнес крупняк может если не полностью то существенно вернуться к покупке лицензий на ПО из США. Кто-то может быть и нет, но кто-то точно да, те кто дольше всех тянул с переходом и пользовался пиратскими версиями сколько мог.

Но и это не так критично как то что американские ИИ-бигтехи быстро сожрут весь потребительский рынок прикладных ИИ ассистентов для конечных потребителей. Что Сбер, что Яндекс, им сейчас не конкуренты по множеству объективных причин.

#thoughts #itmarket

❤11👍8😁6

1.51K viewsIvan Begtin, 17:47

Ivan Begtin

В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.

Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.

Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.

#opendata #usa #energy #datacatalogs #datasets

⚡6👍3❤1🔥1

1.53K viewsIvan Begtin, 19:28

Ivan Begtin

Я как то рассказывал что я мэйнтейню репозиторий awesome-status-pages на Github'е и так исторически сложилось что до сих пор я не делал ни одного проекта который собрал бы такое же количество звезд (3 617). Совершенно непредсказуемая популярность от побочного awesome листа который я сварганил когда-то за час после того как сам исследовал эту тему. Тем не менее это оказалось именно тем куда потоком стекаются каждый новый создатель таких сервисов, а их сотни, иногда кажется что каждый разработчик хочет сделать свой ~~велосипед~~ проект status pages.

Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉

Но чую это только начало, а дальше будет только хуже.

#opensource

😁10👍5

1.53K viewsIvan Begtin, 09:05

Ivan Begtin

Свежий доклад Building Open Digital States: Country Case Studies on the Impact of DPGs for DPI от Digital Public Goods Alliance по продвижению использования продуктов с открытым кодом среди органов власти и международных НКО для решения задач предоставления услуг, повышения эффективности госуправления и не только.

Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.

Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.

А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том что ~~Гостеха не существует~~ Сбер под международными санкциями, но и в том что исходный код X-Road открыт и средства международной помощи выделяются на его внедрение.

#opensource #publicgood

👍5🔥3❤2

1.37K viewsIvan Begtin, 10:49

Ivan Begtin

Читаю с удовольствием историю про появление RevPDF оффлайнового редактора для PDF (а заодно и просмотрщика и конвертера). Автор всерьез заморочился тем чтобы создать ПО с минимальным футпринтом, работающее оффлайн и быстро. Честно говоря выглядит этого особенно хорошо на фоне того в какое неприятное приложение превратился Acrobat Reader и того что редактора PDF почти все платные.

У приложения нет открытого кода, сам автор пишет что во всяком случае пока.

Если автор еще и код откроет так совсем бесценным приложением это будет.

#apps #productivity #softwareengineering

👍19🔥8⚡5✍1❤1

1.58K viewsIvan Begtin, 14:53

Ivan Begtin

Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.

Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.

Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.

#opendata #standards #data #datasets

👍8❤2🤝1

1.32K viewsIvan Begtin, 16:21

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.

#tools #datatools #opensource #dataengineering

GitHub

GitHub - villagesql/villagesql-server: VillageSQL - a drop-in replacement for MySQL with extensions

VillageSQL - a drop-in replacement for MySQL with extensions - villagesql/villagesql-server

🔥5🤔1

1.29K viewsIvan Begtin, 11:49

Ivan Begtin

Статистика использования генеративных ИИ инструментов молодежью в странах ЕС. А также датасет на котором эта визуализация построена.

Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)

Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?

Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?

#statistics #aiagents

👍6🔥4✍2

1.3K viewsIvan Begtin, 12:51

Ivan Begtin

У меня тут внезапный вопрос не про открытые данные, а про их восприятие. Мы регулярно проводим всякие конкурсы и хакатоны и заморочались тем что не можем подобрать правильную символику открытости данных. Понятно что есть символика организаций которые тему продвигают, а вот визуальной символики которую можно было бы превратить, например, в статуэтку придумать не получается.

Может у сообщества есть идеи? Поделитесь ими в чате @begtinchat

#questions

👍5

1.32K viewsIvan Begtin, 14:15

Ivan Begtin

Тем временем я постепенно, но столкнулся с ограничениями раздумывающих ИИ ассистентов с решением задач которые требуют коммерческих сервисов. Возможно они всячески избегают предлагать решения которые предполагают платить деньги каким-либо сервисам, возможно, не знают решения задач на их основе.

Вот в пример задача которую я регулярно решаю - пополнение реестра каталогов Dateno (dateno.io/registry) и я регулярно задаю сложные вопросы для deep thinking сервисов которые звучат как "мне нужен полный список сайтов работающих на базе YYY" (реальные промпты посложнее, но так понятнее) и в ответ я получаю довольно неплохо структурированные ответы о том как искать эти данные на сайте вендора или запросами к Google и оценки трудоёмкости в несколько месяцев.

Хотя есть более эффективные инструменты из мира OSINT такие как BuiltWith или Censys которые позволяют получить списки по многим веб сайтов оплачивая отчеты по технологиям. Это стоит денег, но кратно эффективнее (не рекламирую их, просто констатирую). И ни один из ИИ ассистентов не предложил этот путь.

Это довольно существенное ограничение, скорее всего преодолимое путём проектирования задач на ранних этапах, но приводящее к ситуации когда ИИ ассистенты имеют ограниченное число маршрутов и неплохо действуют в их пределах и совсем не действуют там где эти маршруты не так очевидны.

#opendata #thoughts #ai

Dateno

Dateno Registry and Dataset Search Engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

👍5🔥2

1.32K viewsIvan Begtin, 15:28

Ivan Begtin

Forwarded from RPPA PRO: Privacy • AI • Cybersecurity • IP

5:18

Media is too big

VIEW IN TELEGRAM

📱

📌

AI: Data Governance - как выстроить управление данными для AI

AI Data Governance Framework - это не абстрактная теория, а практическая стратегия управления данными под задачи ИИ

✔️

5 шагов Data Governance для AI:

определение структуры управления ➡️ выбор области управления данными ➡️ выделение доменов ➡️ определение владельцев и потребителей данных ➡️ верификация документации и оценка безопасности

✏️

Область управления выбирается под цель. Это может быть:
🔘 производство и эффективность
🔘 продажи и клиентский опыт
🔘 создание дата-продуктов
🔘 подготовка данных для AI

📌 На видео: Иван Бегтин - основатель и руководитель АНО Инфокультура, эксперт Global Index on Responsible AI, основатель Dateno, стартапа по поиску данных и преподаватель нашего образовательного продукта AI Governance - и его разбор о том, как начинать Data Governance для AI с правильной постановки границ, доменов и целей

⭐️

4-й поток уже в марте, приходи!

RPPA.pro | RPPAedu.pro | AI Governance

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7✍4👏3❤1

1.28K viewsIvan Begtin, 15:42

Ivan Begtin

В рубрике как это устроено у них DataLabor португальский исследовательский портал с данными и визуализацией статистики труда в стране, основан на базе официальной статистики переведенной у удобные дашборды и графики временных рядов.

Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.

Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.

#opendata #statistics #portugal

👍4

1.43K viewsIvan Begtin, 17:43

Ivan Begtin

Zvec свежая замена Sqlite в задачах векторного поиска и RAG. Выложено Alibaba под лицензией Apache 2.0. В моем понимании это прямая альтернатива LanceDB, но LanceDB пока выглядит интереснее.

#opensource #datatools #dataengineering

🔥5👍3

1.34K viewsIvan Begtin, edited 07:32

Ivan Begtin

Всякие ~~бесполезные~~ факты о том как устроены открытые данные в мире:
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли

#opendata #facts

✍6❤1❤‍🔥1

1.28K viewsIvan Begtin, 15:26

Ivan Begtin

Немного отвлекаясь от темы данных, про замедление Telegram в РФ сухо и тезисно.

Часть первая

Про Telegram
1. Telegram в России достиг высокого уровня проникновения в жёсткой конкурентной борьбе с другими мессенжерами благодаря множеству качественных параметров которые так просто не воспроизвести по причине создания эффективной экосистемы и высоко заданной планке скорости работы и прозрачности (открытый код, публичные аудиты шифрования и тд.)
2. Учитывая массовость его проникновения в массовую аудиторию и активное проникновение во все сферы жизни от частной переписки до использования бизнесом и органами власти его "замедление" это глобальный болезненный процесс для личных коммуникаций, бизнеса и организационных процессов для десятков миллионов людей.
3. Фактически владелец(-ы) Telegram'а находятся в ситуации ультиматума потерять российский рынок или мировой. Как бы ни была болезнена для них потеря российского рынка она более вероятна чем потеря существенной части мирового. А потери неизбежны при любом исходе текущей ситуации с "замеделением".
4. При этом полной потери российского рынка у Telegram не произойдет поскольку для многих Telegram не только стал привычной, но и срабатывает накопительный эффект. Огромные архивы сообщений, знаний, документов и иных материалов находятся именно в экосистеме Telegram'а и скорее многие из тех кто ещё не озаботился наличием VPN сервисов сделают это в течение короткого времени.
5. С учетом этого, скорее всего, Telegram потеряет не всю российскую аудиторию, а только наименее образованную, технически неграмотную и замкнутую только на внутрироссийские коммуникации.

Про мессенжер MAX
4. Мессенжер MAX которые де-факто предлагается политическими властями ему на замену был бы неплох обладай он хотя бы частью качественных характеристик Telegram'а, но ключевые его характеристики в нём не могут быть реализованы скорее по политическим чем по техническим причинам. Команда MAX'а не может открыть его код, не может обеспечить полную приватность переписки, не может гарантировать отсутствие доступа к данным переписки для органов власти.
5. Государственное продвижение MAX'а создало очень сильный обратный эффект и резкое неприятие пользователями как и любой жёстко навязываемый сервис. Декларируемые большие цифры охвата аудитории: а) Невозможно перепроверить. б) Ничего не говорят о реальном использовании, а не о полупринудительной регистрации в сервисе бюджетников и прочих слабозащищенных давлению лиц.
6. Попытки продвижения MAX'а как инструмента взаимодействия с гос-вом дезавуируют длительные усилия по развития экосистемы Госуслуг и других полностью государственных мобильных приложений и сервисов. Зачем получать сервисы через MAX если в России столь сильны позиции в fintech'е включая госбанки, если так хорошо было сделано приложение Госуслуг?
7. Можно констатировать что продвижение MAX'а через его потребительские качества провалилось, а насильственное продвижение вызывает лишь усиление сопротивления его использованию.
#thoughts #telegram #MAX

👍22💯14🔥4❤3✍2⚡1

1.32K viewsIvan Begtin, edited 19:00

About

Blog

Apps

Platform