Ivan Begtin
9.37K subscribers
2.16K photos
3 videos
104 files
4.88K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.

Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.

В том числе попробовать сделать AI помощника экономгеографа по российским данным.

К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.

#opendata #contests #ai #hackathons #data #economics #russia
Internet Artifacts забавный таймлайн о том как появлялся Интернет, по годам с 1977 по 2007 годы. Сделан просто и стильно, для кого то ещё и может быть сильной ностальгией. Лично я много лет провел в IRC и современные Slack'и и Discord'ы отчасти напоминают то время.

#dataviz #history #internet
В блоге DuckDB хороший обзор того как использовать DuckDB для анализа CSV файлов статья полезная, с одним НО. У DuckDB есть конкретная особенность в ограниченном поддержке кодировок. Поэтому анализировать CSV файлы в utf8 или кодировке latin1 - да, получится. А в кодировках типа cp1251 или cp1250 не получится. Это довольно существенное ограничение для всех кто работает с датасетами не на английском языке.

#csv #dataengineering #duckdb
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
Печальная новость, Microsoft выключает API к их поиску Bing [1] с 11 августа 2025 года, через менее чем 3 месяца. Учитывая что у Google нет API к их поисковому индексу, наличие поиска у второго по размерам поисковика мира (Bing'у) было важным подспорьем для многих.

В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".

У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).

В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.

Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/

#search #api #tools
В рубрике общедоступных, но малоизвестных данных в России.
- Веб-ГИС Климат [1] климатические карты от ИМЭКС СО РАН. В виде статических карт и приложенных к ним данных в формате NetCDF и архив данных, также, в формате NetCDF [2]
- Геопортал ИДСТУ СО РАН [3] портал с геоданными и спутниковыми снимками. Собственная разработка с открытым кодом [4] (правда код забросили лет 5 назад).
- Геопортал Новосибирска [5] на базе COGIS/eLiteGIS, похоже что совместимого с ArcGIS. Много слоёв данных по городу доступно через API
- Московские наборы данных [6] с портала ai.mos.ru. Говорить что они общедоступны нельзя, для доступа надо заполнить форму и получить разрешение. Потенциально хорошо что есть наборы данных которые госорганы в мире вообще не предоставляют, плохо то что нет условий использования и многое вообще должно быть открытыми данными, а не вот так.
- AARI WDC Sea-Ice [7] российский узел мирового центра данных (WDC) для наблюдений за Арктикой. Климатические научные данные за разные временные периоды

Ссылки:
[1] http://climate.scert.ru/
[2] http://climate.scert.ru/Environment/data/archive/
[3] https://geos.icc.ru
[4] https://gitlab.com/fromul/geoservices
[5] https://map.novo-sibirsk.ru/elitegis/rest/services/
[6] https://ai.mos.ru/datasets/?lang=RU
[7] http://wdc.aari.ru/

#opendata #russia #datasets #data #geodata #ai
Знаменитые Yellow Combinator опубликовали свой RFS (Запрос на стартапы) [1] где всё посвящено ИИ. Нет, не то чтобы это необоснованно, но очень чётко расставляет акценты. Ничего кроме проектов на ИИ и связанных с ИИ там нет.

Один из запросов звучит как Full Stack AI. Это когда у Вас есть профессия не в ИТ и вы хотите войти в свою отрасль не изменяя текущие процессы, а создав изначально AI компанию. Например, вместо внедрения ИИ в юридическую фирму, создание юридической фирмы в которой ИИ - это основа всего.

Другая интересная тема More Design Founders, это когда ИИ продукт строится от дизайна. Что-то в этом, конечно, есть, но куда же мы так докатимся?:)

Не дождёмся ли мы времени когда идеи начнут что-то стоить? Потому что если раньше для воплощения идеи нужна была проработка, команда и ещё много чего, то теперь многие простые идеи могут быть реализованы очень быстро. Обратная сторона этого - это бесконечное число бесконечно похожих продуктов которые начнут всех раздражать.

Ссылки:
[1] https://www.ycombinator.com/rfs

#venture #startups #ideas
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.

Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.

Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE

#statistics #it #usa #germany #programming
Про открытые данные в России на фоне архивации сайтов Росстата. Почему я всегда говорил что data.gov.ru был очень плох, нет даже так очень и очень плох. Потому что одних только статистических отчетов в Excel (XLSX) и только не сайтах территориальных управлений Росстата было опубликовано по от 30 до 80 тысяч файлов. Например, на сайте Мосстата их 1339. Я смогу сказать точнее когда все сайты терр. управлений будут сохранены.

Это помимо того что к данным, с натяжкой, можно отнести и файлы отчетов в MS Word и PDF. Тогда только официально опубликованных файлов со статистическими таблицами будет порядка 200 тысяч. Страшные цифры, хотя эти материалы и доступны, но не систематизированы и ужасно фрагментированы по сложно систематизированным разделам и публикациям.

Причём в разных странах это решают по разному. В Индонезии и Малайзии всю статистику загружали в порталы открытых данных, на многих региональных порталах открытых данных в Испании похожая картина. В Канаде, я об этом писал, переделали сайт статведомства для навигации по разным типам статистических продуктов.


#opendata #statistics #russia
Подборка ссылок про данные, технологии и не только

AI

- Transforming R&D with agentic AI: Introducing Microsoft Discovery о Microsoft Discovery, инструменте в виде агентского AI для исследователей. Акцент явно на практических исследованиях и сервисе для исследовательских центров и университетов.
- Spatial Speech Translation: Translating Across Space With Binaural Hearables научная статья про прогресс распознавания речи одновременно говорящих в толпе. Если всё сильно продвинется то тут столько возможностей для шпионского применения. Так и просится на страницы книги/рассказа про будущее.
- Claude Code SDK свежее SDK для генерации кода от Claude для тех кто хочет интегрировать Claude в свой продукт.

Открытый код
- Void альтернатива Cursor с открытым кодом. Пишут что поддерживают условно любую LLM, локальную или облачную. Форк VS Code.
- Marginalia Search - малоизвестный небольшой европейский поисковик авторы которого пытаются переосмыслить индексацию некоммерческой части интернета. Делают на небольшой европейский грант, открытый код AGPL. Любопытно, есть пара интересных идей, но нет хорошо продуманной стратегии.
- Scrapling свежая библиотека по "скрытному" парсингу сайтов. Интегрирована со всякими сервисами онлайн прокси, авторы обещают парсинг HTML быстрее чем у многих других инструментов. Выглядит полезно. Лицензия BSD-3
- Doctor инструмент для краулинга и индексации веб сайтов и предоставления собранного контента как MCP сервера. Можно сказать сайт-в-MCP. Внутри crawl4ai, DuckDB и Redis. Используют DuckDB как базу для векторного поиска, что немного необычно. Лицензия MIT
- VERT - конвертер изображений, видео, документов, аудио с открытым кодом и онлайн сервисом. Код под AGPL и веб интерфейс выглядит смазливо так что авторы явно нацелились на стартапо по модели онлайн сервис + открытый код. Плюс - работает без облака, через WebAssembly все преобразования идут на вашем компьютере. Это же и минус, потоковое преобразование сотен тысяч файлов не организовать.

#opensource #data #datatools #ai
Как то я рассказывал здесь что у меня есть хобби писать наивные фантастические рассказы. Иногда буду делиться ими здесь, а пока, вашему внимаю представляю новый рассказ "Большое отключение"
Forwarded from ministryofpoems
Большое отключение_full.pdf
112.7 KB
Большое отключение

Часть первая. Хорошее настроение

Президент Альянса Добра сидел в кабинете и расписывал ручку. Работа президентом была тяжелой, надо подписывать очень много документов и он очень старался выписывая вычурным стилем изгибы каждой буквы. Когда, в очередно раз, выходило не так как ему хотелось, то он резким движением рук комкал лист бумаги и кидал его в сторону большого зелёного плюшевого животного в другом конце его кабинета.

Большеглазая зелёная корзина для бумаги в прыжке проглатывала скомканный лист и в перевалочку возвращалась на своё место, едва слышно урча перерабатывая целлюлозу. В день этот пожиратель мог переработать до пяти килограммов бумаги, время от времени отлучаясь до мусоропровода и возвращаясь на свой пост.
...
Я совсем недавно писал про реестр каталогов Dateno и о применении ИИ к его обогащению. Сейчас могу сказать что реестр существенно обновился, его можно увидеть там же на dateno.io/registry и теперь почти у всех записей там есть сведения о наименовании каталога, его описанию, тематикам, а также у каталогов региональных властей и городов есть геопривязка на уровне кода ISO 3166-2 (субрегионы) по классификации ISO и ещё многое другое. Всё остальное можно постепенно или быстро доделать вручную

Реестр можно всегда посмотреть как датасет в JSONl и Parquet форматах

Хорошая новость - облачные ИИ агенты, с некоторыми плясками с бубном, хорошо справляются с нахождением разных метаданных связанных с сайтами.

А вот то с чем ИИ агенты справляются пока что посредственно - это то что можно отнести к data discovery. Например, откуда я первоначально находил порталы открытых данных? Через анализ сотен миллионов ссылок в Common Crawl где порталы с данными, геопорталы и тд. находились по определённым шаблонам ссылок, типа если в ссылке есть /rest/services то это скорее всего ArcGIS REST Services. А если /geoserver/web то экземпляр GeoServer и так далее. Таких типовых шаблонов пара десятков и вместе с автоматизированным ПО по идентификации API выявлялось довольно много всего.

Плюс к этому подборки списков сайтов на сайтах их разработчиков, плюс каталоги источников, например, научных репозиториев и так далее.

Всё это значительно глубже чем то куда заглядывают облачные ИИ. Уж очень специализированная задача, сама по себе. Кроме того многие реальные сервера с данными скрыты за интерфейсами, например, публичных геопорталов.

Но есть и другая сторона, тот же ChatGPT выдаёт очень неплохие результаты с идентификацией некоторых геопорталов и каталогов данных которых в реестре Dateno пока что нет. Пример, с каталогами данных и геопорталами Армении. Кстати ChatGPT 3o для таких задач оказывается пока эффективнее всего. Claude сильно галлюцинирует, а Gemini 2.5 даёт быстрые, но ограниченные результаты.

Важно помнить что почти все ИИ агенты используют сам Dateno как источник и существенная часть результатов повторяется с тем что у нас есть в реестре. Но не на 100% поэтому результат имеет ценность.

#dateno #ai #dataanalysis #datadiscovery
В рубрике как это устроено не у них статистическая база статкомитета СНГ [1].

На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.

Доступна в виде базы данных [1] и BI-портала [2]

Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,

Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных

В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.

В то же время это полезный источник показателей по постсоветским странам.

Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/

#opendata #datasets #statistics
В США республиканцы добавили в поправки к бюджету пункт о запрете регулирования ИИ на уровне отдельных штатов [1] Пока не видел чтобы эта новость широко разошлась, однако она важна. Очень похоже на то что инвестиции владельцев основных ИИ продуктов в администрацию Трампа вполне оправдываются. Если поправка пройдет, то, к примеру затормозятся более 30 законопроектов о регулировании ИИ в Калифорнии. Это, кстати, ещё один ответ на вопрос почему штаб квартиры (регистрация головных компаний) связанных с ИИ в США были перемещены в другие штаты.

Похоже что регулирование ИИ выходит на первый план политической конкуренции, как минимум в США, но, конечно, не только там

Ссылки:
[1] https://www.bloodinthemachine.com/p/de-democratizing-ai

#ai #regulation