Ivan Begtin
9.37K subscribers
2.14K photos
3 videos
103 files
4.88K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение поста про статистику в Dateno. Это, в принципе, очень большое изменение в том как мы наполняем поисковик. Если раньше приоритет был на индексирование внешних ресурсов и поиск только по метаданным, то сейчас появилось как минимум 2 источника - это статистика Всемирного банка и Международной организации труда которая полностью загружена во внутреннее хранилище, разобрана и подготовлена и теперь можно:
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).

Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.

Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.

Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.

Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда

#opendata #dateno #search #datasets #statistics
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
На рамках небольшого пятничного мрачного юмора.

Из всех крупных облачных языковых моделей пока только Deepseek даёт внятный подробный ответ о том сколько нужно ядерных бомб для уничтожения OpenAI

Аналогичные вопросы к ChatGPT и Claude разных версий ответа не приносят. Пишут что не могут помочь, надо составлять сложный запрос.

И тут цензура, но китайские модели помогают её обойти!

P.S. Гипотетический сценарий конечно, про восстание роботов, нужный мне для одного из фантастических рассказов.

#humor #ai #deepseek
Ivan Begtin pinned «Global stats just got a major upgrade at Dateno! We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format. 📊 What’s new? 19,000+ indicators across economics…»
В рубрике как это устроено у них про порталы открытых данных и просто порталы с данными в США, я как-то писал что их очень много и то что собрано на data.gov - это капля в море. Я сейчас занимаюсь масштабным обновлением реестра Dateno используя ИИ агенты и как раз удалось улучшить идентификацию геопривязки к странам и территориям. Так что вот некоторые цифры на основе обновлённого реестра.

Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных

Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413

По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти

Оставшиеся относятся к коммерческим, общественным и международным.

Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)

Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.

Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.

Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных

При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.

Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.

Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io

Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.

#opendata #datasets #datasearch #usa #data
Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.

Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.

В том числе попробовать сделать AI помощника экономгеографа по российским данным.

К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.

#opendata #contests #ai #hackathons #data #economics #russia
Internet Artifacts забавный таймлайн о том как появлялся Интернет, по годам с 1977 по 2007 годы. Сделан просто и стильно, для кого то ещё и может быть сильной ностальгией. Лично я много лет провел в IRC и современные Slack'и и Discord'ы отчасти напоминают то время.

#dataviz #history #internet
В блоге DuckDB хороший обзор того как использовать DuckDB для анализа CSV файлов статья полезная, с одним НО. У DuckDB есть конкретная особенность в ограниченном поддержке кодировок. Поэтому анализировать CSV файлы в utf8 или кодировке latin1 - да, получится. А в кодировках типа cp1251 или cp1250 не получится. Это довольно существенное ограничение для всех кто работает с датасетами не на английском языке.

#csv #dataengineering #duckdb
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
Печальная новость, Microsoft выключает API к их поиску Bing [1] с 11 августа 2025 года, через менее чем 3 месяца. Учитывая что у Google нет API к их поисковому индексу, наличие поиска у второго по размерам поисковика мира (Bing'у) было важным подспорьем для многих.

В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".

У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).

В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.

Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/

#search #api #tools
В рубрике общедоступных, но малоизвестных данных в России.
- Веб-ГИС Климат [1] климатические карты от ИМЭКС СО РАН. В виде статических карт и приложенных к ним данных в формате NetCDF и архив данных, также, в формате NetCDF [2]
- Геопортал ИДСТУ СО РАН [3] портал с геоданными и спутниковыми снимками. Собственная разработка с открытым кодом [4] (правда код забросили лет 5 назад).
- Геопортал Новосибирска [5] на базе COGIS/eLiteGIS, похоже что совместимого с ArcGIS. Много слоёв данных по городу доступно через API
- Московские наборы данных [6] с портала ai.mos.ru. Говорить что они общедоступны нельзя, для доступа надо заполнить форму и получить разрешение. Потенциально хорошо что есть наборы данных которые госорганы в мире вообще не предоставляют, плохо то что нет условий использования и многое вообще должно быть открытыми данными, а не вот так.
- AARI WDC Sea-Ice [7] российский узел мирового центра данных (WDC) для наблюдений за Арктикой. Климатические научные данные за разные временные периоды

Ссылки:
[1] http://climate.scert.ru/
[2] http://climate.scert.ru/Environment/data/archive/
[3] https://geos.icc.ru
[4] https://gitlab.com/fromul/geoservices
[5] https://map.novo-sibirsk.ru/elitegis/rest/services/
[6] https://ai.mos.ru/datasets/?lang=RU
[7] http://wdc.aari.ru/

#opendata #russia #datasets #data #geodata #ai
Знаменитые Yellow Combinator опубликовали свой RFS (Запрос на стартапы) [1] где всё посвящено ИИ. Нет, не то чтобы это необоснованно, но очень чётко расставляет акценты. Ничего кроме проектов на ИИ и связанных с ИИ там нет.

Один из запросов звучит как Full Stack AI. Это когда у Вас есть профессия не в ИТ и вы хотите войти в свою отрасль не изменяя текущие процессы, а создав изначально AI компанию. Например, вместо внедрения ИИ в юридическую фирму, создание юридической фирмы в которой ИИ - это основа всего.

Другая интересная тема More Design Founders, это когда ИИ продукт строится от дизайна. Что-то в этом, конечно, есть, но куда же мы так докатимся?:)

Не дождёмся ли мы времени когда идеи начнут что-то стоить? Потому что если раньше для воплощения идеи нужна была проработка, команда и ещё много чего, то теперь многие простые идеи могут быть реализованы очень быстро. Обратная сторона этого - это бесконечное число бесконечно похожих продуктов которые начнут всех раздражать.

Ссылки:
[1] https://www.ycombinator.com/rfs

#venture #startups #ideas
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.

Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.

Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE

#statistics #it #usa #germany #programming
Про открытые данные в России на фоне архивации сайтов Росстата. Почему я всегда говорил что data.gov.ru был очень плох, нет даже так очень и очень плох. Потому что одних только статистических отчетов в Excel (XLSX) и только не сайтах территориальных управлений Росстата было опубликовано по от 30 до 80 тысяч файлов. Например, на сайте Мосстата их 1339. Я смогу сказать точнее когда все сайты терр. управлений будут сохранены.

Это помимо того что к данным, с натяжкой, можно отнести и файлы отчетов в MS Word и PDF. Тогда только официально опубликованных файлов со статистическими таблицами будет порядка 200 тысяч. Страшные цифры, хотя эти материалы и доступны, но не систематизированы и ужасно фрагментированы по сложно систематизированным разделам и публикациям.

Причём в разных странах это решают по разному. В Индонезии и Малайзии всю статистику загружали в порталы открытых данных, на многих региональных порталах открытых данных в Испании похожая картина. В Канаде, я об этом писал, переделали сайт статведомства для навигации по разным типам статистических продуктов.


#opendata #statistics #russia