Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.89K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
На рамках небольшого пятничного мрачного юмора.

Из всех крупных облачных языковых моделей пока только Deepseek даёт внятный подробный ответ о том сколько нужно ядерных бомб для уничтожения OpenAI

Аналогичные вопросы к ChatGPT и Claude разных версий ответа не приносят. Пишут что не могут помочь, надо составлять сложный запрос.

И тут цензура, но китайские модели помогают её обойти!

P.S. Гипотетический сценарий конечно, про восстание роботов, нужный мне для одного из фантастических рассказов.

#humor #ai #deepseek
Ivan Begtin pinned «Global stats just got a major upgrade at Dateno! We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format. 📊 What’s new? 19,000+ indicators across economics…»
В рубрике как это устроено у них про порталы открытых данных и просто порталы с данными в США, я как-то писал что их очень много и то что собрано на data.gov - это капля в море. Я сейчас занимаюсь масштабным обновлением реестра Dateno используя ИИ агенты и как раз удалось улучшить идентификацию геопривязки к странам и территориям. Так что вот некоторые цифры на основе обновлённого реестра.

Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных

Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413

По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти

Оставшиеся относятся к коммерческим, общественным и международным.

Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)

Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.

Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.

Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных

При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.

Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.

Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io

Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.

#opendata #datasets #datasearch #usa #data
Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.

Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.

В том числе попробовать сделать AI помощника экономгеографа по российским данным.

К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.

#opendata #contests #ai #hackathons #data #economics #russia
Internet Artifacts забавный таймлайн о том как появлялся Интернет, по годам с 1977 по 2007 годы. Сделан просто и стильно, для кого то ещё и может быть сильной ностальгией. Лично я много лет провел в IRC и современные Slack'и и Discord'ы отчасти напоминают то время.

#dataviz #history #internet
В блоге DuckDB хороший обзор того как использовать DuckDB для анализа CSV файлов статья полезная, с одним НО. У DuckDB есть конкретная особенность в ограниченном поддержке кодировок. Поэтому анализировать CSV файлы в utf8 или кодировке latin1 - да, получится. А в кодировках типа cp1251 или cp1250 не получится. Это довольно существенное ограничение для всех кто работает с датасетами не на английском языке.

#csv #dataengineering #duckdb
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
Печальная новость, Microsoft выключает API к их поиску Bing [1] с 11 августа 2025 года, через менее чем 3 месяца. Учитывая что у Google нет API к их поисковому индексу, наличие поиска у второго по размерам поисковика мира (Bing'у) было важным подспорьем для многих.

В статье упоминается альтернатива в виде Brave Search API [2], но она не единственная. Есть ещё и API у you.com [3], Tavily [4], Exa [5] и LinkUp [6]. Почти все предлагают себя как "лучший поиск для ИИ".

У меня их обилие и развитие вызывает ассоциацию с теневыми кухнями. Новые AI поисковики могут использовать один из этих поисковиков не афишируя это, формируя промпты к поисковому движку (движкам).

В любом случае, больше разнообразного поиска и API - это к лучшему. Больше инструментов - меньше монополии.

Ссылки:
[1] https://www.neowin.net/news/microsoft-pulls-plug-on-bing-search-apis/
[2] https://brave.com/search/api/#api-features
[3] https://api.you.com/
[4] https://tavily.com/#api
[5] https://exa.ai/
[6] https://www.linkup.so/

#search #api #tools
В рубрике общедоступных, но малоизвестных данных в России.
- Веб-ГИС Климат [1] климатические карты от ИМЭКС СО РАН. В виде статических карт и приложенных к ним данных в формате NetCDF и архив данных, также, в формате NetCDF [2]
- Геопортал ИДСТУ СО РАН [3] портал с геоданными и спутниковыми снимками. Собственная разработка с открытым кодом [4] (правда код забросили лет 5 назад).
- Геопортал Новосибирска [5] на базе COGIS/eLiteGIS, похоже что совместимого с ArcGIS. Много слоёв данных по городу доступно через API
- Московские наборы данных [6] с портала ai.mos.ru. Говорить что они общедоступны нельзя, для доступа надо заполнить форму и получить разрешение. Потенциально хорошо что есть наборы данных которые госорганы в мире вообще не предоставляют, плохо то что нет условий использования и многое вообще должно быть открытыми данными, а не вот так.
- AARI WDC Sea-Ice [7] российский узел мирового центра данных (WDC) для наблюдений за Арктикой. Климатические научные данные за разные временные периоды

Ссылки:
[1] http://climate.scert.ru/
[2] http://climate.scert.ru/Environment/data/archive/
[3] https://geos.icc.ru
[4] https://gitlab.com/fromul/geoservices
[5] https://map.novo-sibirsk.ru/elitegis/rest/services/
[6] https://ai.mos.ru/datasets/?lang=RU
[7] http://wdc.aari.ru/

#opendata #russia #datasets #data #geodata #ai
Знаменитые Yellow Combinator опубликовали свой RFS (Запрос на стартапы) [1] где всё посвящено ИИ. Нет, не то чтобы это необоснованно, но очень чётко расставляет акценты. Ничего кроме проектов на ИИ и связанных с ИИ там нет.

Один из запросов звучит как Full Stack AI. Это когда у Вас есть профессия не в ИТ и вы хотите войти в свою отрасль не изменяя текущие процессы, а создав изначально AI компанию. Например, вместо внедрения ИИ в юридическую фирму, создание юридической фирмы в которой ИИ - это основа всего.

Другая интересная тема More Design Founders, это когда ИИ продукт строится от дизайна. Что-то в этом, конечно, есть, но куда же мы так докатимся?:)

Не дождёмся ли мы времени когда идеи начнут что-то стоить? Потому что если раньше для воплощения идеи нужна была проработка, команда и ещё много чего, то теперь многие простые идеи могут быть реализованы очень быстро. Обратная сторона этого - это бесконечное число бесконечно похожих продуктов которые начнут всех раздражать.

Ссылки:
[1] https://www.ycombinator.com/rfs

#venture #startups #ideas
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.

Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.

Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE

#statistics #it #usa #germany #programming
Про открытые данные в России на фоне архивации сайтов Росстата. Почему я всегда говорил что data.gov.ru был очень плох, нет даже так очень и очень плох. Потому что одних только статистических отчетов в Excel (XLSX) и только не сайтах территориальных управлений Росстата было опубликовано по от 30 до 80 тысяч файлов. Например, на сайте Мосстата их 1339. Я смогу сказать точнее когда все сайты терр. управлений будут сохранены.

Это помимо того что к данным, с натяжкой, можно отнести и файлы отчетов в MS Word и PDF. Тогда только официально опубликованных файлов со статистическими таблицами будет порядка 200 тысяч. Страшные цифры, хотя эти материалы и доступны, но не систематизированы и ужасно фрагментированы по сложно систематизированным разделам и публикациям.

Причём в разных странах это решают по разному. В Индонезии и Малайзии всю статистику загружали в порталы открытых данных, на многих региональных порталах открытых данных в Испании похожая картина. В Канаде, я об этом писал, переделали сайт статведомства для навигации по разным типам статистических продуктов.


#opendata #statistics #russia
Подборка ссылок про данные, технологии и не только

AI

- Transforming R&D with agentic AI: Introducing Microsoft Discovery о Microsoft Discovery, инструменте в виде агентского AI для исследователей. Акцент явно на практических исследованиях и сервисе для исследовательских центров и университетов.
- Spatial Speech Translation: Translating Across Space With Binaural Hearables научная статья про прогресс распознавания речи одновременно говорящих в толпе. Если всё сильно продвинется то тут столько возможностей для шпионского применения. Так и просится на страницы книги/рассказа про будущее.
- Claude Code SDK свежее SDK для генерации кода от Claude для тех кто хочет интегрировать Claude в свой продукт.

Открытый код
- Void альтернатива Cursor с открытым кодом. Пишут что поддерживают условно любую LLM, локальную или облачную. Форк VS Code.
- Marginalia Search - малоизвестный небольшой европейский поисковик авторы которого пытаются переосмыслить индексацию некоммерческой части интернета. Делают на небольшой европейский грант, открытый код AGPL. Любопытно, есть пара интересных идей, но нет хорошо продуманной стратегии.
- Scrapling свежая библиотека по "скрытному" парсингу сайтов. Интегрирована со всякими сервисами онлайн прокси, авторы обещают парсинг HTML быстрее чем у многих других инструментов. Выглядит полезно. Лицензия BSD-3
- Doctor инструмент для краулинга и индексации веб сайтов и предоставления собранного контента как MCP сервера. Можно сказать сайт-в-MCP. Внутри crawl4ai, DuckDB и Redis. Используют DuckDB как базу для векторного поиска, что немного необычно. Лицензия MIT
- VERT - конвертер изображений, видео, документов, аудио с открытым кодом и онлайн сервисом. Код под AGPL и веб интерфейс выглядит смазливо так что авторы явно нацелились на стартапо по модели онлайн сервис + открытый код. Плюс - работает без облака, через WebAssembly все преобразования идут на вашем компьютере. Это же и минус, потоковое преобразование сотен тысяч файлов не организовать.

#opensource #data #datatools #ai
Как то я рассказывал здесь что у меня есть хобби писать наивные фантастические рассказы. Иногда буду делиться ими здесь, а пока, вашему внимаю представляю новый рассказ "Большое отключение"
Forwarded from ministryofpoems
Большое отключение_full.pdf
112.7 KB
Большое отключение

Часть первая. Хорошее настроение

Президент Альянса Добра сидел в кабинете и расписывал ручку. Работа президентом была тяжелой, надо подписывать очень много документов и он очень старался выписывая вычурным стилем изгибы каждой буквы. Когда, в очередно раз, выходило не так как ему хотелось, то он резким движением рук комкал лист бумаги и кидал его в сторону большого зелёного плюшевого животного в другом конце его кабинета.

Большеглазая зелёная корзина для бумаги в прыжке проглатывала скомканный лист и в перевалочку возвращалась на своё место, едва слышно урча перерабатывая целлюлозу. В день этот пожиратель мог переработать до пяти килограммов бумаги, время от времени отлучаясь до мусоропровода и возвращаясь на свой пост.
...