Ivan Begtin
9.35K subscribers
2.24K photos
4 videos
106 files
4.94K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.

И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.

Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.

При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.

#opendata #culturalheritage #readings
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.

Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.

Конкретно вы Кыргызстане данные собираются с 36 метеостанций.

На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]

Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru

#opendata #openapi #api #geodata #datasets #kyrgyzstan
Доля расходов на продовольствие в расходах населения

Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).

Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).

Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.

Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива

Подписаться

#соцэк
Свежий любопытный продукт Nimtable [1] для корпоративных каталогов данных. Работает поверх каталогов Apache Iceberg, позволяет управлять каталогами, делать запросы к ним и оптимизировать таблицы с данными. Выглядит интересно и определённо стоит посмотреть его в работе.

Ссылки:
[1] https://github.com/nimtable/nimtable

#dataenginering #datatools
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.

Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.

Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.

Чтение полезное для всех кто интересуется AI и этикой.

Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change

#readings #ai #openai #ethics
Некоторые мысли вслух относительно организации своей и не только своей работы. Я лично довольно давно увлекался разными инструментами и подходами к самоорганизации. Какие-то из них самоочевидны, а какие-то - это хорошо обновлённое старое, а не что-то новое.

Один из таких подходов - это рабочий журнал.

Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.

Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.

В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.

Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.

Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.

Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.

Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.

А какие рабочие практики и лайфхаки Вы используете?

#thoughts #it #lifehacks
Некоторые мысли вслух:
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.

2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.

#thoughts
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках

Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.

Ссылки:
[1] https://aik.timepad.ru/event/3375051/

#opendata #openaccess
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.

На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.

При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.

Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.


Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr

#opendata #datasets #biodiversity
MIT: ChatGPT может разучить тебя думать

Новое исследование MIT показало: если писать с помощью AI, мозг начинает халтурить. У студентов, которые писали эссе с ChatGPT, слабее работали участки мозга, отвечающие за внимание и память. Они хуже запоминали, что сами же только что написали, и выдавали более шаблонные тексты.

Учёные называют это «когнитивным долгом»: ты передаёшь мышление модели, а сам просто жмешь кнопки.

Эффект остаётся даже после отключения AI. Те, кто долго писал с чат-ботом, потом хуже справлялись без него. А вот если сначала думал сам, а потом подключал ChatGPT — мозг наоборот работал лучше.

Отчет ученых из MIT можно почитать тут: https://arxiv.org/pdf/2506.08872v1
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.

И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.

А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)

Итого: 41,8% показателей не обновлялись с 2022 года

Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)

При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.

Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.

Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).

Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.

#opendata #data #statistics #russia
Полезное чтение про данные, технологии и не только:
- I feel open source has turned into two worlds [1] автор пишет про то как классический open source мир столкнулся с корпоративным и это ещё один водораздел между теми кто исповедует открытость как ценность и теми кто зарабатывает на этом деньги.
- Can A.I. Quicken the Pace of Math Discovery? [2] могут ли ИИ помощники усилить и ускорить научные открытия в высшей математике ? Тема очень и очень непростая, но в США DARPA запускают инициативу в которой хотят это попробовать.
- The Brute Squad [3] автор поёт оды вайб-кодингу, насколько оправданные - вот в чём вопрос. Но прочитать стоит

Ссылки:
[1] https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
[2] https://www.nytimes.com/2025/06/19/science/math-ai-darpa.html
[3] https://sourcegraph.com/blog/the-brute-squad

#readings #ai #opensource