Ivan Begtin
9.35K subscribers
2.24K photos
4 videos
106 files
4.94K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.

Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.

К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.

Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300

#opendata #datasets #data #ai
Когда появится AGI (Общий искусственный интеллект)? Коллекция предсказаний от тех кто создаёт ИИ моделей и ряда экспертов [1]

Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни

У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.

Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень

Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/

#preditions #ai
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.

И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.

Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.

При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.

#opendata #culturalheritage #readings
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.

Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.

Конкретно вы Кыргызстане данные собираются с 36 метеостанций.

На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]

Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru

#opendata #openapi #api #geodata #datasets #kyrgyzstan
Доля расходов на продовольствие в расходах населения

Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).

Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).

Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.

Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива

Подписаться

#соцэк
Свежий любопытный продукт Nimtable [1] для корпоративных каталогов данных. Работает поверх каталогов Apache Iceberg, позволяет управлять каталогами, делать запросы к ним и оптимизировать таблицы с данными. Выглядит интересно и определённо стоит посмотреть его в работе.

Ссылки:
[1] https://github.com/nimtable/nimtable

#dataenginering #datatools
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.

Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.

Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.

Чтение полезное для всех кто интересуется AI и этикой.

Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change

#readings #ai #openai #ethics
Некоторые мысли вслух относительно организации своей и не только своей работы. Я лично довольно давно увлекался разными инструментами и подходами к самоорганизации. Какие-то из них самоочевидны, а какие-то - это хорошо обновлённое старое, а не что-то новое.

Один из таких подходов - это рабочий журнал.

Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.

Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.

В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.

Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.

Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.

Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.

Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.

А какие рабочие практики и лайфхаки Вы используете?

#thoughts #it #lifehacks
Некоторые мысли вслух:
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.

2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.

#thoughts
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках

Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.

Ссылки:
[1] https://aik.timepad.ru/event/3375051/

#opendata #openaccess
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.

На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.

При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.

Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.


Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr

#opendata #datasets #biodiversity