242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Когда появится AGI (Общий искусственный интеллект)? Коллекция предсказаний от тех кто создаёт ИИ моделей и ряда экспертов [1]
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Forwarded from Случайное блуждание
Доля расходов на продовольствие в расходах населения
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк
Свежий любопытный продукт Nimtable [1] для корпоративных каталогов данных. Работает поверх каталогов Apache Iceberg, позволяет управлять каталогами, делать запросы к ним и оптимизировать таблицы с данными. Выглядит интересно и определённо стоит посмотреть его в работе.
Ссылки:
[1] https://github.com/nimtable/nimtable
#dataenginering #datatools
Ссылки:
[1] https://github.com/nimtable/nimtable
#dataenginering #datatools
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.
Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.
Чтение полезное для всех кто интересуется AI и этикой.
Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change
#readings #ai #openai #ethics
Некоторые мысли вслух относительно организации своей и не только своей работы. Я лично довольно давно увлекался разными инструментами и подходами к самоорганизации. Какие-то из них самоочевидны, а какие-то - это хорошо обновлённое старое, а не что-то новое.
Один из таких подходов - это рабочий журнал.
Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.
Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.
В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.
Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.
Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.
Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.
Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.
А какие рабочие практики и лайфхаки Вы используете?
#thoughts #it #lifehacks
Один из таких подходов - это рабочий журнал.
Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.
Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.
В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.
Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.
Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.
Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.
Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.
А какие рабочие практики и лайфхаки Вы используете?
#thoughts #it #lifehacks
Некоторые мысли вслух:
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.
2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.
#thoughts
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.
2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.
#thoughts
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
aik.timepad.ru
V международная летняя школа молодых ученых по исторической информатике / События на TimePad.ru
Ассоциация исследователей в области исторической информатики (АИК) и Исторический факультет МГУ имени М.В. Ломоносова 26 – 29 июня 2025 г. проводят международную летнюю школу молодых ученых по исторической информатике — «Историческая информатика – 2025».…
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity