По поводу введения "платы за VPN сервисы" в России, давайте называть всё своими именами. Это выглядит как цифровой налог на бедных. Понятно что те кому это критично найдут на это деньги (или способ обойти и это) и понятно что интернет-провайдеров будут люто за это ненавидеть. А для людей с небольшими и средними доходами - это будет очень болезнено. И отличить любой другой зарубежный трафик от VPN будет практически невозможно. И богатых имеющих доступ к зарубежному трафику тоже будут ненавидеть, не так сильно как провайдеров и регуляторов, но тоже. Общий градус злости будет сильно выше
Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.
#thoughts
Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.
#thoughts
💯32❤5😢5🤝2
В рубрике как это устроено у них каталог открытых данных платформы SENSE в Великобритании data.sdr-sense.org.uk включает данные энергетического сектора страны. Его особенность в том что он включает как открытые данные и регламентированные (safeguarded) данные доступ к которым можно получить только по запросу. При этом подробные метаданные доступны к каждому датасету и можно заранее понять какие именно данные там доступны.
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
👍5⚡1
Data Not Found любопытный доклад про прозрачность данных социальных сетей, в первую очередь для регуляторов и исследователей. Охватывает регулирование ЕС, Бразилии и Великобритании, весьма любопытное по содержанию, не очень практическое лично для меня сейчас - не вижу практического применения. Хотя один аспект важен - нет оценки возможности архивации содержания соц сетей, или же он явно недостаточен. Есть упоминание про оценку доступности данных через API, но это не одно и то же.
#data #readings
#data #readings
👍3❤1
Forwarded from Цифровой архив госфинансов и госуправления
Учет населения в Российской империи: на пути ко всеобщей переписи
Часть I. Осознание потребности
Первая и единственная перепись населения Российской империи состоялась в начале 1897 года и была подготовлена и проведена под руководством русского ученого, естествоиспытателя, экономиста и путешественника П.П. Семенова (в дальнейшей историографии известного как П.П. Семенов-Тян-Шанский). Перепись проходила путём непосредственного опроса всего населения на одну и ту же дату, а ее результаты были опубликованы в 1897—1905 годах в 89 томах (119 книг) под общим заглавием «Первая всеобщая перепись населения Российской империи 1897 года».
Необходимость переписи назрела в России давно — не только для целей воинского и налогового учета. Как отмечает Временник Центрального статистического комитета МВД Российской империи в 1890 году*,
собирание подобных сведений приобретает еще более важное значение в таком государстве, как Россия, представляющем крайнее разнообразие географических и экономических условий и заключающем в пределах своих множество этнографических элементов, не утративших еще ни лингвистических, ни вероисповедных, ни бытовых отличий.
Подготовка переписи началась в 1874 году в Комиссии для выработки правил учета населения под председательством А.К. Гирса, созданной при министерстве финансов в бытность министром М.Х. Рейтерна.
Перед комиссией стояла задача*
составить предположения о мерах, какие могут быть приняты для ведения на будущее время правильного счета лиц, подлежащих воинской повинности, и, если будет признано необходимым произвести для сего общую поголовную перепись всего населения, то определить, какими способами и каким порядком она должна быть произведена.
Кроме того, в поле зрения комиссии находилась и грядущая податная реформа: при проведении переписи следовало собрать сведения для осуществления реформы и определить, какие данные могут быть полезны для финансовых задач.
* Цитируется по изданию Центрального статистического комитета Министерства внутренних дел «Очерк развития вопроса о всеобщей народной переписи в России», 1890 г.
#статистика #перепись #история #книга
Часть I. Осознание потребности
Первая и единственная перепись населения Российской империи состоялась в начале 1897 года и была подготовлена и проведена под руководством русского ученого, естествоиспытателя, экономиста и путешественника П.П. Семенова (в дальнейшей историографии известного как П.П. Семенов-Тян-Шанский). Перепись проходила путём непосредственного опроса всего населения на одну и ту же дату, а ее результаты были опубликованы в 1897—1905 годах в 89 томах (119 книг) под общим заглавием «Первая всеобщая перепись населения Российской империи 1897 года».
Необходимость переписи назрела в России давно — не только для целей воинского и налогового учета. Как отмечает Временник Центрального статистического комитета МВД Российской империи в 1890 году*,
собирание подобных сведений приобретает еще более важное значение в таком государстве, как Россия, представляющем крайнее разнообразие географических и экономических условий и заключающем в пределах своих множество этнографических элементов, не утративших еще ни лингвистических, ни вероисповедных, ни бытовых отличий.
Подготовка переписи началась в 1874 году в Комиссии для выработки правил учета населения под председательством А.К. Гирса, созданной при министерстве финансов в бытность министром М.Х. Рейтерна.
Перед комиссией стояла задача*
составить предположения о мерах, какие могут быть приняты для ведения на будущее время правильного счета лиц, подлежащих воинской повинности, и, если будет признано необходимым произвести для сего общую поголовную перепись всего населения, то определить, какими способами и каким порядком она должна быть произведена.
Кроме того, в поле зрения комиссии находилась и грядущая податная реформа: при проведении переписи следовало собрать сведения для осуществления реформы и определить, какие данные могут быть полезны для финансовых задач.
* Цитируется по изданию Центрального статистического комитета Министерства внутренних дел «Очерк развития вопроса о всеобщей народной переписи в России», 1890 г.
#статистика #перепись #история #книга
❤9⚡5
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
www.federaldatafieldguide.us
The Federal Data Field Guide
🔥5👍4
Даже не знаю как это прокомментировать, наверное что как бы российские власти не пошли тем же путем. И сейчас ИИ специалистов очень сложно найти, а вообще никого в стране не останется(
#ai #china #regulation
#ai #china #regulation
🌚8🔥4⚡1
Обзор протокола MCP от NSA (Агентство национальной безопасности США). Если коротко то так
Сам по себе документ небольшой, 17 страниц, обзорный по многим ранее опубликованным проблемам протокола. Почитать его стоит всем разработчикам и архитекторам работающим с MCP протоколом.
#readings #security #ai
Хотя MCP действительно является многообещающим базовым уровнем для агентных систем, его текущее
состояние безопасности остается неоднородным и в значительной степени зависит от дисциплины реализации, а не от гарантий протокола.
Сам по себе документ небольшой, 17 страниц, обзорный по многим ранее опубликованным проблемам протокола. Почитать его стоит всем разработчикам и архитекторам работающим с MCP протоколом.
#readings #security #ai
1✍9❤3👍2
Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.
#opendata #datasets #readings #ai
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.
#opendata #datasets #readings #ai
Substack
Dead on Arrival: The AI Dashboard Problem
Three prompts, three dashboards, and what the analytics practitioner still has to bring to the table in the age of AI-driven visual analytics.
❤4👍4
Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)
В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.
Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.
Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.
Если найдете там ошибки или будет чем дополнить - пишите сразу мне.
#opendata #datasets #opensource
Для всех кто занимается меж
В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.
Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.
Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.
Если найдете там ошибки или будет чем дополнить - пишите сразу мне.
#opendata #datasets #opensource
Для всех кто занимается меж
GitHub
Release v1.1.2 · datenoio/internacia-db
Added
International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...
International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...
👍5❤4🔥3
Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.
Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.
Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.
Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.
Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.
Сами файлы выкачивать не нужно!
Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.
Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.
#opencall #datasets
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания, а с другой стороны нет открытого API или массовой выгрузки (bulk download), а для многих гуманитарных/окологуманитарных проектов нужны метаданные оттуда.
Как вы понимаете написать сейчас парсер с помощью ИИ несложно, сложно и требует времени на то чтобы собрать все имеющиеся там метаданные в сохранить их.
Поэтому нужен не просто парсер НЭБа, а кто-то кто с его помощью сможет все метаданные по всем публикациям собрать и сохранить в сжатый/сжатые JSON lines файлы и передать их.
Хорошо если есть волонтер под такое, а если кто-то готов, но за деньги, то напишите мне о том сколько денег и сколько времени нужно - если ценник не безумный я их найду.
Что необходимо собрать: все метаданные с карточки описания каждой публикации включая автора, название, описание, дату и место публикации, тематики, каждый атрибут блока "Детальная информация", запись MARC21, ссылку на PDF файл.
Сами файлы выкачивать не нужно!
Систематизировать атрибуты метаданных и сделать также файл Parquet с ними будет большим плюсом.
Итоговый датасет будет открытым, выложу его на одном из порталов открытых данных.
#opencall #datasets
🔥11👍6❤🔥5❤1🤝1
Свежий документ Data Systems at a Crossroads: Official Statistics for a New Era
от авторов из PARIS21 (The Partnership in Statistics for Development in the 21st Century).
Документ о том что национальные статистические службы в мире находятся в кризисе, а ещё вернее в нескольких кризисах:
- Кризис доверия и легитимности. Растёт политизация данных, а «факты» всё чаще проигрывают «чувствам» в публичной дискуссии.
- Финансовый и институциональный. Статистические службы недофинансируются, а их бюджеты несут всё большую нагрузку по сбору новых показателей (SDG, климат, цифровая экономика).
- Кадровый разрыв. Между хорошо оснащёнными НСО, которые уже экспериментируют с ML и NLP, и бюро, где данные до сих пор собираются на бумаге и обрабатываются в Excel, - пропасть.
Вывод там довольно простой, есть развилка в виде:
- продолжения медленного развития "как есть"
- глубокой трансформации статистических служб
—
Документ ценный краткостью и актуальностью и очень близок к моим собственным размышлениям. Статистические службы наиболее близки по смыслу к "дата-службам", они могли бы (должны бы?) производить оперативную качественную аналитику и поставлять данные, но за десятилетия-столетия своего существования обросли столь объемными фактическими и когнитивными ограничениями что в редких случаях выступают в этой роли.
При это цикл их развития очень медленный в сравнении со всем что творится с данными, а теперь и с ИИ в коммерческом секторе. К официальной статистике обращаются когда нет достойных альтернатив, но она почти всегда отстает в актуальности, полноте и соответствию ожиданиям рынка.
Например, Росстат можно сравнить с Почтой России. Вроде как монументальное явление, а WB и Ozon уже существенно почту потеснили. Монумент еще не рухнул, но вызывает очень много вопросов. Так и с Росстатом, вроде он есть и имеет полномочия, а реальной экспериментальной аналитикой и статистикой в РФ занимаются подведы Пр-ва и фед. органов исп. власти.
Росстат лишь как пример близкий, в похожих кризисах находятся статслужбы очень многих стран. Как они изменяться? Вот в этом документе есть некоторые размышления с примерами.
#statistics #readings
от авторов из PARIS21 (The Partnership in Statistics for Development in the 21st Century).
Документ о том что национальные статистические службы в мире находятся в кризисе, а ещё вернее в нескольких кризисах:
- Кризис доверия и легитимности. Растёт политизация данных, а «факты» всё чаще проигрывают «чувствам» в публичной дискуссии.
- Финансовый и институциональный. Статистические службы недофинансируются, а их бюджеты несут всё большую нагрузку по сбору новых показателей (SDG, климат, цифровая экономика).
- Кадровый разрыв. Между хорошо оснащёнными НСО, которые уже экспериментируют с ML и NLP, и бюро, где данные до сих пор собираются на бумаге и обрабатываются в Excel, - пропасть.
Вывод там довольно простой, есть развилка в виде:
- продолжения медленного развития "как есть"
- глубокой трансформации статистических служб
—
Документ ценный краткостью и актуальностью и очень близок к моим собственным размышлениям. Статистические службы наиболее близки по смыслу к "дата-службам", они могли бы (должны бы?) производить оперативную качественную аналитику и поставлять данные, но за десятилетия-столетия своего существования обросли столь объемными фактическими и когнитивными ограничениями что в редких случаях выступают в этой роли.
При это цикл их развития очень медленный в сравнении со всем что творится с данными, а теперь и с ИИ в коммерческом секторе. К официальной статистике обращаются когда нет достойных альтернатив, но она почти всегда отстает в актуальности, полноте и соответствию ожиданиям рынка.
Например, Росстат можно сравнить с Почтой России. Вроде как монументальное явление, а WB и Ozon уже существенно почту потеснили. Монумент еще не рухнул, но вызывает очень много вопросов. Так и с Росстатом, вроде он есть и имеет полномочия, а реальной экспериментальной аналитикой и статистикой в РФ занимаются подведы Пр-ва и фед. органов исп. власти.
Росстат лишь как пример близкий, в похожих кризисах находятся статслужбы очень многих стран. Как они изменяться? Вот в этом документе есть некоторые размышления с примерами.
#statistics #readings
✍6👍5❤4
Osiris open source продукт позиционируемый как альтернатива Palantir.
Включает отображение данных из множества слоев - конфликты, новости, уличные камеры, землетрясения и многое другое.
Я бы сказал что проект скорее "смазливый" чем какой-то другой. Очень подходящий для показа красивых картинок начальству или на каких-то экранах на выставках и очень далекий от практического применения. С развитием ИИ интерфейсы делать стало дешевле чем собрать и правильным образом интегрировать данные. А тут подключены не самые нужные данные, а те что хорошо подсвечены и доступны.
Тем не менее польза и от этого есть.
Код под MIT, визуализация с помощью MapLibre
#opensource #analytics
Включает отображение данных из множества слоев - конфликты, новости, уличные камеры, землетрясения и многое другое.
Я бы сказал что проект скорее "смазливый" чем какой-то другой. Очень подходящий для показа красивых картинок начальству или на каких-то экранах на выставках и очень далекий от практического применения. С развитием ИИ интерфейсы делать стало дешевле чем собрать и правильным образом интегрировать данные. А тут подключены не самые нужные данные, а те что хорошо подсвечены и доступны.
Тем не менее польза и от этого есть.
Код под MIT, визуализация с помощью MapLibre
#opensource #analytics
🤔6❤🔥5🔥5🤨2
Радует что в ответ на мой запрос про парсинг НЭБа сразу несколько откликов, ожидаемо какого-то простого решения нет и парсинг займет некоторое осмысленное время, однако сама задача привела меня к мысли о том какими сейчас могут быть конкурсы и хакатоны про открытые данные.
Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.
Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.
Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.
И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.
У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.
Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.
Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).
Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.
#opendata #thoughts
Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.
Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.
Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.
И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.
У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.
Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.
Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).
Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.
#opendata #thoughts
Telegram
Ivan Begtin
Я все забываю написать что у меня "висит" давняя задача по сбору метаданных из НЭБа (Национальная электронная библиотека) rusneb.ru
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания,…
Там, с одной стороны, почти 5.5 миллионов материалов только тех что в свободном доступе и 51 миллион где только описания,…
👍11🔥9❤5✍3❤🔥2
Я вот тут столкнулся с тем что сам осваивал все что касается программирования ИИ агентами и применения ИИ в целом самостоятельно и на практике в основном, но регулярно в окружении есть люди которым нужно быстрое погружение, а материалов как раз про быстрое погружение у меня на руках нет.
Посоветуйте:
1. Что можно порекомендовать почитать про развитие ИИ в последние годы в сжатом виде для людей старшего возраста которые не имеют о теме ИИ глубокого представления, но обладают хорошим техническим образованием и бэкграундом. Понятно что практические материалы устаревают (обновляются) чуть ли не ежемесячно, и на смену RAG пришло уже много всего другого, как пример. Но наверняка есть хороший материал/книга/бесплатный курс быстрого погружения.
2. Какие курсы дают реальное быстрое погружение в Cursor, Antigravity, Claude Code и другие ИИ агенты для кодирования с нуля под задачи программирования и анализа данных. Курсов много, большая часть очень сомнительного качества. Что есть наиболее полезного сейчас? Критерий качества для меня - это "я на эти курсы готов отправить всех разработчиков", но никак не "я этот курс сделал, он отличный".
#questions #ai
Посоветуйте:
1. Что можно порекомендовать почитать про развитие ИИ в последние годы в сжатом виде для людей старшего возраста которые не имеют о теме ИИ глубокого представления, но обладают хорошим техническим образованием и бэкграундом. Понятно что практические материалы устаревают (обновляются) чуть ли не ежемесячно, и на смену RAG пришло уже много всего другого, как пример. Но наверняка есть хороший материал/книга/бесплатный курс быстрого погружения.
2. Какие курсы дают реальное быстрое погружение в Cursor, Antigravity, Claude Code и другие ИИ агенты для кодирования с нуля под задачи программирования и анализа данных. Курсов много, большая часть очень сомнительного качества. Что есть наиболее полезного сейчас? Критерий качества для меня - это "я на эти курсы готов отправить всех разработчиков", но никак не "я этот курс сделал, он отличный".
#questions #ai
✍14❤5👍4🤔2⚡1
Еще одна свежая спецификация Website Spec на сей раз для создания современных сайтов. Казалось бы ничего радикально нового - списки обязательных и рекомендуемых стандартов и лучших практик, начиная от наличия важных атрибутов таких как кодировка и doctype у html и продолжая множеством других практик, стандартов и так далее. Важное отличие от любых других чеклистов в том что эта спецификация для LLM и ИИ агентов. Имеются описания для SKILLS, llms.txt, MCP и многое другое.
Разумно там буквально все, что-то реализуется при разработке кода, что на серверном уровне.
Автор явно думал над тем что делал и спецификация выглядит разумно-расширяемой.
Полезно для всех кто проектирует и разрабатывает сайты с помощью ИИ, разрабатывает дизайн и актуализирует существующие сайты.
#specifications #tools
Разумно там буквально все, что-то реализуется при разработке кода, что на серверном уровне.
Автор явно думал над тем что делал и спецификация выглядит разумно-расширяемой.
Полезно для всех кто проектирует и разрабатывает сайты с помощью ИИ, разрабатывает дизайн и актуализирует существующие сайты.
#specifications #tools
👍7✍4
По поводу блокировок в России Pypi, репозитория библиотек кода для Python и заявлений Роскомнадзора по поводу того что "это не они", все довольно просто. Pypi как и тысячи других сервисов в мире используют CDN, в данном случае сервис Fastly. Вот его Роскомнадзор уже несколько раз блокировал в предыдущих блокировках других ресурсов. Сейчас, я подозреваю, в очередной раз блокировали что-то еще использующее Fastly и затронули Pypi "случайно". Что РКН не оправдывает и не оправдывало никогда.
Проблема в том что таких инцидентов будет больше. Из-за наплыва ИИ агентов все больше онлайн ресурсов используют CDN'ы, просто из-за роста трафика, из-за задач блокировки ИИ агентов и краулеров, из-за роста нагрузки на инфраструктуру.
#thoughts #comments #russia
Проблема в том что таких инцидентов будет больше. Из-за наплыва ИИ агентов все больше онлайн ресурсов используют CDN'ы, просто из-за роста трафика, из-за задач блокировки ИИ агентов и краулеров, из-за роста нагрузки на инфраструктуру.
#thoughts #comments #russia
👍14🕊6💯3
Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом
#opendata #opensource #ai #tools
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом
#opendata #opensource #ai #tools
Redistricting Data Hub
We have all the redistricting data you need to draw or analyze Community of Interest or District maps
✍5
В рубрике закрытых открытых данных в России Минтранс РФ уже полгода как не публикует статистический бюллетень "Транспорт России". Последний бюллетень размещался у них на сайте 11 декабря 2025 года и за 9 месяцев 2025 года, а до этого 8 сентября, а до этого 9 июня, а до этого 14 марта.
То есть бюллетень публиковался примерно через 2.5 месяца после прошлого отчетного периода и в 2026 году до 15 марта должен был быть опубликован бюллетень за 2025 год, а до середины июня (в течении 10 дней от сегодня) ожидался бы бюллетень за первый квартал 2026 года.
Но бюллетеня за 2025 год нет, почему непонятно, анонсов на сайте Минтранса РФ я лично тоже не видел.
Записываем этот случай в очередной пример закрытия официальной статистики в РФ.
#opendata #closeddata #russia
То есть бюллетень публиковался примерно через 2.5 месяца после прошлого отчетного периода и в 2026 году до 15 марта должен был быть опубликован бюллетень за 2025 год, а до середины июня (в течении 10 дней от сегодня) ожидался бы бюллетень за первый квартал 2026 года.
Но бюллетеня за 2025 год нет, почему непонятно, анонсов на сайте Минтранса РФ я лично тоже не видел.
Записываем этот случай в очередной пример закрытия официальной статистики в РФ.
#opendata #closeddata #russia
✍5😢2⚡1❤🔥1
Полезные ссылки про данные, технологии и не только:
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.
#opensource #data #tools
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.
#opensource #data #tools
GitHub
GitHub - microsoft/coreutils: Coreutils for Windows: Installer & Packaging
Coreutils for Windows: Installer & Packaging. Contribute to microsoft/coreutils development by creating an account on GitHub.
👍3