В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Telegram
Ivan Begtin
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского…
Про "российский мессенжер" на базе VK идёт много разговоров после выступления Максута Шадаева, я бы тоже поиронизировал, да и почему "мессенжер", а не "вестоноша", к примеру, но давайте серьёзнее что так и что не так.
Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.
Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.
Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.
Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогдакузнец VK? Кузнец VK тут не нужен
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)
#russia #digital
Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.
Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.
Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.
Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогда
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)
#russia #digital
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.
Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом
кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту
Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций
Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API
Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian
Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования
Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜
Список неполный, ещё большая коллекция инструментов для локальных LLM
Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.
#personal #software #recovery
Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом
кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту
Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций
Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API
Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian
Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования
Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜
Список неполный, ещё большая коллекция инструментов для локальных LLM
Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.
#personal #software #recovery
В рубрике полезных ссылок про данные, технологии и не только:
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.
#opensource #analytics
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.
#opensource #analytics
Forwarded from ministryofpoems
Сделано_людьми_Последняя_рукопись.pdf
79.9 KB
Отчаяние толкает нас на безумные поступки. Такие как, например, прийти в тюрьму и сказать "Посадите меня!", но это было бы слишком просто, да бесплатно ныне в тюрьму не сядешь. Нужно совершить что-то достаточно преступное чтобы тебя арестовали, но недостаточно чтобы тебе вживили чип и отправили на общественные работы. Времена то поменялись, когда-то общественные работы - это было самое лёгкое наказание, идёшь себе метёшь улицы или работаешь санитаром. Всё то наказание - это убирать гавно и уставать до изнеможения, а тюрьма была настоящим наказанием. Всё теперь наоборот, тюрьма - это чуть ли не единственный способ изолироваться от общества, а "общественные работы" теперь это когда тебе внедряют чип-зомби в голову и ты беснуешься внутри своего тела пока оно тебе не принадлежит и выполняет всю ту же грязную работу.
Но я не убийца и не вор – я писатель, которого обвинили в самом страшном преступлении нашего времени: в использовании искусственного интеллекта для создания своих произведений ...
Но я не убийца и не вор – я писатель, которого обвинили в самом страшном преступлении нашего времени: в использовании искусственного интеллекта для создания своих произведений ...
Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉
Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.
Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.
GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.
ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.
Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.
Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.
#opendata #datasets #geodata #search
Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.
Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.
GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.
ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.
Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.
Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.
#opendata #datasets #geodata #search
Свежий The AI Policy Playbook [1] документ с обзор политики в области ИИ в ряде стран Глобального Юга и рекомендаций. В списке Гана, Индия, Индонезия, Кения, Руанда, Южная Африка и Уганда. Для тех кто изучает эти страны и ИИ политику в мире в целом будет полезно.
Документ опубликован в рамках программы FAIR Forward, поддержки Пр-вом Германии развивающихся стран, чем, собственно, выбор стран и обусловлен, ибо это страны их присутствия и активности.
Ссылки:
[1] https://www.bmz-digital.global/wp-content/uploads/2025/05/AI-Playbook-2025-WEB-1.pdf
#ai #policies #readings
Документ опубликован в рамках программы FAIR Forward, поддержки Пр-вом Германии развивающихся стран, чем, собственно, выбор стран и обусловлен, ибо это страны их присутствия и активности.
Ссылки:
[1] https://www.bmz-digital.global/wp-content/uploads/2025/05/AI-Playbook-2025-WEB-1.pdf
#ai #policies #readings
Как в мире публикуют геоданные? Крупнейший коммерческий игрок - это компания ArcGIS с их облачными и корпоративными продуктами. В России все активно импортозамещаются на NextGIS, есть и другие коммерческие ГИС продукты и онлайн сервисы.
Однако в мире открытого кода наиболее популярные гео каталога данных - это Geonetwork, GeoNode и, с некоторым допущением, GeoServer.
Geonetwork - это OGC совместимый каталог георесурсов, включая файлы, внешние ссылки. Его активно применяют в Латинской Америке и Евросоюзе, например, EEA geospatial data catalogue, также Geonetwork хорошо расширяется метаданными и используется в Европейской инициативе INSPIRE по публикации системно значимых геоданных странами участниками ЕС. Geonetwork правильнее всего рассматривать как поисковик и агрегатор. В реестре каталогов данных Dateno 568 инсталляций Geonetwork
GeoNode - это продукт наиболее приближенный именно к каталогу данных. Его используют для публикации данных вручную и он поддерживает множество стандартов доступа к данным, включая DCAT для порталов открытых данных. Например, его использует Правительство Казахстана как Геопортал НИПД. В реестре каталогов Dateno 295 записей о каталогах данных на базе Geonode.
И, наконец, Geoserver - это один из наиболее популярных open source геопродуктов, используется повсеместно для публикации слоёв карт и других данных как OGC сервисов. В реестре Dateno 1111 таких серверов. Главный недостаток - это отсутствие/неполнота метаданных, которые чаще описываются в надстройке поверх данных внутри Geoserver.
В России всего 22 инсталляции на базе этих продуктов, большая часть из них недоступна с IP адресов не из российских подсетей. Для сравнения, в странах ЕС их более 600, не считая других геопорталов.
#opendat #datacatalogs #opensource #data #geodata #geonetwork #geonode #geoserver
Однако в мире открытого кода наиболее популярные гео каталога данных - это Geonetwork, GeoNode и, с некоторым допущением, GeoServer.
Geonetwork - это OGC совместимый каталог георесурсов, включая файлы, внешние ссылки. Его активно применяют в Латинской Америке и Евросоюзе, например, EEA geospatial data catalogue, также Geonetwork хорошо расширяется метаданными и используется в Европейской инициативе INSPIRE по публикации системно значимых геоданных странами участниками ЕС. Geonetwork правильнее всего рассматривать как поисковик и агрегатор. В реестре каталогов данных Dateno 568 инсталляций Geonetwork
GeoNode - это продукт наиболее приближенный именно к каталогу данных. Его используют для публикации данных вручную и он поддерживает множество стандартов доступа к данным, включая DCAT для порталов открытых данных. Например, его использует Правительство Казахстана как Геопортал НИПД. В реестре каталогов Dateno 295 записей о каталогах данных на базе Geonode.
И, наконец, Geoserver - это один из наиболее популярных open source геопродуктов, используется повсеместно для публикации слоёв карт и других данных как OGC сервисов. В реестре Dateno 1111 таких серверов. Главный недостаток - это отсутствие/неполнота метаданных, которые чаще описываются в надстройке поверх данных внутри Geoserver.
В России всего 22 инсталляции на базе этих продуктов, большая часть из них недоступна с IP адресов не из российских подсетей. Для сравнения, в странах ЕС их более 600, не считая других геопорталов.
#opendat #datacatalogs #opensource #data #geodata #geonetwork #geonode #geoserver
В рубрике интересных стартапов про данные и аналитику Pandas AI [1] открытый, но не свободный (!) продукт по подключению ИИ к анализу датафреймов в Pandas. К конкретному датафрейму можно формулировать вопросы/запросы и получать структурированные и визуальные ответы.
Идея интересная, поддерживает стартап Y-Combinator, но лично я его рекомендовать к использованию не буду и вот почему:
1. Это не local-first продукт, для работы обязательно регистрироваться в их облачном сервисе и получать ключ.
2. Много вопросов с защитой данных. Они проходят двух провайдеров - собственно Pandas AI и выбранной облачной LLM. Причём с облачной LLM как прямых никаких отношений нет, при утечке данных повлиять на это сложно.
В остальном идея, безусловно, неплохая, но в облаке только как часть решения. Условно если у меня всё в Azure, GCS или в AWS то не проблема подключить API для ИИ передавать данные, они и так там. А какой-толевый внешний сервис непроверенный провайдер - это никуда не годится.
Ссылки:
[1] https://github.com/sinaptik-ai/pandas-ai
#opensource #ai #pandas #dataanalytics
Идея интересная, поддерживает стартап Y-Combinator, но лично я его рекомендовать к использованию не буду и вот почему:
1. Это не local-first продукт, для работы обязательно регистрироваться в их облачном сервисе и получать ключ.
2. Много вопросов с защитой данных. Они проходят двух провайдеров - собственно Pandas AI и выбранной облачной LLM. Причём с облачной LLM как прямых никаких отношений нет, при утечке данных повлиять на это сложно.
В остальном идея, безусловно, неплохая, но в облаке только как часть решения. Условно если у меня всё в Azure, GCS или в AWS то не проблема подключить API для ИИ передавать данные, они и так там. А какой-то
Ссылки:
[1] https://github.com/sinaptik-ai/pandas-ai
#opensource #ai #pandas #dataanalytics
Свежий любопытный проект по культурному наследию, на сей раз Шотландии - trove.scot явно названному по аналогии с гигантским австралийским проектом Trove с теми же функциями, но по всему культурному наследию Австралии.
Шотландский проект включает 1.2 миллиона изображений, иных архивных записей, объектов, мест и тд. относящихся к Шотландии прямо или косвенно. Например, фотографии Архангельска куда заходили шотландские рыбаки. Часть данных доступны как файлы наборов данных и слои карт WFS/WMS
#opendata #culturalheritage #uk #scotland
Шотландский проект включает 1.2 миллиона изображений, иных архивных записей, объектов, мест и тд. относящихся к Шотландии прямо или косвенно. Например, фотографии Архангельска куда заходили шотландские рыбаки. Часть данных доступны как файлы наборов данных и слои карт WFS/WMS
#opendata #culturalheritage #uk #scotland
Для тех кто любит гиперлокальные данные, наконец-то доступны в открытом доступе наборы данных с хакатона СберИндекс.
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
sberindex.ru
Data → Sense: Результаты Хакатона СберИндекса по муниципальным данным
7 июня прошел Хакатон Лаборатории СберИндекс Data -> Sense, посвященный муниципальным данным
Я тут регулярно пишу про Dateno наш поисковик по открытым и иным общедоступным данным, у нас там сейчас уже более 22 миллионов датасетов, слоёв карт и временных рядов и мы работаем над расширением объёма. Однако есть и другой фронт работы - повышение удобства для пользователей. В моём изначальном видении пользователи хотят API (в самом деле ну какие пользователи не хотят API, лично я всегда использую API когда есть возможность). Сейчас наш основной API - это упрощённый поиск, им можно пользоваться чтобы находить данные и получив карточку записи выкачивать ресурсы.
Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)
Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!
#dateno #opendata #datasearch #api
Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)
Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!
#dateno #opendata #datasearch #api
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.