Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
GitHub
GitHub - Kanaries/pygwalker: PyGWalker: Turn your dataframe into an interactive UI for visual analysis
PyGWalker: Turn your dataframe into an interactive UI for visual analysis - Kanaries/pygwalker
👍8✍5🔥5
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
ArcKit
ArcKit - The Enterprise Architecture Governance Harness
One governance harness that wraps your AI coding assistant for systematic, compliant, audit-ready architecture governance. UK Government baseline plus community jurisdiction and sector overlays (EU, France, Austria, Canada, UAE, Australia, USA, UK Finance…
👍4🔥2
Я вчера практически весь день провел на CAIGF (Central Asian Intenet Governance Forum), говорил, как всегда про данные, рассказывал немного про Dateno и Open Data Armenia, про дефицит открытых данных в странах Центральной Азии, сильном сдвиге публикации данных в сторону ИИ, в том что важно устанавливать приоритет на дата продукты и о том что вне зависимости от того открыты данные или нет, должны быть доступны метаданные и четкие условия доступа к данным разного типа, от полностью открытых (открытые данные под свободными лицензиями) до доступных ограниченному числу пользователей по четким регламентам.
Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.
Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.
#opendata #data #conferences #centralasia #thoughts
Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.
Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.
#opendata #data #conferences #centralasia #thoughts
🔥10❤6✍5👌2
Flowfile визуальный ETL инструмент внутри которого Polars и который создает код для Polars в процессе. Лицензия MIT, выглядит довольно неплохо, хотя и не охватывает большого числа возможностей других ETL.
Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.
#opensource #dataengineering #data #datatools
Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.
#opensource #dataengineering #data #datatools
🔥9👍5❤🔥3🕊2
Я раньше не отмечал, а сейчас заглянул на сайт International Budget Partnership и оказывается что они начали публиковать результаты обзора открытости бюджетов стран за 2025 год итеративно. Сейчас уже разместили по паре десятков стран и до 23 июня будут продолжать это делать пока 23 числа не опубликуют глобальный отчет. Ловкий маркетинговый ход, что скажешь, и подписаться на уведомления можно.
Из постсоветских стран за 2025 год уже доступны обзоры по Армении, Кыргызстану, Таджикистану, Украине.
По всем остальным можно пока посмотреть обзоры за 2023 год.
Тут важно помнить что исследования IBP, в первую очередь, про открытость для профессионалов, критерии оценки определяют соблюдения требований к раскрытию документов в рамках бюджетного процесса: проекта бюджета, изменений, финальной редакции, промежуточных отчетов, результатов аудита и так далее. А также формальный, законодательно закрепленный, надзор за бюджетом и наличие инструментов и механизмов вовлечения граждан в бюджетный процесс.
Это все важно для аналитиков бюджетных данных, для исследователей и журналистов, но это далеко не все. К примеру, обзоры IBP не покрывают публикацию данных о бюджете, детальные росписи бюджетов, отчетов об исполнении и других данных в машиночитаемой форме и тд.
И еще наблюдение что не все страны IBP охватываются, даже развитые. К примеру, я не видел их обзоров по Израилю, Швейцарии, Греции, Кипру и многим развивающимся странам.
Поэтому оценки эти интересны, но в моем понимании не полны.
#opendata #data #budgets #transparency
Из постсоветских стран за 2025 год уже доступны обзоры по Армении, Кыргызстану, Таджикистану, Украине.
По всем остальным можно пока посмотреть обзоры за 2023 год.
Тут важно помнить что исследования IBP, в первую очередь, про открытость для профессионалов, критерии оценки определяют соблюдения требований к раскрытию документов в рамках бюджетного процесса: проекта бюджета, изменений, финальной редакции, промежуточных отчетов, результатов аудита и так далее. А также формальный, законодательно закрепленный, надзор за бюджетом и наличие инструментов и механизмов вовлечения граждан в бюджетный процесс.
Это все важно для аналитиков бюджетных данных, для исследователей и журналистов, но это далеко не все. К примеру, обзоры IBP не покрывают публикацию данных о бюджете, детальные росписи бюджетов, отчетов об исполнении и других данных в машиночитаемой форме и тд.
И еще наблюдение что не все страны IBP охватываются, даже развитые. К примеру, я не видел их обзоров по Израилю, Швейцарии, Греции, Кипру и многим развивающимся странам.
Поэтому оценки эти интересны, но в моем понимании не полны.
#opendata #data #budgets #transparency
International Budget Partnership
Open Budget Survey
International Budget Partnership -
👍5🔥4✍1
В рубрике как это устроено у них продолжение про открытые данные Всемирного Банка.
- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени
#opendata #datasets #datacatalogs #data #statistics
- https://datacatalog.worldbank.org/ - каталог данных Всемирного Банка собранный из многочисленных проектов организации и проектов ей профинансированных. Более 7 тысяч наборов данных, зачастую довольно большого объема
- https://data.worldbank.org - портал статистики и индикаторов публикуемой Всемирным Банком (агрегируемой из национальных и международных источников)
- https://data360.worldbank.org/en/economies - новый портал статистики Всемирного Банка, замещает разделы и страницы портала data.worldbank.org
- https://databank.worldbank.org/ - портал статистики в виде BI системы с возможностью визуализации показателей из базы индикаторов Всемирного Банка
- https://disabilitydata.worldbank.org/en/home - данные проекта по людям. с ограниченными возможностями
- https://wbl.worldbank.org/en/data - данные проекта Women Business and the Law
- https://ssbtax.worldbank.org/ - база данных по налогам на сладкие напитки (напитки подслащенные сахаром). Выгружается через каталог данных
- https://digitalfinance.worldbank.org/country - данные проекта по цифровым финансам (можно скачать в Excel)
- https://opendatatoolkit.worldbank.org - руководство Всемирного Банка по публикации открытых данных, подробный гайдлайн
- https://wits.worldbank.org/ - база данных по международной торговле включая API
_ https://reproducibility.worldbank.org/home - портал воспроизводимости исследований включая код, документацию и данные необходимые для воспроизведени
#opendata #datasets #datacatalogs #data #statistics
datacatalog.worldbank.org
World Bank Data Catalog
The Data Catalog is designed to make World Bank's development data easy to find, download, use, and share. It includes data from the World Bank's microdata...
✍3👍3🔥3😁2
Интересные международные базы данных охватывающие почти все или многие страны мира:
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо
#opendata #data #datasets #statistics #transport #energy #climate #aviation
- EDGAR - Emissions Database for Global Atmospheric Research https://edgar.jrc.ec.europa.eu/ - база по выбросам в атмосферу по всему миру, охватывает 220 стран, создается в рамках программы ЕС . Охватывает 54 года
- EMBER Energy Data https://ember-energy.org/ - портал с датасетами и показателями по энергетике, ведется одноименным британским мозговым центром, собирают данные из разных официальных источников
- OpenNetZero https://opennetzero.org - каталог данных с датасетами по теме снижения выбросов парниковых газов, данные и статистика по возобновляемой энергии и не только
- Aviation Intelligence Portal https://ansperformance.eu - портал с данными по полетам/авиации в Европейском союзе, редкий случай когда за авиационные данные и статистику не берут деньги. Позволяет, например, смотреть на статистику полетов по странам как показатель идущего кризиса роста цен на авиатопливо
#opendata #data #datasets #statistics #transport #energy #climate #aviation
Ember
Home | Ember
Ember is a global energy think tank that aims to accelerate the clean energy transition with data and policy.
✍5⚡3🔥3
Мысли вслух по поводу применения ИИ для создания наборов данных. Многие российские ведомства за последние годы удалили немало статистических данных и других датасетов, отчетов и докладов со своих сайтов, но, на самом деле, произошло примерно следующее. Данные пропали в структурированном виде, но фрагментарно публикуются их пресс-службами в виде агргеированных цифр и, реже, публикуются разного рода отраслевыми изданиями.
Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".
Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.
Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.
Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.
А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.
В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.
#opendata #data #thoughts
Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".
Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.
Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.
Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.
А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.
В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.
#opendata #data #thoughts
✍8👍6❤4😁1
Я как-то уже делал заметку про публикацию статистики статкомитетом СНГ и вот сейчас изучая их ресурсы обнаружил что это чуть ли не один из немногих системно организованных ресурсов статистики на постсоветском пространстве (не считая стран Балтии интегрированных в Евростат).
Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI
Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.
Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).
Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.
Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.
Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.
#opendata #datasets #data #datacatalogs #statistics
Например, у них есть полноценный каталог связанных данных, а также SPARQL Endpoint и OpenAPI
Это помимо того что у них есть база знаний с основными понятиями и собственно база метаданных с хабом данных.
Все это, конечно, технологически выглядит как продукты примерно 10-летней давности. Сейчас статистику ожидаешь в интерфейсах для массовой выгрузки, форматах Parquet, или в интерфейсах SDMX не самописных, а более принятых в международных организциях, но то что есть производит хорошее впечатление. Ощущение того что внутри есть команда которая понимает как делать правильно, разве что не вполне знает современные технологии (или не имеет на них бюджета).
Что характерно, Статкомитет СНГ сидит в том же здании что и Росстат, но у Росстата ни базы знаний, ни каталога связанных данных не наблюдается. Даже не буду гадать почему.
Проблема же с данными Статкомитета СНГ собственно в статусе самого СНГ и оперативности сбрра данных. Современные потребители статистики устроены так что выбирая между плохо подготовленными актуальными данными и прекрасно подготовленными неактуальными данные они выберут всегда первое. Актуальность и оперативность аналитики - это ключевой смысл современной корпоративной и публичной аналитики, данные годовых показателей нужны кратно меньше чем ежемесячных или более частотных.
Хотя, к примеру, индекс потребительских цен в их базе обновляется ежемесячно и в мае доступен за март месяц. уже неплохо и какие то другие оперативные ежеквартальные и ежемесячные данные есть.
#opendata #datasets #data #datacatalogs #statistics
👍5❤4✍3⚡1
В рубрике как это устроено у них каталог открытых данных платформы SENSE в Великобритании data.sdr-sense.org.uk включает данные энергетического сектора страны. Его особенность в том что он включает как открытые данные и регламентированные (safeguarded) данные доступ к которым можно получить только по запросу. При этом подробные метаданные доступны к каждому датасету и можно заранее понять какие именно данные там доступны.
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
Еще одна особенность в том что даже открытые данные там так просто не скачать, данные выгружаются не автоматически, а через форму запроса.и на каждый запрос создается задача (job) по выгрузке данных под конкретного пользователя.
Для данных ограниченного доступа - это норм механизм, для открытых данных он очень странный, скорее ограничивающий использование.
Наборов данных там немного, так что массовым явлением называть это нельзя.
Разработчик этого и ряда других каталогов данных и метаданных для исследователей - это MetadataWorks, стартап из Великобритании. Открытого кода у них нет, зато чуть более смазливый интерфейс чем более принятых среди госорганов CKAN'а и чем у принятого в университетах США Dataverse. А также большая панель проверок набора данных на нарушение интеллектуальных прав, чувствительность данных и так далее.
Я бы сказал что российским госорганам на заметку, в последнее время даже такой подход контроля чувствительных данных уступает их исчезновению.
#opendata #datacatalogs #datasets #data
👍5⚡1
Data Not Found любопытный доклад про прозрачность данных социальных сетей, в первую очередь для регуляторов и исследователей. Охватывает регулирование ЕС, Бразилии и Великобритании, весьма любопытное по содержанию, не очень практическое лично для меня сейчас - не вижу практического применения. Хотя один аспект важен - нет оценки возможности архивации содержания соц сетей, или же он явно недостаточен. Есть упоминание про оценку доступности данных через API, но это не одно и то же.
#data #readings
#data #readings
👍3❤1
Полезные ссылки про данные, технологии и не только:
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.
#opensource #data #tools
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.
#opensource #data #tools
GitHub
GitHub - microsoft/coreutils: Coreutils for Windows: Installer & Packaging
Coreutils for Windows: Installer & Packaging. Contribute to microsoft/coreutils development by creating an account on GitHub.
👍4⚡1✍1
Data.gov: Implementation and Perspectives on Its Functions на сайте Конгресса США обзор истории портала Data.gov и перспектив его развития. Документ в форме отчета Конгресса, написан очень бюрократизированным языком, читать его непросто, хотя и интересно.
А заодно полезно для понимания проблем с которыми сталкиваются при разработке порталов открытых данных. Data.gov в довольно запущенном состоянии уже давно, как и ряд других национальных порталов открытых данных.
#opendata #usa #data #datacatalogs
А заодно полезно для понимания проблем с которыми сталкиваются при разработке порталов открытых данных. Data.gov в довольно запущенном состоянии уже давно, как и ряд других национальных порталов открытых данных.
#opendata #usa #data #datacatalogs
👍2✍1