Когда-то я делал похожий инструмент, набор библиотеки и тетрадки Jupyter для работы с бюджетными данными в РФ. Он дергал отчеты Федерального казначейства и данные из систем Минфина РФ и давал возможность проводить аналитику над этими данными разными способами и инструментами. Честно говоря я это всё подзабросил после ухода из Счетной палаты где это было актуально, а сейчас есть ограниченное применение у таких данных (но оно есть конечно).
А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.
Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.
#opendata #armenia #budget
А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.
Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.
#opendata #armenia #budget
❤1
Forwarded from Open Data Armenia
Для тех кто интересуется открытыми данными по государственным финансам в Армении, отличная инициатива Armenian State Budget Tools в виде открытого исходно кода и данных на Github.
Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.
Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.
Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!
Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am
#opendata #budget #armenia
Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.
Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.
Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!
Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am
#opendata #budget #armenia
GitHub
GitHub - gituzh/armenian-budget-tools
Contribute to gituzh/armenian-budget-tools development by creating an account on GitHub.
👍4
В рубрике интересных наборов данных, данные по международной торговли из проекта PortWatch Международного валютного фонда (IMF). От классических измерений международной торговли они отличаются тем что состоят из фактов мониторинга портозаходов грузовых кораблей в порты и на основе этого и их тоннажа и типа корабля оценка объёма грузоперевозок.
Ежедневная оценка активности порта и объёма торговли по множеству портов и с 2019 года
Для проекта используются данные собираемые в рамках UNGP (UN Global Platform).
Де-факто это данные коммерческого поставщика Spire торгующего данными спутникового мониторинга, в числе, судов по их сигналам AIS и сопоставленные с данными FleetMon и других реестров параметров судов.
Конечно, эти данные только статистика, не указывая конкретных судов и без охвата судов с отключенными транспондерами AIS.
Тем не менее всего там более 5 миллионов рядов на основе которых можно делать визуализации или анализировать экономическую активность по странам и регионам.
#opendata #datasets #trade
Ежедневная оценка активности порта и объёма торговли по множеству портов и с 2019 года
Для проекта используются данные собираемые в рамках UNGP (UN Global Platform).
Де-факто это данные коммерческого поставщика Spire торгующего данными спутникового мониторинга, в числе, судов по их сигналам AIS и сопоставленные с данными FleetMon и других реестров параметров судов.
Конечно, эти данные только статистика, не указывая конкретных судов и без охвата судов с отключенными транспондерами AIS.
Тем не менее всего там более 5 миллионов рядов на основе которых можно делать визуализации или анализировать экономическую активность по странам и регионам.
#opendata #datasets #trade
👍11🔥2
В рубрике интересных наборов данных, презентация от DataCite по их интерфейсам публикации данных в индексе регистрации научных данных. Включает описание REST API, других API, годовых дампов и ежемесячных файлов с изменениями.
Дампы они публикуют на AWS в JSONL формате сжатом Gzip.
Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI
Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.
Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.
#opendata #datasets
Дампы они публикуют на AWS в JSONL формате сжатом Gzip.
Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI
Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.
Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.
#opendata #datasets
👍4❤1✍1
В рубрике состояния российских открытых данных, про data.gov.ru
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)
Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)
#opendata #russia
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)
Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)
#opendata #russia
😢6🤣5💅4👏2🍌2
Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR
Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все
В основном участники там - это университеты США входящие в ICPSR.
Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week
Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия
#opendata #opengov #events
Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все
В основном участники там - это университеты США входящие в ICPSR.
Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week
Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия
#opendata #opengov #events
👍11🔥4
ecosystem.ckan.org - свежий реестр каталогов открытых данных на базе CKAN, всего 695 сайтов построенных на CKAN и на которых публикуются открытые данные. Создано компанией datHere в рамках научного гранта POSE в США выданного на создание экосистемы открытого ПО.
До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu
Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.
И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.
#opendata #datacatalogs #ckan
До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu
Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.
И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.
#opendata #datacatalogs #ckan
✍4
Давно хочу написать про пуризм в определениях и бесконечные терминологические споры. Значительное число споров вокруг данных и многое в ИТ связано в тем что терминология это то чем очень любят манипулировать пиарщики и маркетологи придавая продвигаемым продуктам свойства схожие с продуктами обладающие ценностными характеристиками, но при этом де-факто ими не обладающие.
Самое популярное искажение вокруг открытого кода. Открытый код - это общедоступный исходный код публикуемый под свободными лицензиями такими как MIT, Apache, BSD и им подобные. Слово открытый, в данном случае, говорит не о том что код можно посмотреть, а о том что он может свободно использоваться в том числе в коммерческих целях.
Но для многих компаний открытость кода - это маркетинговая манипуляция. Они придумывают термины вроде open core, двойное лицензирование и так далее. Всё это делает их продукты не открытым кодом, а кодом доступным онлайн, но лицензии несвободны. Или же есть случаи когда код декларируется как открытый и под свободной лицензией, но доступ к нему можно получить только по запросу. Это тоже не открытый код, чтобы там не говорили те кто пишет что он таков.
С открытыми данными такая же ситуация. Они доступны не по запросу, не после регистрации, не имеют ограничения на коммерческое использование. Принципы открытых данных для того и разрабатывались чтобы создать юридически значимую процедуру публикации данных для их повторного использования. Ожидаемо многие эксплуатируют термин для того чтобы притворяться что они относятся к открытости, сами данные не публикуя. Данные не под свободными лицензиями открытыми не являются, данные доступные по запросу также, их называют данными с регламентированным доступом. Open Data Institute называет их данными в Public Access или Group Based Access. Это нормально если кто-то не хочет давать данные как открытые, но не надо никого обманывать и называть открытыми данными то что таким не является.
Термин большие данные вообще является маркетинговым, он был придуман для продажи инструментов для работы с данными которые достаточно велики чтобы с ними было неудобно работать на десктопе. Его применение довольно широко, определение весьма условно и сейчас, в 2026 году, им пользуются, в основном, те кто не имеет отношения к дата инженерии, data science и тд. В профессиональном обиходе его уже нет, используют его те кто, или оторван от рынка данных, или пытаются напихнуть buzzword'ов в свою речь. Разговоры в стиле мы используем большие данные быстро выдают непрофессионала.
В России часто придумывание новых терминов происходит как оборонительная тактика при защите бюджета. Упоминая одни термины можно оказаться в ситуации что они относятся к сфере которая уже регламентирована или к теме у которой есть владелец и при придумывании новых госпрограмм и госпроектов немало усилий придумщики тратян на то чтобы избежать использования одних терминов и использовать новые.
А с какими терминологическими искажениями вы сталкиваетесь? Что с ними делаете?
#opendata #opensource #thoughts #questions
Самое популярное искажение вокруг открытого кода. Открытый код - это общедоступный исходный код публикуемый под свободными лицензиями такими как MIT, Apache, BSD и им подобные. Слово открытый, в данном случае, говорит не о том что код можно посмотреть, а о том что он может свободно использоваться в том числе в коммерческих целях.
Но для многих компаний открытость кода - это маркетинговая манипуляция. Они придумывают термины вроде open core, двойное лицензирование и так далее. Всё это делает их продукты не открытым кодом, а кодом доступным онлайн, но лицензии несвободны. Или же есть случаи когда код декларируется как открытый и под свободной лицензией, но доступ к нему можно получить только по запросу. Это тоже не открытый код, чтобы там не говорили те кто пишет что он таков.
С открытыми данными такая же ситуация. Они доступны не по запросу, не после регистрации, не имеют ограничения на коммерческое использование. Принципы открытых данных для того и разрабатывались чтобы создать юридически значимую процедуру публикации данных для их повторного использования. Ожидаемо многие эксплуатируют термин для того чтобы притворяться что они относятся к открытости, сами данные не публикуя. Данные не под свободными лицензиями открытыми не являются, данные доступные по запросу также, их называют данными с регламентированным доступом. Open Data Institute называет их данными в Public Access или Group Based Access. Это нормально если кто-то не хочет давать данные как открытые, но не надо никого обманывать и называть открытыми данными то что таким не является.
Термин большие данные вообще является маркетинговым, он был придуман для продажи инструментов для работы с данными которые достаточно велики чтобы с ними было неудобно работать на десктопе. Его применение довольно широко, определение весьма условно и сейчас, в 2026 году, им пользуются, в основном, те кто не имеет отношения к дата инженерии, data science и тд. В профессиональном обиходе его уже нет, используют его те кто, или оторван от рынка данных, или пытаются напихнуть buzzword'ов в свою речь. Разговоры в стиле мы используем большие данные быстро выдают непрофессионала.
В России часто придумывание новых терминов происходит как оборонительная тактика при защите бюджета. Упоминая одни термины можно оказаться в ситуации что они относятся к сфере которая уже регламентирована или к теме у которой есть владелец и при придумывании новых госпрограмм и госпроектов немало усилий придумщики тратян на то чтобы избежать использования одних терминов и использовать новые.
А с какими терминологическими искажениями вы сталкиваетесь? Что с ними делаете?
#opendata #opensource #thoughts #questions
The ODI
The Data Spectrum
Discover the Data Spectrum and how it can help you understand the language of data, from close, to shared, to open.
👍15🔥3👏2💯2❤🔥1❤1
В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.
У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.
#opendata #datacatalogs #statistics #ASEAN
У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.
#opendata #datacatalogs #statistics #ASEAN
👍4✍1
Также в рубрике как это устроено у них у Всемирной организации здравоохранения (WHO) существует множество информационных систем и банков данных, начиная с центральной data.who.int и продолжая информационным и системами по региональным блокам. Большая часть из них - это довольно консервативные системы отображения графиков и дашбордов статистики. Но отдельно стоит Western Pacific Health Data Platform (Западно-Тихоокеанская платформа данных о здоровье). Она относительно недавно была обновлена и является гибридом между системой управления статистистикой, визуализации данных и каталога открытых данных. Она содержит 2433 показателя по 38 странам, опубликованные в 4051 наборе данном доступном в форматах CSV, JSON, XLSX, RDATA, Parquet.
Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов
Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)
#opendata #datasets #WHO #datacatalogs
Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов
Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)
#opendata #datasets #WHO #datacatalogs
👍3✍2❤1