Ivan Begtin
9.08K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
И, кстати, не могу не добавить что ЦБ РФ с 2022 года не раскрывает данные по трансграничным переводам в РФ и из РФ http://www.cbr.ru/hd_base/tg/ и теперь чуть ли не один из многих способов узнать о них - это смотреть цифры в других странах, например в Армении. В Армении статистика, к тому же, более гранулярна, не ежеквартальная, а ежемесячная.
👍5
Forwarded from Open Data Armenia
[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz
👍5
За текучкой дел я почти упустил и не успел посмотреть выступления на FOSSDEM и уж совсем упустил податься туда рассказать о том что делаю сам и с командой, тем не менее там много что есть посмотреть по теме данных и открытого кода и по теме Open Research [1] где как раз про открытые данные много.

На что стоит обратить внимание из связанного с данными:
- Updating open data standards [2]
- The French Open Science Monitor: steering the science based on open bibliographic databases [3]
- Unlocking Research Data Management with InvenioRDM [4]
- Cosma, a visualization tool for network synthesis [5]

Там ещё много узкотехнических докладов, не сомневаюсь что многие их если ещё не посмотрели, то посмотрят.

Ссылки:
[1] https://fosdem.org/2024/schedule/track/open-research/
[2] https://fosdem.org/2024/schedule/event/fosdem-2024-3109-updating-open-data-standards/
[3] https://fosdem.org/2024/schedule/event/fosdem-2024-3185-the-french-open-science-monitor-steering-the-science-based-on-open-bibliographic-databases/
[4] https://fosdem.org/2024/schedule/event/fosdem-2024-3452-unlocking-research-data-management-with-inveniordm/
[5] https://fosdem.org/2024/schedule/event/fosdem-2024-3394-cosma-a-visualization-tool-for-network-synthesis/

#opendata #data #events
👍4
Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] https://t.me/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime
😢7
Forwarded from Инфокультура
“Госзатратам” 10 лет!

4 февраля 2014, ровно 10 лет назад, был запущен проект “Госзатраты” (clearspending.ru) - один из первых в России информационно-аналитических проектов, направленных на повышение осведомленности граждан о состоянии, тенденциях, проблемах и рисках в сфере планирования и исполнения государственных расходов.

10 лет “Госзатрат” - это 10 тысяч уникальных посетителей в сутки (а за 10 лет - уже 16 миллионов), 53 миллиона просмотренных страниц и данные о 55 миллионах контрактов.

Вот уже 10 лет мы непрерывно скачиваем портала Госзакупок данные о госконтрактах, преобразовываем их и предоставляем разработчикам в формате API.

С 2014 по 2019 год мы активно проводили онлайн и офлайн-мероприятия – хакатоны и семинары по тематике госфинансов, команда проекта принимала участие в «Днях открытых данных».

С 2019 года по июль 2023 года наша команда разрабатывала проект СП РФ “Госрасходы” (spendging.gov.ru), поэтому “Госзатраты” оставались в режиме поддержки. Но, с учетом регулярно обновляющейся схемы данных портала госзакупок, работы нам и в этот период хватало :).

В конце 2023 года мы вернулись к активной разработке проекта и скоро представим вам новую базу данных и обновленный альфа-версию обновленного сайта проекта. Мы будем вести разработку в “открытом режиме”, поэтому у всех пользователей будет возможность протестировать и привыкнуть к новому интерфейсу, оставить обратную связь и предложения по новому функционалу. Предложения и комментарии можно будет оставлять в комментариях к этому посту или на почту oparkhimovich@infoculture.ru.

Также мы заранее анонсируем необходимость авторизации для использования API проекта, но у вас будет достаточно времени для регистрации и перехода на новую схему данных.

Благодарим всех наших пользователей, разработчиков, использующих API и открытые данные, поставщиков данных (Минфин России и Казначейство России, надеемся, что данные останутся доступными) и, конечно, команду проекта.
🔥63🎉31
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
😢212💊2👍1😱1
В качестве регулярных напоминаний, помимо этого телеграм канала я время от времени пишу на других площадках:
- рассылка лонгридов на Substack на русском языке https://begtin.substack.com/
- блог в Medium на английском языке https://medium.com/@ibegtin
- в Фэйсбук'е https://www.facebook.com/ibegtin (почти дублируется с телеграм каналом)
- в VK https://vk.com/ivbeg пишу сильно реже, мне как и многим эта соцсеть не нравится, но часть аудитории там.

А также другие телеграм каналы:
- Инфокультура https://t.me/infoculture с анонсами проектов и новостями АНО Инфокультура
- Национального цифрового архива https://t.me/ruarxive о архивации цифрового русскоязычного и российского контента
- проекта Госзатраты https://t.me/clearspending - ведут мои коллеги в Инфокультуре, в основном туда роботы постят инфу про интересные госконтракты. Вот уже много лет
- Open Data Armenia https://t.me/opendatam - телеграм канал Open Data Armenia, армянской НКО которую я возглавляю (Yes hay em) и где на трёх языках: английском, армянском и русском про открытые данные в Армении


#readings #opendata #russia #armenia #telegram
👍6
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Изостатистика - одна из первых книг по инфографике

Так как мы решаем большую задачу «собрать бюджеты России за 100 лет», приходится часто искать новые источники исторических книг и документов. Одной из самых интересных находок стала книга И.П. Иваницкого «Изостатистика. Изобразительная статистика и венский метод», изданная в «Москве-Ленинграде» в 1932 году.

Изостатистика, как оказалось, примерно то же самое, что в современном мире называют «инфографикой», и что в книге зовется «количественной системой диаграммирования».

Книга описывает базовые принципы создания диаграмм, приводит большое количество примеров исторических инфографик и разбирает каждую из них.

К сожалению, книга черно-белая, но все равно уникальная.

Скачать книгу можно с сайта НЭБ (уникальный источник исторических книг): https://rusneb.ru/catalog/000199_000009_005073846/

#открытыеданные #инфографика #диаграммы
👍127
Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla
👍3
Forwarded from Open Data Armenia
Опубликовано видео на youtube-канале проекта!

Дорогие подписчики, опубликовали для вас видеозаписи, прошедших вебинаров, приуроченных к конкурсу Open Data Armenia Contest.

1. Вебинар "Обзор открытых данных Армении: лицензии и источники".

2. Вебинар "Введение в визуализацию данных: проекты, методы и инструменты".

📍Подписывайтесь на канал, ставьте лайки и жмите на колокольчик для получения уведомлений о новых видео: https://www.youtube.com/@OpenDataArmenia/videos
🔥5
Свежий портал геоданных Республики Молдова geodata.gov.md [1] похоже что какой-то своей разработки и пока 16 карт и слоёв с данными. Внутри всё работает на Geoserver в котором слоёв уже побольше, 25 [2], но, всё равно, пока довольно скромно.

И удивительно что своя разработка, а не какой-нибудь Geonode, который с открытым кодом и даёт точно такой же портал.

В целом же данные страны проще пока найти на геокаталоге NSDI страны [3] где опубликовано 165 слоёв, а также в Молдове есть некоторое число общедоступных серверов ArcGIS и Geoserver, также, с геоданными.

Ссылки:
[1] https://geodata.gov.md/#/
[2] https://geodata.gov.md/geoserver
[3] https://geoportalinds.gov.md

#opendata #datasets #geodata #moldova
3👍1🍌1
У меня уже очень долгое время в пассиве домен "kremlin.io" который я ещё давно хотел превратить в дата-проект, но всё это время откладывал и откладывал и откладывал и в этом году тоже отложу, потому что много всего другого в работе. Тоже про данные, но всякое другое.

Применить его можно про всякое. От исторического проекта про разные кремли с их панорамами обзорами, до дата-журналистики про то какой плохой/хороший основной Кремль как политическая институция.

До какого-нибудь софтверного продукта компонента с названием Kremlin, что будет странно по нынешним временам, но почему бы и нет?

Лично я когда-то хотел этот домен использовать в двух разных сценариях:
1. Как каталог данных про РФ именно про госуправление и госполитику.
2. Как проект по мониторингу государственной ИТ/цифровой политики в РФ.

Но оба сценария сейчас не проходят фильтра в виде вопроса "Зачем?", другие сценарии не придумываются, а домен превратился в пассив.
Так что готов его отдать за очень много денег которые все пожертвую на нашу НКО.

#questions #domains #kremlin
👍5😁4
В рубрике пока ещё доступных российских данных, порталы радиационного мониторинга.

Единая государственная автоматизированная система мониторинга
радиационной обстановки на территории Российской Федерации
[1] включает данные мониторинга и ежемесячные отчёты. Открытых данных нет, есть недокументированные API и регулярные ежемесячные и годовые отчеты с детализацией до города/поселения

Радиационная обстановка на предприятиях Росатома [2] с ежесуточным обновлением. Открытых данных нет, есть недокументированное API.

Радиационная обстановка Красноярского края [3]. Открытых данных нет, есть ежесуточные данные, нет API, нет исторических данных в открытом доступе.

А также существует ещё как минимум десяток сайтов и порталов структур входящих в Росатом и Росприроднадзор публикующих регулярно обновляемые данные.

В форматах открытых данных их никто не публикуют, но и до сих пор не закрывают.

[1] https://egasmro.ru
[2] https://www.russianatom.ru
[3] http://www.krasecology.ru/operative/radio

#opendata #datasets #russia #radiation
4👍3