В рубрике интересных наборов данных, датасет о религиозных группах в разных штатах США за пару сотен лет Government Religious Preference 2.0 (GRP 2.0), Composite [1]. Датасет опубликован в ARDA [2] ассоциации религиозных архивов в США, включающем более 1200 наборов данных опросов, переписей, исследований и иных данных посвящённых религиозным группам.
Можно только позавидовать их социологам возможности работы с такими данными.
Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/
#opendata #datasets #research #sociology
Можно только позавидовать их социологам возможности работы с такими данными.
Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/
#opendata #datasets #research #sociology
Thearda
Summary | Government Religious Preference 2.0 (GRP 2.0), Composite | Data Archive | The Association of Religion Data Archives
The Government Religious Preference dataset (GRP) measures government-level favoritism toward, and disfavor against, 30 religious denominations. The unit of observation is the state-year. A series of ordered categorical variables index the state's institutional…
Forwarded from Национальный цифровой архив
Опубликована программа конференции по цифровым архивам
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
YouTube
Конференция по цифровым архивам
19 мая 2022 года состоится онлайн-конференция о цифровых архивах.
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
👍3🔥2❤1
В рубрике инструментов работы с данными ArangoDb [1] NoSQL СУБД для хранения документов, с акцентом на графовые данные и собственный язык запросов AQL [2].
Довольно развитый продукт, сравнимый с MongoDB по многим возможностям, со своими плюсами и ограничениями.
Из плюсов:
- JSON Native
- поддержка графовых данных
- реально свободная лицензия Apache 2 в сравнении с ограниченной SSPL у MongoDB
- поддержка JOIN՛ов (редкость для NoSQL)
Из ограничений:
- поскольку внутри JSON, то нет родных типов date и datetime, работа с датами через функции
- значительно меньшее сообщество чем у MongoDB
- по некоторым тестам ArangoDB работает медленнее чем MongoDB или OrientDB [3]
Ссылки:
[1] https://www.arangodb.com
[2] https://www.arangodb.com/docs/stable/aql/
[3] https://www.diva-portal.org/smash/get/diva2:1567918/FULLTEXT01.pdf
#tools #opensource
Довольно развитый продукт, сравнимый с MongoDB по многим возможностям, со своими плюсами и ограничениями.
Из плюсов:
- JSON Native
- поддержка графовых данных
- реально свободная лицензия Apache 2 в сравнении с ограниченной SSPL у MongoDB
- поддержка JOIN՛ов (редкость для NoSQL)
Из ограничений:
- поскольку внутри JSON, то нет родных типов date и datetime, работа с датами через функции
- значительно меньшее сообщество чем у MongoDB
- по некоторым тестам ArangoDB работает медленнее чем MongoDB или OrientDB [3]
Ссылки:
[1] https://www.arangodb.com
[2] https://www.arangodb.com/docs/stable/aql/
[3] https://www.diva-portal.org/smash/get/diva2:1567918/FULLTEXT01.pdf
#tools #opensource
Arango
Arango – The Trusted Data Foundation for Contextual AI
The only enterprise AI data platform that cuts complexity, reduces costs, and gets you to production faster.
👍3
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
UNHCR Россия
UNHCR, the UN Refugee Agency | UNHCR Россия
UNHCR, the UN Refugee Agency, is a global organisation dedicated to saving lives and protecting the rights of refugees, forcibly displaced communities and stateless people.
❤1
Новое регулирование в области открытых данных.
Принято Постановление Пр-ва РФ от 17.05.2022 № 894 [1] которое, в том числе, вносит изменения в Постановление Пр-ва РФ от 24.11.2009 г. № 953 "Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти" [2].
Переписан 4-й пункт постановления 953 и, если перевести его на русский язык, то там два ключевых изменения:
1. Минэкономразвития России теперь осуществляет мониторинга официальных сайтов государственных органов власти с использованием Портала открытых данных.
2. Технологическое обеспечение портала Открытых данных и системы мониторинга официальных сайтов передано Минцифры РФ.
В том же постановлении ещё несколько информационных систем передаваемых Минцифре России от Минэкономразвития.
- система мониторинга МФЦ и госуслуг
- портал regulation.gov.ru
- портал техобеспечения ГАС Управление
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205180021?index=1&rangeSize=1
[2] http://government.ru/docs/all/70318/
#opendata #regulation #laws
Принято Постановление Пр-ва РФ от 17.05.2022 № 894 [1] которое, в том числе, вносит изменения в Постановление Пр-ва РФ от 24.11.2009 г. № 953 "Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти" [2].
Переписан 4-й пункт постановления 953 и, если перевести его на русский язык, то там два ключевых изменения:
1. Минэкономразвития России теперь осуществляет мониторинга официальных сайтов государственных органов власти с использованием Портала открытых данных.
2. Технологическое обеспечение портала Открытых данных и системы мониторинга официальных сайтов передано Минцифры РФ.
В том же постановлении ещё несколько информационных систем передаваемых Минцифре России от Минэкономразвития.
- система мониторинга МФЦ и госуслуг
- портал regulation.gov.ru
- портал техобеспечения ГАС Управление
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205180021?index=1&rangeSize=1
[2] http://government.ru/docs/all/70318/
#opendata #regulation #laws
publication.pravo.gov.ru
Постановление Правительства Российской Федерации от 17.05.2022 № 894 ∙ Официальное опубликование правовых актов ∙ Официальный интернет…
Постановление Правительства Российской Федерации от 17.05.2022 № 894
"О внесении изменений в некоторые акты Правительства Российской Федерации"
"О внесении изменений в некоторые акты Правительства Российской Федерации"
В рубрике интересного чтения о данных и не только
- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]
Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve
#reading #datasets
- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]
Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve
#reading #datasets
Tellius
Your Guide to Smarter, Faster Business Decision Intelligence | Tellius
Explore how AI-powered decision intelligence transforms data into actionable insights, enhancing business outcomes through advanced analytics.
👍2👏1
Оборотные штрафы для компаний за утечку данных могут составить 1% их годового оборота как пишут Ведомости [1] со ссылкой на слова директор департамента обеспечения кибербезопасности Минцифры Владимир Бенгина.
Кроме того компании должны будут уведомлять об утечках и штраф за неуведомление будет даже больше.
Много это или мало? Это, конечно много, и существенно больше текущих минимальных штрафов. Законодатель идёт явно по пути GDPR'изации регулирования с приданию преимущества интересам граждан, но не интересам бизнеса.
Хорошо это или плохо? Для рынка информационной безопасности - хорошо, для рядовых пользователей - лучше, для интернет компаний, конечно хуже, но никто их уже давно не идеализирует, часто, исходя из того что в гонке за сверхдоходами они жертвуют приватностью и безопасностью пользовательских данных, применяют "теневые шаблоны" (dark patterns) для манипуляции потребителями.
Но в реализации закона, если он таки будет, будут очень важны нюансы. Оборотные штрафы будут с головной компании, со всего холдинга или с того юр. лица с которым пользователь подписывает соглашение о конфиденциальности (соглашается на оферту, для онлайн сервисов) ?
Вопрос не праздный. Вот к примеру, есть какой-нибудь "Навоз Банк" со своей цифровой экосистемой из кучей интернет продуктов. Они учреждают дочернее предприятие "Оператор Доения Данных" через пару уровней подчинения и вешают на него функции оператора по управлению данными пользователей со всех других дочерних структур. "Оператор Доения Данных" может иметь годовой оборот не более 200млн руб., а весь "Навоз Банк" в несколько сотен миллиардов. Если что-то случится, то штраф наложат на этого оператора на пару миллионов, а "Навоз Банк" практически не пострадает.
Реалистичная схема? Реалистичная
P.S. Все названия выдуманы, все измышления умозрительны. Заранее извинения сотрудникам "Навоз Банка" если раскрыл какие-то их корпоративные секреты.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/05/18/922625-oborotnie-shtrafi-utechku
#privacy #security #regulation
Кроме того компании должны будут уведомлять об утечках и штраф за неуведомление будет даже больше.
Много это или мало? Это, конечно много, и существенно больше текущих минимальных штрафов. Законодатель идёт явно по пути GDPR'изации регулирования с приданию преимущества интересам граждан, но не интересам бизнеса.
Хорошо это или плохо? Для рынка информационной безопасности - хорошо, для рядовых пользователей - лучше, для интернет компаний, конечно хуже, но никто их уже давно не идеализирует, часто, исходя из того что в гонке за сверхдоходами они жертвуют приватностью и безопасностью пользовательских данных, применяют "теневые шаблоны" (dark patterns) для манипуляции потребителями.
Но в реализации закона, если он таки будет, будут очень важны нюансы. Оборотные штрафы будут с головной компании, со всего холдинга или с того юр. лица с которым пользователь подписывает соглашение о конфиденциальности (соглашается на оферту, для онлайн сервисов) ?
Вопрос не праздный. Вот к примеру, есть какой-нибудь "Навоз Банк" со своей цифровой экосистемой из кучей интернет продуктов. Они учреждают дочернее предприятие "Оператор Доения Данных" через пару уровней подчинения и вешают на него функции оператора по управлению данными пользователей со всех других дочерних структур. "Оператор Доения Данных" может иметь годовой оборот не более 200млн руб., а весь "Навоз Банк" в несколько сотен миллиардов. Если что-то случится, то штраф наложат на этого оператора на пару миллионов, а "Навоз Банк" практически не пострадает.
Реалистичная схема? Реалистичная
P.S. Все названия выдуманы, все измышления умозрительны. Заранее извинения сотрудникам "Навоз Банка" если раскрыл какие-то их корпоративные секреты.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/05/18/922625-oborotnie-shtrafi-utechku
#privacy #security #regulation
👍9😁5👎1🤔1
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Medium
Dataset search engines as global data discovery tools
Search engines have a long history, you could easily find text, web pages, images, video, news, and some other content using global search…
👍6
А как насчёт того чтобы @mintsifry выложили бы полный список компаний чьи сотрудники получили отсрочки от армии в формате, хотя бы:
- название компании
- число сотрудников получивших отсрочку
Никакие персональные данные раскрыты не будут. Стратегической ценности у этих данных нет, коммерческая тайна раскрыта не будет. А вот для истории было бы крайне интересно.
#data
- название компании
- число сотрудников получивших отсрочку
Никакие персональные данные раскрыты не будут. Стратегической ценности у этих данных нет, коммерческая тайна раскрыта не будет. А вот для истории было бы крайне интересно.
#data
👍12
Forwarded from Минцифры России
👨💻 24 года — cредний возраст ИТ-специалистов, претендующих на отсрочку от армии
Всего ИТ-компании подали заявки на оформление отсрочки от армии для 8,7 тыс. своих сотрудников.
Критериями для оформления отсрочки были:
@mintsifry
Всего ИТ-компании подали заявки на оформление отсрочки от армии для 8,7 тыс. своих сотрудников.
Критериями для оформления отсрочки были:
🔹 гражданство РФ; 🔹 возраст — от 18 до 27 лет (родившиеся с 01.04.1995 по 15.07.2004); 🔹 работа по трудовому договору; 🔹 нормальная продолжительность рабочего дня; 🔹 высшее образование по специальности из перечня подпадающих под отсрочку; 🔹 работа в аккредитованных компаниях не менее 11 месяцев в период с 1 апреля 2021 по 1 апреля 2022 г. или устройство на работу в течение года после окончания учебы.@mintsifry
👍2
Напоминаю что сегодня будет трансляция нашей мини-конференции про цифровую архивацию [1], подключайтесь дистанционно, у нас будут интересные дискуссии и доклады.
Я буду участвовать в пленарной дискуссии в 16 часов и выступать с докладом после дискуссий. В докладе буду рассказывать о том зачем мы создали Национальный цифровой архив Ruarxive.org [2] и что делали в 2022 году.
Ссылки:
[1] https://conference.ruarxive.org
[2] https://ruarxive.org
#digitalpreservation #webarchives
Я буду участвовать в пленарной дискуссии в 16 часов и выступать с докладом после дискуссий. В докладе буду рассказывать о том зачем мы создали Национальный цифровой архив Ruarxive.org [2] и что делали в 2022 году.
Ссылки:
[1] https://conference.ruarxive.org
[2] https://ruarxive.org
#digitalpreservation #webarchives
❤2
Forwarded from Национальный цифровой архив
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
👍6
Изучаю сейчас международные методики оценки и мониторинга политик работы с данными и вижу достаточно чёткий фокус в определении приоритетов по 6 направлениям:
- G2G - госполитика работы с данными государства для государства
- B2G - госполитика предоставления данных бизнеса для государственных задач
- G2B - госполитика предоставления данных государства для бизнеса
- G2C - госполитика предоставления данных государства гражданам
- G2S - госполитика предоставления данных государства исследователям.
- B2S - госполитика предоставления данных бизнеса исследователям.
Причём много есть регулирования по каждому из этих направлений и роль государства как регулятора особенно заметна в ЕС, Великобритании и ещё во многих странах.
Удивительно, при этом, что некоторые африканские страны делают большой прогресс по управлению и госполитикой работы с данными.
Я регулярно читаю лекции и провожу семинары по управлению основанному на данных, теперь вот планирую обновить все материалы нестандартными примерами из опыта Африки. Африканские страны же дружественные к России?;)
Например, Вы знали что в Руанде есть, не много, не мало, а National Data Revolution Policy [1] включающее, в том числе, Data Archiving Framework. Может нам есть чему поучиться у регуляторов Руанды?
Ну а кроме шуток приятно видеть что в мире регулирование работы с данными и госполитика в этой области получает качественное развитие. И расстраивает что в России подобного ничего не наблюдается.
Ссылки:
[1] https://statistics.gov.rw/file/5410/download?token=r0nXaTAv
#opendata #policy #regulation
- G2G - госполитика работы с данными государства для государства
- B2G - госполитика предоставления данных бизнеса для государственных задач
- G2B - госполитика предоставления данных государства для бизнеса
- G2C - госполитика предоставления данных государства гражданам
- G2S - госполитика предоставления данных государства исследователям.
- B2S - госполитика предоставления данных бизнеса исследователям.
Причём много есть регулирования по каждому из этих направлений и роль государства как регулятора особенно заметна в ЕС, Великобритании и ещё во многих странах.
Удивительно, при этом, что некоторые африканские страны делают большой прогресс по управлению и госполитикой работы с данными.
Я регулярно читаю лекции и провожу семинары по управлению основанному на данных, теперь вот планирую обновить все материалы нестандартными примерами из опыта Африки. Африканские страны же дружественные к России?;)
Например, Вы знали что в Руанде есть, не много, не мало, а National Data Revolution Policy [1] включающее, в том числе, Data Archiving Framework. Может нам есть чему поучиться у регуляторов Руанды?
Ну а кроме шуток приятно видеть что в мире регулирование работы с данными и госполитика в этой области получает качественное развитие. И расстраивает что в России подобного ничего не наблюдается.
Ссылки:
[1] https://statistics.gov.rw/file/5410/download?token=r0nXaTAv
#opendata #policy #regulation
🔥4👍2
Подготовил перевод на русский статьи про поисковики по данным и отправил в рассылку на Substack [1]․ Кстати, если Вы не подписались ещё, то приглашаю подписываться [2]. Рассылку я веду на русском языке, пишу туда редко, но только относительно большие тексты.
Ссылки:
[1] https://begtin.substack.com/p/25?sd=fs
[2] https://begtin.substack.com
#datadiscovery #data #dataportals
Ссылки:
[1] https://begtin.substack.com/p/25?sd=fs
[2] https://begtin.substack.com
#datadiscovery #data #dataportals
Substack
#25 Поисковые системы по данным как глобальные системы обнаружения данных
У поисковых систем довольно обширная история.
👍6
Полезное чтение про данные:
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так
Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io
#datatools #datengineering #opensource #reading
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так
Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io
#datatools #datengineering #opensource #reading
GitHub
dbt-core/docs/roadmap/2022-05-dbt-a-core-story.md at main · dbt-labs/dbt-core
dbt enables data analysts and engineers to transform their data using the same practices that software engineers use to build applications. - dbt-labs/dbt-core
👍3
Написал очередной текст на английском о семантических типах данных и интеграции их идентификации с Wikidata [1] и особенностях ведения реестра metacrafter'а. Через какое-то время переведу его на русский на пишу в рассылку [2]. Для технологических лонгридов буду теперь писать, чаще всего, именно в такой последовательности.
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-metadata-sources-wikidata-wikipedia-and-other-e6023e4d7431
[2] https://begtin.substack.com
#data #articles #opensource
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-metadata-sources-wikidata-wikipedia-and-other-e6023e4d7431
[2] https://begtin.substack.com
#data #articles #opensource
Medium
Semantic data types metadata sources: Wikidata, Wikipedia and other
Recently I wrote about semantic data types systematic approach. I keep updating my own semantic types detection project Metacrafter and…
👍5
Я не так давно писал про ETL выделенную из Datacrafter'а для данных в NoSQL форматах JSONlines и BSON [1]. Это кусок кода отделенный в рамках "техдолга", то что надо было сделать давно и только недавно до этого дошли руки.
Но есть задача для которой точно нет подходящего простого ETL/ELT/data pipeline engine - это как раз цифровая архивация для создания тематических коллекций архивируемых сайтов, аккаунтов в соцсетях и тд.
Задачи по цифровой / веб архивации можно разделить на несколько видов, но в части сбора данных, основных всего два.
Массовый сбор и сфокусированные коллекции.
Массовый сбор - это когда роботы вроде краулеров Archive.org обходят условно неограниченное число цифровых ресурсов и делают слепки и актуализируют ранее собранные материалы.
Сфокусированные коллекции - это когда собирается не всё а по перечню: сайтов, разделов на сайтах, отдельных файлов, каналов в телеграм, аккаунтов в соцсетях и тд.
Для массового сбора есть своя экосистема инструментов, а вот для сфокуированных коллекций категорически нехватает ETL инструментария. Причём скорее ETL чем ELT потому что много двоичных данных которые можно поместить в озеро данных и сложно хранить в хранилище данных.
Логика та что что у классических ELT продуктов.
Извлечение данных с помощью разных инструментов и стратегий, преобразование для долгосрочного сохранения и загрузка в Internet Archive, какое-то постоянное хранилище и ещё куда-то, по необходимости.
Эта логика дополняется ещё одной стадией D - Discovery. Это когда движок получает на вход набор ссылок и на их основе автоматически определяет стратегию в зависимости от типа ресурса. В итоге получается DELT (Discover Extract Transform Load).
Недостаток такого движка в узкой применимости и в больше значимости этапа Extract, поскольку извлечение и сбор данных наиболее длительны и ресурсоёмки.
В принципе развитие дата инженерии давно уже достигло той стадии когда нужны специализированные решения. В основном они сейчас строятся на готовых продуктах, но иногда функций готовых продуктов недостаточно.
#digitalpreservation #etl #dataengineering
Но есть задача для которой точно нет подходящего простого ETL/ELT/data pipeline engine - это как раз цифровая архивация для создания тематических коллекций архивируемых сайтов, аккаунтов в соцсетях и тд.
Задачи по цифровой / веб архивации можно разделить на несколько видов, но в части сбора данных, основных всего два.
Массовый сбор и сфокусированные коллекции.
Массовый сбор - это когда роботы вроде краулеров Archive.org обходят условно неограниченное число цифровых ресурсов и делают слепки и актуализируют ранее собранные материалы.
Сфокусированные коллекции - это когда собирается не всё а по перечню: сайтов, разделов на сайтах, отдельных файлов, каналов в телеграм, аккаунтов в соцсетях и тд.
Для массового сбора есть своя экосистема инструментов, а вот для сфокуированных коллекций категорически нехватает ETL инструментария. Причём скорее ETL чем ELT потому что много двоичных данных которые можно поместить в озеро данных и сложно хранить в хранилище данных.
Логика та что что у классических ELT продуктов.
Извлечение данных с помощью разных инструментов и стратегий, преобразование для долгосрочного сохранения и загрузка в Internet Archive, какое-то постоянное хранилище и ещё куда-то, по необходимости.
Эта логика дополняется ещё одной стадией D - Discovery. Это когда движок получает на вход набор ссылок и на их основе автоматически определяет стратегию в зависимости от типа ресурса. В итоге получается DELT (Discover Extract Transform Load).
Недостаток такого движка в узкой применимости и в больше значимости этапа Extract, поскольку извлечение и сбор данных наиболее длительны и ресурсоёмки.
В принципе развитие дата инженерии давно уже достигло той стадии когда нужны специализированные решения. В основном они сейчас строятся на готовых продуктах, но иногда функций готовых продуктов недостаточно.
#digitalpreservation #etl #dataengineering
👍1
Написал заметку про DELT (Discover, Extract, Load, Transform) на английском языке [1] на Medium.
Ссылки:
[1] https://medium.com/@ibegtin/delt-discover-extract-load-transform-are-we-ready-for-etl-for-digital-preservation-ced3a08727a
#datadiscovery #digitalpreservation #etl #data
Ссылки:
[1] https://medium.com/@ibegtin/delt-discover-extract-load-transform-are-we-ready-for-etl-for-digital-preservation-ced3a08727a
#datadiscovery #digitalpreservation #etl #data
Medium
DELT (Discover, Extract, Load, Transform). Are we ready for ETL for digital preservation?
For years I’ve been working on a digital preservation project. Outside of civil and commercial data projects, our team invested much of…
👍1
В Эстонии пишут о высоком уровне открытости данных в стране [1]. Они заняли 2-е место в оценках открытости Global Data Barometer [2]. На первом месте США, что, в целом справедливо, и в GDB довольно точно указано что в США высокий уровень прозрачности по всем направлениям, кроме реестра компаний. Это известная тема с тем что общенационального реестра компаний в США нет до сих пор.
А вот с тем что сейчас измерено в России по открытости, к сожалению, это возможно последние такие результаты. Всё быстро идёт к постепенному закрытию данных по каждому из направлений. Вернее к закрытию или не открытию там где должно быть.
Особенно вопиющая ситуация в том что касается качества жизни и COVID-19. За всё время пандемии российское правительство не опубликовало _ни одного набора данных_ по теме пандемии. Медиа материалов - сколько угодно, наборов данных - ни одного.
Ссылки:
[1] https://e-estonia.com/estonia-is-leading-the-world-in-the-use-of-data/
[2] https://globaldatabarometer.org/results/
#opendata #gdb
А вот с тем что сейчас измерено в России по открытости, к сожалению, это возможно последние такие результаты. Всё быстро идёт к постепенному закрытию данных по каждому из направлений. Вернее к закрытию или не открытию там где должно быть.
Особенно вопиющая ситуация в том что касается качества жизни и COVID-19. За всё время пандемии российское правительство не опубликовало _ни одного набора данных_ по теме пандемии. Медиа материалов - сколько угодно, наборов данных - ни одного.
Ссылки:
[1] https://e-estonia.com/estonia-is-leading-the-world-in-the-use-of-data/
[2] https://globaldatabarometer.org/results/
#opendata #gdb
e-Estonia
Estonia is leading the world in the use of data - e-Estonia
According to a recently published Global Data Barometer survey, Estonia ranks second among 109 countries in using data for public good.
👍7😢3
Журналисты вчера буквально завалили меня запросами на комментарии по куче ИТ тем, причём я на часть вопросов старался отвечать: "мнения не имею, спросите специалистов".
Но какие-то комментарии важно уточнять чтобы не было кривотолков:
1. По поводу того что СМИ пишут про увольнения украинских ИТ специалистов и людей с украинским гражданством. Я таких несколько случаев знаю, где-то с результатом увольнения, где-то повышенного внимания. Ничего хорошего в этом не вижу. Системы комплаенс проверки в том числе сейчас учитывают гражданство проверяемых. Повторюсь каких-либо данных у меня лично нет, знаю только конкретные случаи и в очень небольших компаниях в рынке инфобеза. Сейчас мои слова активно трактуют СМИ не так как я их произносил, поэтому уточняю и конкретизирую.
2. По поводу рейтингов цифровой трансформации. Я повторюсь что мне не нравится то чем сейчас занимаются руководители по цифровой трансформации (РЦТшники) и как написаны ВПЦТ (ведомственные программы цифровой трансформации). Смысл в них выхолощен, тема открытости полностью исчезла из их работы. Я категорически не согласен что сервисы (госуслуги) должны быть приоритетом их работы и новый рейтинг РЦТшников оцениваю
столь же скептически как предыдущий
3. По поводу смены критерии включения ИТ компаний в реестр аккредитованных. Я бы сказал так, и хорошо, и плохо. Хорошо будет тем кто сейчас под эти критерии попадёт. А плохо будет когда налоговики и следаки оголодают и будут доначислять "незаконно полученную выгоду" от применения пониженных налоговых ставок. Сейчас в реестре аккредитованных есть те кто вообще никак нигде и никаким образом не может быть ИТ компанией. Но они там есть. И их оттуда не исключают.
В общем не читайте советских газет по утрам. Никому не верьте, мне можно (с)
#it #politics #comments
Но какие-то комментарии важно уточнять чтобы не было кривотолков:
1. По поводу того что СМИ пишут про увольнения украинских ИТ специалистов и людей с украинским гражданством. Я таких несколько случаев знаю, где-то с результатом увольнения, где-то повышенного внимания. Ничего хорошего в этом не вижу. Системы комплаенс проверки в том числе сейчас учитывают гражданство проверяемых. Повторюсь каких-либо данных у меня лично нет, знаю только конкретные случаи и в очень небольших компаниях в рынке инфобеза. Сейчас мои слова активно трактуют СМИ не так как я их произносил, поэтому уточняю и конкретизирую.
2. По поводу рейтингов цифровой трансформации. Я повторюсь что мне не нравится то чем сейчас занимаются руководители по цифровой трансформации (РЦТшники) и как написаны ВПЦТ (ведомственные программы цифровой трансформации). Смысл в них выхолощен, тема открытости полностью исчезла из их работы. Я категорически не согласен что сервисы (госуслуги) должны быть приоритетом их работы и новый рейтинг РЦТшников оцениваю
столь же скептически как предыдущий
3. По поводу смены критерии включения ИТ компаний в реестр аккредитованных. Я бы сказал так, и хорошо, и плохо. Хорошо будет тем кто сейчас под эти критерии попадёт. А плохо будет когда налоговики и следаки оголодают и будут доначислять "незаконно полученную выгоду" от применения пониженных налоговых ставок. Сейчас в реестре аккредитованных есть те кто вообще никак нигде и никаким образом не может быть ИТ компанией. Но они там есть. И их оттуда не исключают.
В общем не читайте советских газет по утрам. Никому не верьте, мне можно (с)
#it #politics #comments
👍25