Для тех кто читает и изучает ежегодно Gartner Hype Cycle появилась наглядная видеоинфографика изменений в технологических прогнозах за 25 лет [1], а также автор выложил данные на основе которых это видео создавалось [2].
25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.
Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle
#visual #gartner #hype
25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.
Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle
#visual #gartner #hype
Vimeo
A Quarter Century of Hype - 25 Years of the Gartner Hype Cycle
A presentation of several novel ways to visualize 25 years of the Gartner Hype Cycle. The goal is to demonstrate how one's understanding of complex information…
В США полным ходом идёт не только подготовка в выборам Президента, но и моделирование их исхода. Свои модели выпустили 538 [1] и Economist [2], в том числе делая акцент на возможных сценариях развития и корреляциям между голосованием по отдельным штатам.
И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов
Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.
Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president
#elections #data
И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов
Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.
Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president
#elections #data
FiveThirtyEight
2020 Election Forecast
Latest forecast of the 2020 presidential election between President Donald Trump and Joe Biden by Nate Silver’s FiveThirtyEight
Может ли искусственный интеллект заменить архитекторов и урбанистов или хотя бы помочь им в проектировании городов? Продукт Delve [1] от SideWalkLabs - это сервис для автоматического моделирования жилых кварталов по заданным параметрам с подбором наиболее оптимального варианта зависящего от этих параметров и территории. Всё это, конечно же, в облаке, с искусственным интеллектом (умными алгоритмами) и перебором множества вариантов.
В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок
Ссылки:
[1] https://hello.delve.sidewalklabs.com/
#urban #ai
В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок
Ссылки:
[1] https://hello.delve.sidewalklabs.com/
#urban #ai
Google Maps Platform
Stay informed – Google Earth
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.
Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).
В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.
Ссылки:
[1] https://automatingsociety.algorithmwatch.org/
#algorithms
Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).
В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.
Ссылки:
[1] https://automatingsociety.algorithmwatch.org/
#algorithms
В мире всё больше проектов мониторинга государственных мер в ситуации с COVID-19. Некоторые из них государственные и многие общественные.
Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]
Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?
Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] http://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/
#budgets #spending #covid19
Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]
Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?
Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] http://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/
#budgets #spending #covid19
Ivan Begtin via @vote
Необходим ли общедоступный мониторинг, реестр проектов, бюджетов и контрактов и открытые данные по всем расходам и государственным инициативам вокруг COVID-19?
anonymous poll
Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%
Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%
Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%
Да, нужен от Правительства РФ – 3
▫️ 2%
Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%
👥 166 people voted so far.
anonymous poll
Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%
Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%
Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%
Да, нужен от Правительства РФ – 3
▫️ 2%
Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%
👥 166 people voted so far.
Дайджест новостей по открытым данным:
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/
#opendata
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/
#opendata
Microsoft On the Issues
Microsoft and the Open Data Institute join together to launch a Peer Learning Network for Data Collaborations - Microsoft On the…
Today, in partnership with the Open Data Institute (ODI), we are delighted to announce an open call for participation in a new Peer Learning Network for Data Collaborations as part of Microsoft’s Open Data Campaign.
Сегодня было большое онлайн мероприятие по простоте и понятности законов «О языке законов, их понятности и сложности» с презентациями и выступлениями коллег из нескольких университетов и, в том числе, моим выступлением.
Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык
Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] http://plainrussian.ru
#plainrussian
Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык
Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] http://plainrussian.ru
#plainrussian
Beautiful.ai
Простой язык
Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]
С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.
Ссылки:
[1] http://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97
#privacy #covid19
С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.
Ссылки:
[1] http://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97
#privacy #covid19
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.
1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.
В качестве примера сайт http://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.
Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.
В качестве примера сайт http://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.
Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.
Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.
#privacy #leaks
Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.
#privacy #leaks
Если Вы ещё не читали, то очень рекомендую почитать свежий документ Third wave of Open Data [1] от Open Data Policy Lab [2] о том как развивается тема открытых данных.
Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.
В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?
Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org
#opendata #reports
Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.
В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?
Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org
#opendata #reports
Минприроды вывело из эксплуатации/закрыло/случайно уничтожило/(свой вариант?) сайты в заповедников в домене zapoved.ru [1], они ещё есть в кеше Гугла, но в остальном они закрыты. Архивные копии Минприроды не делало, анонсов о закрытии тоже.
Ссылки:
[1] http://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite
#archives #digitalpreservation
Ссылки:
[1] http://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite
#archives #digitalpreservation
Google
site:zapoved.ru -oldsite - Google Search
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
2 новости об открытых данных Минфина России:
1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».
2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».
2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
Очередная рассылка, на сей раз о третьей волне открытых данных и разнообразии терминологии данных. [1]
Ссылки:
[1] https://begtin.substack.com/p/6-
#opendata #data
Ссылки:
[1] https://begtin.substack.com/p/6-
#opendata #data
Ivan’s Begtin Newsletter on digital, open and preserved government
#6. Третья волна открытых данных, и терминология данных
И ручейки в тени лесной Чуть вьются сонною волной. / А.С. Пушкин
Для тех кто работает с открытыми данными (и просто с данными) напоминание про инструменты полезные для сбора и извлечения данных из самых разнообразных источников
- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines
Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].
А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.
Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.
Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.
Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.
Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.
Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping
#scraping #data #extraction
- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines
Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].
А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.
Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.
Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.
Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.
Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.
Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping
#scraping #data #extraction
tabula.technology
Tabula: Extract Tables from PDFs
Tabula is a free tool for extracting data from PDF files into CSV and Excel files.
Forrester провели анализ по 39 критериям 10 крупнейших продуктов каталогов для машинного обучения и опубликовали отчет [1].
Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin
У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.
Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.
Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).
Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://t.me/begtin/2175
#dmp #data #opendata #datacatalogs
Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin
У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.
Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.
Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).
Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://t.me/begtin/2175
#dmp #data #opendata #datacatalogs
Dynamic Yield
What is Data Activation? Definition by Dynamic Yield
Data activation refers to a brand’s ability to not only collect and store customer data, but also to be able to act upon this data in real-time.
Я бы сказал удивительно, но на самом деле не очень то что на сайте Открытого бюджета Москвы есть новость о том что проект бюджета на 2021-2023 годы внесен в Московскую городскую думу [1] а ссылки на сам текст внесенного проекта бюджета или данные отсутствуют.
В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.
Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv
#opendata #moscow #budget
В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.
Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv
#opendata #moscow #budget
budget.mos.ru
Новости / Проект бюджета города Москвы на 2021 год и плановый период 2022 и 2023 годов внесен в Московскую городскую Думу
Информационный портал «Открытый бюджет» открывает доступ к полной информации по планированию и реализации бюджетной политики города Москвы