Ivan Begtin
8.06K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В качестве напоминания. В свободное от общественных и коммерческих проектов время я немного сам программирую. В основном то что мне же самому нужно и что может пригодится другим.

Пример такого - это @FeedRetranslatorBot в телеграме которые перенаправляет новости из RSS каналов на сайте и просто страниц где есть новости в телеграм каналы. Бот был сделан для того чтобы заменить разного рода новостные читалки, а для удобства вместо категорий новостей чтобы можно было создать себе новостные каналы и в них транслировать то что интеерсно.

Особенность именно @FeedRetranslatorBot в алгоритмах внутри которые извлекают новости из сайтов у которых нет экспорта в RSS. Примеры:
- сайт ЦСР http://csr.ru/
- раздел пресс-релизов Лукойла http://www.lukoil.ru/PressCenter/Pressreleases
- отдел по церковной благотворительности РПЦ http://www.diaconia.ru/news/diaconia
и многие другие

Для того чтобы извлекать оттуда новости бот использует библиотеку newsworker https://github.com/ivbeg/newsworker которая как раз и извлекает из HTML заголовки, даты, ссылки и текст новости. Это даёт возможность охватить ещё и те источники новостей которые можно упустить при медиамониторинге.

Новости собираются в режиме от 15 до 30 минут, если не возникает проблем с первоисточником, например если он не банит внешних ботов как это иногда бывает с сайтом Роскомнадзора, например.

Бот работает на принципе forever free, создан не для монетизации, а для личного удобства (как я уже говорил он мне нужен для замены RSS читалок). Большая часть его кода открыта или будет открыта на github'е.

На основе бота уже создано множество каналов:
- Правительственный дайджест https://t.me/govdigest : новости администрации Президента, Правительства, ключевых министерств и мозговых центров
- Контрактная система https://t.me/gzcontracts : новости электронных торговых площадок, сайта госзакупок и других источников регулирования российской контрактной системы (государственной)
- Госфинансы https://t.me/govfin : новости Минфина, Казначейства, ФНС России и другие новости по госфинансам
- Московский патриархат https://t.me/mospatriarhia новости Московского патриархата и всех его синоидальных отдела (без учёта митрополий и епархий)
- Open Data Digest https://t.me/opendatadigest : международные новости про открытые данные
- Open Government Digeest https://t.me/opengovdigest : международные новости про открытость государства
- Data is Good https://t.me/dataisgood : международные источники про данные и алгоритмы
- Крупнейшие компании https://t.me/topcorpnews : новости топ 20 российских компаний по рейтингу РБК 500 (Газпром, Лукойл, Ростех и др)

Кроме того многие публичные каналы создают пользователи.
Например, Фил Кулин (канал Эшер II, https://t.me/usher2, https://usher2.club) создал такие каналы:
- Лента новостей с regulation.gov.ru https://t.me/ru_regulation : поток новостей по законопроектам для публичной реакции
- Новости Минцифры и Роскомнадзора https://t.me/ru_comnews : новости этих двух ведомств соответственно

Не все возможности реализованы, как я писал - вначале бот готовился для себя и лишь позже открыт для всех желающих.

Из того что запланировано:
- веб-интерфейс с документацией и каталогом общедоступных каналов (для тех кто решит их публичить)
- API и утилита командной строки для управления подписками
- монитор доступности сайтов с новостями (не заблокировали ли бота)
- упрощение горизонтального масштабирования

Вы также можете создать свои каналы с помощью этого бота. Он реагирует на команду /help, а мне можно задавать вопросы и пожелания в https://t.me/begtinchat.

#newsdigest #digest #feedbot
Множество полезных ссылок на английском про данные вместо одной новости.

Дайджест по данным:
- гайд по тому как извлечь данные из PDF отчёта мексиканского правительства, обработать, проанализировать и визуализировать с помощью инструментария на Python. [1]
- Амазон начал подкручивать алгоритмы поиска для большей видимости его собственных продуктов [2] (вот и доверяй после этого большим платформам, ага)
- Lectures in Quantitative Economicswith Python [3] свежая книга более в 1100 страниц о том как использовать Python в экономических расчётах. Студентам экономистам на заметку
- Умные телевизоры передают чувствительную информацию Netflix и Facebook [4]. Имеются в виду умные телевизоры в США в первую очередь, но смысл не меняется (статья Financial Times за пэйволлом).
- The Global Expansion of AI Surveillance [5] исследование от Carnegie Endowment for International Peace о том как глобальные системы слежки с искусственным интеллектом стремительно распространяются. Немного про Россию и много про Китай. В России упомянуты ключевые компании: Analytical Business Solutions, Cisco, Huawei, NtechLab, Speech Technology Center [6]. Даже не знаю порадоваться или опечалиться. А вот Huawei повсюду

Ссылки:
[1] https://github.com/PhantomInsights/mexican-government-report
[2] https://www.wsj.com/articles/amazon-changed-search-algorithm-in-ways-that-boost-its-own-products-11568645345
[3] https://lectures.quantecon.org/_downloads/pdf/py/Quantitative%20Economics%20with%20Python.pdf
[4] https://www.ft.com/content/23ab2f68-d957-11e9-8f9b-77216ebe1f17
[5] https://carnegieendowment.org/2019/09/17/global-expansion-of-ai-surveillance-pub-79847
[6] https://carnegieendowment.org/files/AI_Global_Surveillance_Index1.pdf

#digest #data #news
Дайджест коротких и материалов:
- Австралийский G2G сервис Notify [1] - это система рассылок внутри государства. Госслужащие регистрируются в нём, загружают списки email'ов и телефонов и имеют возможность для отправки писем и SMS централизовано. С открытым кодом [2] и за деньги [3]. Всё ровно по австралийской модели погружения внутрь госаппарата ключевых ИТ сервисов, но предоставление их по фиксированной цене и без необходимости госорганам проводить торги.

- данные из утечек по Луанде (Luanda Leaks) в виде списка компаний на сервере OCCRP [4]. Структурированно по компаниям, странам и интегрировано с остальными данными OCCRP

- Women, Business and the Law 2020 [5] доклад с индексом от Всемирного банка по влиянию законов и регулирования на вовлечение женщин в экономику. Со множеством цифр и таблиц

- Минэкономразвития России предлагает создать российский аналог Github'а за 2.1 млрд. рублей [6]. Идея может быть и неплоха, но сумма огромна. С другой стороны если это заменит текущий мёртвый Фонд алгоритмов и программ, то быть может дело и стоит того. Остаётся лишь вопрос стоимости и того что форма ЧГП для таких проектов может подойти лучше. В принципе это похоже на австралийские G2G проекты. Не без российской специфики, конечно.

- РБК в статье от 17 января утверждают что Константин Носков (глава Министерства цифрового развития России) уходит в отставку [7] и гадают кто может прийти ему на смену. Кто бы это ни был, мы узнаем очень скоро.

- Open Referall, открытый проект по разработке стандартов обмена данными о людях, здоровье и соцуслугах [8] анонсировали инструментарий по обработке данных [9]

- Bird Toolbox [10] коллекция инструментов для журналистов расследователей и множество статей о том как расследования на данных проводятся.

- Awsome Shodan Queries [11] наиболее интересные и странные запросы которые можно делать через систему Shodan, сканирующую интернет на всевозможные доступные сервисы. Например, через неё находят подключенные к интернету камеры для детей или рентгеновские установки.

- полугодовой давности расследование о том как турецкий власти перевозят оружие в Ливию [12]. Нельзя сказать насколько оно непредвзято, но довольно детально. Любопытно что они в расследовании используют инструменты от Palantir что врядли по карману маленькой НКО даже в Вашингтоне.

- диаграмма того как устроено ИТ в правительстве Германии [13]. Очень наглядно, но на немецком языке

Ссылки:
[1] https://notify.gov.au/
[2] https://github.com/govau/notify
[3] https://notify.gov.au/pricing
[4] https://aleph.occrp.org/datasets/1554
[5] https://openknowledge.worldbank.org/handle/10986/32639
[6] https://www.kommersant.ru/doc/4225365
[7] https://www.rbc.ru/politics/17/01/2020/5e21b5599a79475340a567df
[8] https://openreferral.org/
[9] https://openreferral.org/introducing-open-referrals-data-transformation-toolkit/
[10] https://bird.tools/
[11] https://github.com/jakejarvis/awesome-shodan-queries
[12] https://c4ads.org/blogposts/2020/1/2/assets-in-flight-libyas-flying-armories
[13] https://pbs.twimg.com/media/ELhXoRvWoAAMGyF?format=jpg&name=4096x4096

#opendata #data #ddj #digest #opensource
Дайджест по данным и технологиям, с минимальными комментариями:
- Подкаст "How to make the most of AI? Open up and share data " с вице-президентом Open Data Institute, Jeni Tennison [1]
- Семь проектов поддержанных Open Data Institute грантами в 15-20 тысяч фунтов [2]
- Мониторинг воздействия COVID0-19 на сельское население Северной Африки [3]
- Reall - инвестиционная и инновационная компания по продвижению доступного строительства домов в развивающихся странах, делятся данными о их проектах. Для доступа нужна только авторизация [4]
- Digital Leaders в Великобритании 30 июля проводят соревнование питчей о бизнес моделях на основе открытых данных [5]. Не знаю будет ли там что-то новое, но любопытно.
- Economic Value of Open Data [6] исследование Евросоюза о влиянии открытых данных. Объём рынка связанного с открытыми данными оценивается в 184 миллиарда евро к 2025 году.
- в блоге Microsoft о революции открытых данных в Европе [7] за авторством вице-президента по отношениям с Европой. Это публикация в блоге EUPolicy [8], поэтому она ранее выпадала из под моего мониторинга, но теперь понятно что там будет больше публикаций об открытости.

Ссылки:
[1] https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/how-to-make-the-most-of-ai-open-up-and-share-data?cid=other-eml-alt-mip-mck
[2] https://www.ukauthority.com/articles/odi-funds-seven-data-sharing-projects/
[3] https://blogs.worldbank.org/opendata/monitoring-impact-covid-19-and-climate-change-pastoral-populations-sahel?cid=dec_tt_data_en_ext#_ftn3
[4] https://www.reall.net/data-dashboard/global/
[5] https://www.eventbrite.com/e/building-a-sustainable-business-using-open-data-mini-pitch-competition-tickets-113886950936
[6] https://www.europeandataportal.eu/en/impact-studies/open-data-impact
[7] https://blogs.microsoft.com/eupolicy/2020/07/02/europes-open-data-revolution/?_lrsc=0a8a7a2b-c8d0-4feb-be16-05687ca4e303
[8] https://blogs.microsoft.com/eupolicy/

#opendata #digest
Свежий дайджест по работе с данными:
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]


Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35

#data #digest
Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation