Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто работает с данными и хочет разнообразить свой опыт, среди многих инструментов для работы с данными применяют не только Python и, например, для Jupyter Notebook существует множество ядер на других языках, позволяющих делать исполняемые публикации с помощью любимых, а не общепринятых языков программирования.

- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin

существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других

На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.

#datascience #jupiter #tools #overview
Я тут много рассказываю про мониторинг госсайтов в России и репозиторий с их списком который я веду. Тем временем о том как это сделано в других странах на примере США.

В США есть репозиторий команды 18F под названием site-scanning [1] где собран код с помощью которого государственные сайты еженедельно проверяются по множеству критериев и о них собирается очень много всякой информации, от метаданных о ссылках на другие ресурсы, до проверки того какие версии TLS/SSL поддерживаются. Собранные данные доступны через API и для выгрузки [2]. Реестр всех госдоменов доступен на портале search.gov [3] и он же используется для поиска по всем госсайтам. Там даже логика похожая той же что я придерживаюсь - отдельно система редактрования реестра и отдельно списки сайтов в CSV формате.

Среди множества задач для которых такие реестры доменов нужны я выделю только несколько:
- определение что автор письма является госслужащий по домену и тем самым давать или не давать возможность регистрации в той или иной системе
- поиск по сайтам, например, с помощью Google Custom Search Engine или его аналогами
- архивация сайтов национальными архивами
- проверки безопасности и мониторинг обязательности применения HTTPS
- выявление зависимостей от третьих сторон (внешних компонентов)
и ещё много другого.

Ссылки:
[1] https://github.com/18F/site-scanning
[2] https://open.gsa.gov/api/site-scanning-api/#overview
[3] https://search.gov/developer/govt-urls.html

#opendata #api #domains #usa
В качестве регулярного напоминания кто я, зачем и о чём пишу, особенно для недавно подписавшихся.

Я возглавляю АНО "Инфокультура" (@infoculture), создаю общественные проекты и продукты на открытых данных и для их популяризации такие как Национальный цифровой архив (@ruarxive), а также развиваю коммерческие продукты на данных такие как APICrafter и DataCrafter и возглавляю небольшую ИТ компанию для создания дата-продуктов подобных этим. До этого 2 года я вел проект Госрасходы (spending.gov.ru) в Счетной палате РФ, а сейчас его ведёт моя коллега Ольга, канал @ahminfin.

Я пишу заметки в блоге на английском на Medium, на них также можно подписаться. Также веду рассылку на Substack на русском языке и реже пишу в свой блог на личном сайте begtin.tech.

Кроме всего прочего я регулярно читаю лекции госслужащим, общественным организациям, в просветительском или образовательном формате. Сейчас реже поскольку всё более концентрируюсь на разработке ИТ продуктов, но как минимум 5-6 лекций в год, до пандемии было до 20.

Этот телеграм канал @begtin я создавал, в первую очередь, как записную книжку, для личных публичных заметок. Читаю что-то, думаю о чём и рассуждаю вслух здесь. Реже я здесь же публикую какую-либо аналитику связанную с одним из наших проектов или моими хобби.

Поэтому подписываясь будьте готовы что здесь будет много публикаций про данные, инструменты работы с ними, госполитику в этой области, цифровую архивацию и тому подобное

#channel #topics #overview