Ivan Begtin
9.08K subscribers
2.53K photos
4 videos
114 files
5.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Substack взломали, но вроде как утечка без чувствительных данных (пишут что пароли, данные платежей и тд. не утекли)

Тем не менее поменять пароли будет не лишним.

UPD: Ах да, в в Substack нет паролей. Ну не молодцы ли?;)

#security #blogging
🔥2
Давно хочу написать про пуризм в определениях и бесконечные терминологические споры. Значительное число споров вокруг данных и многое в ИТ связано в тем что терминология это то чем очень любят манипулировать пиарщики и маркетологи придавая продвигаемым продуктам свойства схожие с продуктами обладающие ценностными характеристиками, но при этом де-факто ими не обладающие.

Самое популярное искажение вокруг открытого кода. Открытый код - это общедоступный исходный код публикуемый под свободными лицензиями такими как MIT, Apache, BSD и им подобные. Слово открытый, в данном случае, говорит не о том что код можно посмотреть, а о том что он может свободно использоваться в том числе в коммерческих целях.

Но для многих компаний открытость кода - это маркетинговая манипуляция. Они придумывают термины вроде open core, двойное лицензирование и так далее. Всё это делает их продукты не открытым кодом, а кодом доступным онлайн, но лицензии несвободны. Или же есть случаи когда код декларируется как открытый и под свободной лицензией, но доступ к нему можно получить только по запросу. Это тоже не открытый код, чтобы там не говорили те кто пишет что он таков.

С открытыми данными такая же ситуация. Они доступны не по запросу, не после регистрации, не имеют ограничения на коммерческое использование. Принципы открытых данных для того и разрабатывались чтобы создать юридически значимую процедуру публикации данных для их повторного использования. Ожидаемо многие эксплуатируют термин для того чтобы притворяться что они относятся к открытости, сами данные не публикуя. Данные не под свободными лицензиями открытыми не являются, данные доступные по запросу также, их называют данными с регламентированным доступом. Open Data Institute называет их данными в Public Access или Group Based Access. Это нормально если кто-то не хочет давать данные как открытые, но не надо никого обманывать и называть открытыми данными то что таким не является.

Термин большие данные вообще является маркетинговым, он был придуман для продажи инструментов для работы с данными которые достаточно велики чтобы с ними было неудобно работать на десктопе. Его применение довольно широко, определение весьма условно и сейчас, в 2026 году, им пользуются, в основном, те кто не имеет отношения к дата инженерии, data science и тд. В профессиональном обиходе его уже нет, используют его те кто, или оторван от рынка данных, или пытаются напихнуть buzzword'ов в свою речь. Разговоры в стиле мы используем большие данные быстро выдают непрофессионала.

В России часто придумывание новых терминов происходит как оборонительная тактика при защите бюджета. Упоминая одни термины можно оказаться в ситуации что они относятся к сфере которая уже регламентирована или к теме у которой есть владелец и при придумывании новых госпрограмм и госпроектов немало усилий придумщики тратян на то чтобы избежать использования одних терминов и использовать новые.

А с какими терминологическими искажениями вы сталкиваетесь? Что с ними делаете?

#opendata #opensource #thoughts #questions
👍14🔥2👏2💯2❤‍🔥11
ЦРУ (CIA) закрыли свой проект World Factbook с информацией по странам собираемой ими из своих источников.

Архивы его остались в Интернет-архиве, а также Саймон Уилсон успел заархивировать его последнюю версию и выложить в открытый доступ.

Factbook не так уж велик, около 384МБ ZIP архив за 2020 год, но был полезным источником информации для многих и немало тех кто называет удаление сайта актом культурного вандализма. Тем более что в США, в отличие от многих стран, есть практика передачи материалов включая сайты в Библиотеку Конгресса и Национальный архив, они умеют сохранять переданное и обеспечивать долгосрочную доступность. Вообще администрация Трампа активно нарушает многие устоявшиеся хорошие практики в США.

P.S. Надеюсь ссылаться на сайт ЦРУ и читать его в России ещё не запретили😎

#cia #digitalpreservation #usa
Please open Telegram to view this post
VIEW IN TELEGRAM
1😱9💔422🌚2🔥1🤣1
The Better Deal for Data Standard свежий стандарт по управлению данными (data governance) для социального и некоммерческого сектора. Написан в НКО Technology Matters из США и там почти все про организацию сбора и хранения данных, без какого-либо технического погружения.

Это полезный текст для тех кто ищет ответ что делать с управлением данными в НКО, но надо понимать что законодательство он вообще никак не учитывает и стандарт управления данными в США для НКО и для стран ЕС и для РФ и для других стран будут разные. Кстати, на мой взгляд, авторы сделали большое упущение сразу начав писать стандарт. Тут вначале надо формулировать принципы.

#data #datagovernance #datamanagement
🔥3
В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.

У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.

#opendata #datacatalogs #statistics #ASEAN
👍21
Также в рубрике как это устроено у них у Всемирной организации здравоохранения (WHO) существует множество информационных систем и банков данных, начиная с центральной data.who.int и продолжая информационным и системами по региональным блокам. Большая часть из них - это довольно консервативные системы отображения графиков и дашбордов статистики. Но отдельно стоит Western Pacific Health Data Platform (Западно-Тихоокеанская платформа данных о здоровье). Она относительно недавно была обновлена и является гибридом между системой управления статистистикой, визуализации данных и каталога открытых данных. Она содержит 2433 показателя по 38 странам, опубликованные в 4051 наборе данном доступном в форматах CSV, JSON, XLSX, RDATA, Parquet.

Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов

Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)

#opendata #datasets #WHO #datacatalogs
2👍1