Ivan Begtin

К вопросу о том как хорошо и правильно публиковать данные могу привести в пример проект OpenSanctions [1] который изначально создавался как полностью открытый, сейчас развивается как открытый для некоммерческого использования, но это касается условий юридических, а технически там всё очень грамотно.

Это крупнейший в мире открытый агрегатор всех санкционных датасетов и связанных с ними данных, например, реестров чиновников, членов парламентов, олигархов и других PEPs'ов (Politically exposed persons). Там есть и санкции против РФ, и против Ирана, и против десятков других стран и внутристрановые списки и ограничения.

Чем интересен их подход?
1. Все датасеты гармонизированы к набору схем и предоставляются сразу через стандартизированное API и дампами файлов для массовой выгрузки. Файлы не генерируются на лету, а сразу предсобраны и актуализируются при обновлении
2. Команда ведёт публичный changelog [2] всех изменений в структурах данных. Это как блог, но узкотематический, полезный для понимания внутреннего устройства.
3. Они же отдают массовые (bulk) выгрузки и дельты изменений [3]

Конечно, правильно сравнивать их сервис с коммерческими продуктами торговли данными и предоставления доступа к ним. Можно сравнивать к примеру, с Dune.com [4], сервисом доступа к крипто данным для аналитиков или с Databento [5] сервисом торговли данными для финансовых рынков.

Сравнивать с ними корректно потому что это коммерческие сервисы и на ту же аудиторию, тех кто работает с финансами или оказывает финансовые услуги. Разница лишь в происхождении, команда Open Sanctions вышла из среды открытого кода и открытых данных, поэтому, к примеру, не могут, а может и не хотят, закрыть свой продукт полностью.

У меня в этом смысле к их проекту двойное отношение.

Как вовлечённый в открытые данные уже 15 лет я, конечно, не одобряю не открытые лицензии и лично сам бы в их проект ничего контрибьютить бы не стал. Он, формально, уже не открытый.

А как предприниматель создающий собственные, в том числе коммерческие, проекты на данных и вокруг них вроде того же Dateno.io я их прекрасно понимаю. Устойчивое финансирование проектов по открытости встречается крайне редко и чаще всего бывает в долгосрочных научных проектах и научной инфраструктуре.

Ссылки:
[1] https://www.opensanctions.org
[2] https://www.opensanctions.org/changelog/
[3] https://www.opensanctions.org/faq/80/bulk-deltas/
[4] https://dune.com
[5] https://databento.com

#opendata #datasets #data

OpenSanctions.org

OpenSanctions: The open database of sanctions, PEPs and watchlists

The open-source database of sanctions, watchlists, and politically exposed persons — aggregating hundreds of sources and relied on by compliance teams, investigators, and journalists.

🔥7👍4

1.18K viewsIvan Begtin, 14:52

Ivan Begtin

В рубрике как это устроено у них перепись в Великобритании проходила 3 года назад, в 2021 году, с того момента уже давно доступны датасеты и многие региональные инструменты просмотра сведений о переписи. Например, в Северной Ирландии статистическое агентство NISRA предоставляет доступ к навигатору по данным переписи с детализацией до переписных участков [1], а также их данные доступны на их же портале открытых данных [2].

Причём можно увидеть что многие переписный участки - это всего несколько сотен сельских жителей, 2-3 села, максимум.

А статистика там довольно подробная, я бы сказал практически полезная для любой социологии.

Что можно добавить. Если в Вашей стране прошла перепись и она недоступна хотя бы в таком виде, то может быть переписи не проходило?

Ссылки:
[1] https://explore.nisra.gov.uk/area-explorer-2021/
[2] https://data.nisra.gov.uk/

#opendata #datasets #ireland #uk #northernireland #census

👍5💯3

1.26K viewsIvan Begtin, 15:12

Ivan Begtin

Подборка полезного чтения про данные, технологии и не только:
- How we built a new powerful JSON data type for ClickHouse [1] статья от Павла Круглого про реализацию нового типа JSON в ClickHouse. Много подробностей и можно предполагать что новые фичи и этот тип стоит опробовать. По моему опыту ещё совсем недавно ClickHouse резко проигрывал DuckDB в разборе/импорте любого типа JSON документов. В общем надо тестировать, если всё так хорошо как написано, это может быть альтернативой MongoDB
- GERDA - German Elections Database [2] научный онлайн проект с базой по выборам в Германии с 1953 года. Доступно в виде наборов данных и пакета для языка R.
- Why techies leave Big Tech [3] почему технари покидают бигтехи? Да много почему, где-то увольнения, где-то стагнация и тупики в карьере. Автор пишет про основные причины и о том почему не надо так в бигтехи стремиться. Лично я для себя вообще не представляю что могло бы подтолкнуть там работать (ну если только бигтех не придёт с большим кошельком инвестиций в наш стартап Dateno, но это совсем другая тема)

Ссылки:
[1] https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse
[2] http://www.german-elections.com/
[3] https://newsletter.pragmaticengineer.com/p/leaving-big-tech

#readings #data #datasets #opendata #careers #bigtech

ClickHouse

How we built a new powerful JSON data type for ClickHouse | ClickHouse

We’re excited to introduce our new and significantly enhanced JSON data type, purpose-built to deliver high-performance handling of JSON data. Our core engineer, Pavel Kruglov, dives into how we built this feature on top of ClickHouse's columnar storage.

👍4

1.45K viewsIvan Begtin, 16:13

Ivan Begtin

В рубрике как это работает у них Defra, государственное агентство Великобритании, опубликовало несколько наборов данных посвящённых Стратегическому картированию шума (Strategic noise mapping) [1] эти данные создавались путём измерения шума на дорогах, железных дорогах и в крупнейших агломерациях в течение 2021 года и в соответствии с законом The Environmental Noise (England) Regulations 2006 [2] обязывающем государство вести такой мониторинг.

Итоговые данные опубликованы в виде геоданных, форматах WFS, WMS и OGC API на портале Data Services Platform [3] в виде датасетов:
- шум на железных дорогах [4]
- шум на дорогах [5]
- шум в агломерациях [6]

А также можно скачать данные по территориям выбрав их нарисовав полигон на карте.

Это хороший пример, и открытости важных данных о качестве жизни, и инструментов доступа к этим данным с возможностью доступа по API, скачать датасеты целиком или по избранным территориям.

Ссылки:
[1] https://www.gov.uk/government/publications/strategic-noise-mapping-2022/explaining-the-2022-noise-maps
[2] https://www.legislation.gov.uk/uksi/2006/2238/contents/made
[3] https://environment.data.gov.uk
[4] https://environment.data.gov.uk/dataset/3fb3c2d7-292c-4e0a-bd5b-d8e4e1fe2947
[5] https://environment.data.gov.uk/dataset/562c9d56-7c2d-4d42-83bb-578d6e97a517
[6] https://environment.data.gov.uk/dataset/4739c0c3-e800-4cb1-89cd-e71115b191e9
[7] https://environment.data.gov.uk/explore/562c9d56-7c2d-4d42-83bb-578d6e97a517?download=true

#opendata #datasets #lifequality #data #noise #uk

✍4👍4❤1

1.74K viewsIvan Begtin, 20:13

Ivan Begtin

Наверняка многие слышали про компанию Sweet Baby Inc. консультирующую компании из игровой индустрии и благодаря которой многие персонажи в играх и многие сюжеты перерабатывались для соответствия общественной повестке, DEI (Diversity, Equity, Inclusion) и избегания стереотипов. Про скандалы вокруг Sweet Baby Inc. можно почитать в большом количестве в массовой прессе.

Честно говоря я думал что софтверную индустрию "общественная повестка", пока что, обходила стороной, но недавно увидел у проекта OpenRefine [1] (open-source инструмент для очистки данных) обновлённый документ с видением, миссией и ценностями [2] в котором первым пунктом ценностей идёт Respectful of Diverse Backgrounds & Expertise который дословно звучит как:

We celebrate that people come to the OpenRefine tool and community from varying backgrounds, identities, technical abilities, privileges, industries, linguistic backgrounds, and more. We honor the diverse experiences and expertise of our users and contributors and aim to develop features and training that encourage and nourish diverse engagement with the tool, prioritizing accessibility and usability to broaden reach and impact.

Честно говоря немало удивившись я поискал откуда это взялось и нашёл что этот документ готовили им консультанты из Bocoup [3], консалтеров по инклюзивности.

Особенность в том что OpenRefine - это узкоспециализированный продукт для дата аналитиков, что тут можно придумать для "инклюзивности" и тд. я с трудом себе представляю.

Начало ли это конца для OpenRefine или, наоборот, больше ПО должны следовать "общественной повестке" ?

Что хорошо так то что программные продукты, в отличие от игр, не так просто испортить нарративом. Что плохо, это если тренд этот продолжится, то это будет всё большая не-нейтральность ИТ индустрии и ИТ продуктов.

А что вы думаете?

Ссылки:
[1] https://openrefine.org
[2] https://docs.google.com/document/d/18Jfrrx4dFLM6_1iHwCwJovFKyPESEZhGHekfcJxrVN8/edit?tab=t.0#heading=h.nz2tqzg16y22
[3] https://www.bocoup.com

#openrefine #agenda #opensource

👍4🔥2💊1

1.21K viewsIvan Begtin, edited 06:27

Ivan Begtin

Вчера я принял участие в EDPC, Евразийском конгрессе по защите данных [1] где рассказывал про то какие рейтинги и индексы оценки AI Governance бывают и что с ними делать. Думаю что скоро на сайте выложат видео где будет и моё короткое выступление.

Скажу лишь что рейтингов и индексов применительно к AI в мире сейчас будет много. Часть из них будут по, сути, про оценку рынков стран, часть про community empowerment, по сути про потенциальные направления поддержки НКО за борьбу за права в контексте внедрения ИИ, а часть будут про научные достижения.

Я упоминал там индексы Government AI Readiness, GIRAI и AGILE, но в реальности их сильно больше.

Относится к ним всем нужно очень рационально, понимая для кого они составляются и насколько они полезны.

Ссылки:
[1] https://edpc.network/

#ai #conferences

edpc.network

Евразийский конгресс по защите данных

👍7❤4

1.42K viewsIvan Begtin, 06:54

Ivan Begtin

Для тех кто любит командную строку и ищет данные регулярно, готова утилита dateno [1] для того чтобы искать в Dateno датасеты.

Утилита поддерживает много разных возможностей, включая отправку фильтров для фасетов, листание страниц, получение отдельных записей из индекса, возвращение результатов в JSON и YAML форматах и получение подробной информации по каталогу данных (первоисточнику).

Как с её помощью искать данные?

Вот простой пример команды поиска по слову бюджет на русском языке по датасетам связанным с Кыргызстаном.

dateno index search 'бюджет' --filters '"source.langs.name"="Russian";"source.countries.name"="Kyrgyzstan"' --headers id,dataset.title,source.name --mode results --page 1

Или узнать сколько датасетов находится по словам "Serbia electricity"

dateno index search 'Serbia electricity' --mode totals

А также много других примеров, обязательно посмотрите их в описании репозитория.

Вопросы по работе инструмента можно задавать мне в чате или личным сообщением, баги и предложения лучше всего отправлять в issues репозитория.

Всё это пример работы API Dateno и далее примеров будет куда больше и интеграции поиска Dateno в другие инструменты и сервисы. API - это сейчас ключевой продукт Dateno, с его помощью можно интегрировать поиск данных для самых разных целей: аналитики, визуализации, обучения ИИ, создания порталов с открытыми данными по темам и регионам и многое другое.

Ссылки:
[1] https://github.com/datenoio/datenocmd

#opendata #opensource #commandline #datasearch #data

👍8🐳6❤4

1.56K viewsIvan Begtin, 08:31

Ivan Begtin

Хорошая статья в Системном блоке про судьбу ABBYY, их продукта Compreno и научного подхода в переводе текстов [1]. Если вкратце, то судьба печально, ~~LLM~~ ИИ пожирают мир. Я помню в 2010-х разговоры про Compreno как люди вовлеченные в этот проект его расхваливали, но вживую его так и не успел попробовать, а теперь уже и непонятно зачем.

А вообще то что пишет автор про то что простые методы обученные на бесконечном объёме данных дают больший эффект - это не только про ~~гибель~~ трансформацию компьютерной лингвистики, это и про будущее онтологического моделирования, это про судьбу проектов вроде Wolfram Alpha (похоже недолгую уже), это про применение LLM в моделировании и систематизации данных.

Вот я вам приведу пример, у нас в Dateno десятки миллионов карточек датасетов и далеко не у всех есть привязка к категориям, не у всех есть теги, не у всех есть геометки и тд.. Можно вложить усилия и категоризировать их вручную, а можно натравить одну или несколько LLM и проделать эту работу. Можно ещё на несколько задач LLM натравить и будет ещё больший эффект, вопрос лишь в цене запросов или развертывания open source LLM.

А что говорить про задачи онтологического моделирования во многих исследовательских проектах. Я всё жду когда появятся научные статьи с тезисами вроде "Мы заменили команду из 10 онтологов на LLM модель и результат был не хуже".

Ссылки:
[1] https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/

#thoughts #readings #ai

Системный Блокъ

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…

👍18💯4❤1

1.64K viewsIvan Begtin, 11:27

Ivan Begtin

Любопытное про визуализацию индикаторов. Смотрю публикацию в блоге World Bank с данными по их индексу бедности, замене индекса Gini [1] и она по умолчанию бинарная. Условно: всё плохо и всё не так уж плохо. Там же в той же визуализации есть возможность посмотреть детализированную раскладку по странам, но что-то есть в донесении знаний в виде двух визуализаций: простой и посложнее. Сделано всё это несложно и визуализировано популярными инструментами, вопрос самого подхода. Вначале быстрое послание, потом развернутое.

Второй пример - это рейтинг/индекс WJP Rule of Law Index. Там не все страны, например, Армении нет, но можно посмотреть на примере России [2], весьма любопытный способ визуализации позиций в индексе и многочисленных субиндексах. Создатели явно вложились в визуализацию и интерактивность, можно рассматривать как хороший пример таких визуализаций. Я вот этих индексов перевидал уже под сотню и хорошая подача - это всегда интересно.

А заодно можно увидеть как со стороны оценивают текущую открытость данных и законов в РФ. Оценивают, как ни странно, выше чем некоторые европейские страны. Впрочем тут важно помнить что в в 2021 г. Россия по открытости гос-ва была на 41 месте, в 2022 - тоже на 41, в 2023 на 42, а в 2024 на 47.

Впрочем, возвращаясь к визуализации, жаль что сайт у них не с открытым кодом.

Вообще все эти международные страновые рейтинги почти все можно было бы упаковать в один типовой движок, но почти все они про привлечение внимание и активно развиваются в части интерактивности и визуализации. Так что новые примеры посмотреть всегда любопытно.

Ссылки:
[1] https://blogs.worldbank.org/en/opendata/inside-the-world-bank-s-new-inequality-indicator--the-number-of-
[2] https://worldjusticeproject.org/rule-of-law-index/country/2024/Russian%20Federation
[3] https://worldjusticeproject.org/rule-of-law-index/factors/2024/Russian%20Federation/Open%20Government

#opendata #opengovernment #dataviz

👍6❤1💊1

1.43K viewsIvan Begtin, 19:40

Ivan Begtin

В рубрике как это устроено у них
Reproducible Research Repository [1] проект Всемирного банка по публикации кода и данных при проведении исследований, в основном социологических, по всему миру.

Отличается тем что это не портал открытых данных, а репозиторий для размещения метаданных, кода и данных для перепроверки проведенного исследования. Соответственно данные могут быть как полностью доступные и опубликованы так и ограниченные в доступе и только в виде метаданных с описанием процедуры доступа.

Хотя на сайте это нигде не указано, но в основе ПО для публикации метаданных NADA Data Catalog [2] на котором также работает портал микроданных Всемирного банка [3].

Сейчас в репозитории немного данных, всего 163 записи и не все из них содержат данные, иногда только код.

P.S. У Всемирного банка и структур ООН появляется всё больше порталов открытых данных и других дата каталогов. Я вскоре напишу про них подробнее

Ссылки:
[1] https://reproducibility.worldbank.org
[2] https://nada.ihsn.org
[3] https://microdata.worldbank.org

#opendata #datasets #openaccess #datacatalogs

👍5✍1

1.1K viewsIvan Begtin, 04:42

Ivan Begtin

Для тех кто ищет открытые данные и не знает где их найти, вот, например, в России нет национального портала геоданных, да и самих геоданных, непонятно, есть или нет и где непонятно тоже.

В Dateno проиндексированы десятки российских геопорталов, их данные никогда не попадали в Data.gov.ru и чаще всего были вообще неизвестны широкой аудитории.

Например, вот поиск по слову "границы" по геопорталам в РФ с помощью datenocmd:

dateno index search 'границы' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1

и поиск по слову borders

dateno index search 'borders' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1

или данные по морям

dateno index search 'моря' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1

Причём можно искать данные сразу в шэйпах добавив в фильтры "dataset.formats"=".shp" или можно искать только среди инсталляций ArcGIS через "source.software.name"="ArcGIS Server"' или только по геопорталам региональных и муниципальных властей "source.owner_type"="Regional government"

И так далее. Для геоданных следующий шаг - это уже поиск по полигонам и геокоординатам, однажды и он тоже появится

#opendata #datasearch #dateno #data #geodata

👍11✍5

1.26K viewsIvan Begtin, 06:53

Ivan Begtin

В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata

👍4

1.25K viewsIvan Begtin, edited 08:53

Ivan Begtin

Forwarded from Open Data Armenia

Для тех кто ищет данные об Армении в мире, обновился поисковый индекс проекта Dateno [1] и теперь он включает более 25 тысяч наборов данных о стране, большая часть данных это статистические индикаторы Всемирного банка, ВТО, Банка международных расчётов и других. А также иные статистические показатели и геоданные.

Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны

А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴

Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].

P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd

#opendata #data #armenia #datasearch

👍5❤1

1.11K viewsIvan Begtin, 12:51

About

Blog

Apps

Platform