Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это работает у них Defra, государственное агентство Великобритании, опубликовало несколько наборов данных посвящённых Стратегическому картированию шума (Strategic noise mapping) [1] эти данные создавались путём измерения шума на дорогах, железных дорогах и в крупнейших агломерациях в течение 2021 года и в соответствии с законом The Environmental Noise (England) Regulations 2006 [2] обязывающем государство вести такой мониторинг.

Итоговые данные опубликованы в виде геоданных, форматах WFS, WMS и OGC API на портале Data Services Platform [3] в виде датасетов:
- шум на железных дорогах [4]
- шум на дорогах [5]
- шум в агломерациях [6]

А также можно скачать данные по территориям выбрав их нарисовав полигон на карте.

Это хороший пример, и открытости важных данных о качестве жизни, и инструментов доступа к этим данным с возможностью доступа по API, скачать датасеты целиком или по избранным территориям.

Ссылки:
[1] https://www.gov.uk/government/publications/strategic-noise-mapping-2022/explaining-the-2022-noise-maps
[2] https://www.legislation.gov.uk/uksi/2006/2238/contents/made
[3] https://environment.data.gov.uk
[4] https://environment.data.gov.uk/dataset/3fb3c2d7-292c-4e0a-bd5b-d8e4e1fe2947
[5] https://environment.data.gov.uk/dataset/562c9d56-7c2d-4d42-83bb-578d6e97a517
[6] https://environment.data.gov.uk/dataset/4739c0c3-e800-4cb1-89cd-e71115b191e9
[7] https://environment.data.gov.uk/explore/562c9d56-7c2d-4d42-83bb-578d6e97a517?download=true

#opendata #datasets #lifequality #data #noise #uk
4👍41
Наверняка многие слышали про компанию Sweet Baby Inc. консультирующую компании из игровой индустрии и благодаря которой многие персонажи в играх и многие сюжеты перерабатывались для соответствия общественной повестке, DEI (Diversity, Equity, Inclusion) и избегания стереотипов. Про скандалы вокруг Sweet Baby Inc. можно почитать в большом количестве в массовой прессе.

Честно говоря я думал что софтверную индустрию "общественная повестка", пока что, обходила стороной, но недавно увидел у проекта OpenRefine [1] (open-source инструмент для очистки данных) обновлённый документ с видением, миссией и ценностями [2] в котором первым пунктом ценностей идёт Respectful of Diverse Backgrounds & Expertise который дословно звучит как:
We celebrate that people come to the OpenRefine tool and community from varying backgrounds, identities, technical abilities, privileges, industries, linguistic backgrounds, and more. We honor the diverse experiences and expertise of our users and contributors and aim to develop features and training that encourage and nourish diverse engagement with the tool, prioritizing accessibility and usability to broaden reach and impact.


Честно говоря немало удивившись я поискал откуда это взялось и нашёл что этот документ готовили им консультанты из Bocoup [3], консалтеров по инклюзивности.

Особенность в том что OpenRefine - это узкоспециализированный продукт для дата аналитиков, что тут можно придумать для "инклюзивности" и тд. я с трудом себе представляю.

Начало ли это конца для OpenRefine или, наоборот, больше ПО должны следовать "общественной повестке" ?

Что хорошо так то что программные продукты, в отличие от игр, не так просто испортить нарративом. Что плохо, это если тренд этот продолжится, то это будет всё большая не-нейтральность ИТ индустрии и ИТ продуктов.

А что вы думаете?

Ссылки:
[1] https://openrefine.org
[2] https://docs.google.com/document/d/18Jfrrx4dFLM6_1iHwCwJovFKyPESEZhGHekfcJxrVN8/edit?tab=t.0#heading=h.nz2tqzg16y22
[3] https://www.bocoup.com

#openrefine #agenda #opensource
👍4🔥2💊1
Вчера я принял участие в EDPC, Евразийском конгрессе по защите данных [1] где рассказывал про то какие рейтинги и индексы оценки AI Governance бывают и что с ними делать. Думаю что скоро на сайте выложат видео где будет и моё короткое выступление.

Скажу лишь что рейтингов и индексов применительно к AI в мире сейчас будет много. Часть из них будут по, сути, про оценку рынков стран, часть про community empowerment, по сути про потенциальные направления поддержки НКО за борьбу за права в контексте внедрения ИИ, а часть будут про научные достижения.

Я упоминал там индексы Government AI Readiness, GIRAI и AGILE, но в реальности их сильно больше.

Относится к ним всем нужно очень рационально, понимая для кого они составляются и насколько они полезны.

Ссылки:
[1] https://edpc.network/

#ai #conferences
👍74
Для тех кто любит командную строку и ищет данные регулярно, готова утилита dateno [1] для того чтобы искать в Dateno датасеты.

Утилита поддерживает много разных возможностей, включая отправку фильтров для фасетов, листание страниц, получение отдельных записей из индекса, возвращение результатов в JSON и YAML форматах и получение подробной информации по каталогу данных (первоисточнику).

Как с её помощью искать данные?

Вот простой пример команды поиска по слову бюджет на русском языке по датасетам связанным с Кыргызстаном.

dateno index search 'бюджет' --filters '"source.langs.name"="Russian";"source.countries.name"="Kyrgyzstan"' --headers id,dataset.title,source.name --mode results --page 1


Или узнать сколько датасетов находится по словам "Serbia electricity"

dateno index search 'Serbia electricity' --mode totals


А также много других примеров, обязательно посмотрите их в описании репозитория.

Вопросы по работе инструмента можно задавать мне в чате или личным сообщением, баги и предложения лучше всего отправлять в issues репозитория.

Всё это пример работы API Dateno и далее примеров будет куда больше и интеграции поиска Dateno в другие инструменты и сервисы. API - это сейчас ключевой продукт Dateno, с его помощью можно интегрировать поиск данных для самых разных целей: аналитики, визуализации, обучения ИИ, создания порталов с открытыми данными по темам и регионам и многое другое.

Ссылки:
[1] https://github.com/datenoio/datenocmd

#opendata #opensource #commandline #datasearch #data
👍8🐳64
Хорошая статья в Системном блоке про судьбу ABBYY, их продукта Compreno и научного подхода в переводе текстов [1]. Если вкратце, то судьба печально, LLM ИИ пожирают мир. Я помню в 2010-х разговоры про Compreno как люди вовлеченные в этот проект его расхваливали, но вживую его так и не успел попробовать, а теперь уже и непонятно зачем.

А вообще то что пишет автор про то что простые методы обученные на бесконечном объёме данных дают больший эффект - это не только про гибель трансформацию компьютерной лингвистики, это и про будущее онтологического моделирования, это про судьбу проектов вроде Wolfram Alpha (похоже недолгую уже), это про применение LLM в моделировании и систематизации данных.

Вот я вам приведу пример, у нас в Dateno десятки миллионов карточек датасетов и далеко не у всех есть привязка к категориям, не у всех есть теги, не у всех есть геометки и тд.. Можно вложить усилия и категоризировать их вручную, а можно натравить одну или несколько LLM и проделать эту работу. Можно ещё на несколько задач LLM натравить и будет ещё больший эффект, вопрос лишь в цене запросов или развертывания open source LLM.

А что говорить про задачи онтологического моделирования во многих исследовательских проектах. Я всё жду когда появятся научные статьи с тезисами вроде "Мы заменили команду из 10 онтологов на LLM модель и результат был не хуже".

Ссылки:
[1] https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/

#thoughts #readings #ai
👍18💯41
Любопытное про визуализацию индикаторов. Смотрю публикацию в блоге World Bank с данными по их индексу бедности, замене индекса Gini [1] и она по умолчанию бинарная. Условно: всё плохо и всё не так уж плохо. Там же в той же визуализации есть возможность посмотреть детализированную раскладку по странам, но что-то есть в донесении знаний в виде двух визуализаций: простой и посложнее. Сделано всё это несложно и визуализировано популярными инструментами, вопрос самого подхода. Вначале быстрое послание, потом развернутое.

Второй пример - это рейтинг/индекс WJP Rule of Law Index. Там не все страны, например, Армении нет, но можно посмотреть на примере России [2], весьма любопытный способ визуализации позиций в индексе и многочисленных субиндексах. Создатели явно вложились в визуализацию и интерактивность, можно рассматривать как хороший пример таких визуализаций. Я вот этих индексов перевидал уже под сотню и хорошая подача - это всегда интересно.

А заодно можно увидеть как со стороны оценивают текущую открытость данных и законов в РФ. Оценивают, как ни странно, выше чем некоторые европейские страны. Впрочем тут важно помнить что в в 2021 г. Россия по открытости гос-ва была на 41 месте, в 2022 - тоже на 41, в 2023 на 42, а в 2024 на 47.

Впрочем, возвращаясь к визуализации, жаль что сайт у них не с открытым кодом.

Вообще все эти международные страновые рейтинги почти все можно было бы упаковать в один типовой движок, но почти все они про привлечение внимание и активно развиваются в части интерактивности и визуализации. Так что новые примеры посмотреть всегда любопытно.

Ссылки:
[1] https://blogs.worldbank.org/en/opendata/inside-the-world-bank-s-new-inequality-indicator--the-number-of-
[2] https://worldjusticeproject.org/rule-of-law-index/country/2024/Russian%20Federation
[3] https://worldjusticeproject.org/rule-of-law-index/factors/2024/Russian%20Federation/Open%20Government

#opendata #opengovernment #dataviz
👍61💊1
В рубрике как это устроено у них
Reproducible Research Repository [1] проект Всемирного банка по публикации кода и данных при проведении исследований, в основном социологических, по всему миру.

Отличается тем что это не портал открытых данных, а репозиторий для размещения метаданных, кода и данных для перепроверки проведенного исследования. Соответственно данные могут быть как полностью доступные и опубликованы так и ограниченные в доступе и только в виде метаданных с описанием процедуры доступа.

Хотя на сайте это нигде не указано, но в основе ПО для публикации метаданных NADA Data Catalog [2] на котором также работает портал микроданных Всемирного банка [3].

Сейчас в репозитории немного данных, всего 163 записи и не все из них содержат данные, иногда только код.

P.S. У Всемирного банка и структур ООН появляется всё больше порталов открытых данных и других дата каталогов. Я вскоре напишу про них подробнее

Ссылки:
[1] https://reproducibility.worldbank.org
[2] https://nada.ihsn.org
[3] https://microdata.worldbank.org

#opendata #datasets #openaccess #datacatalogs
👍51
Для тех кто ищет открытые данные и не знает где их найти, вот, например, в России нет национального портала геоданных, да и самих геоданных, непонятно, есть или нет и где непонятно тоже.

В Dateno проиндексированы десятки российских геопорталов, их данные никогда не попадали в Data.gov.ru и чаще всего были вообще неизвестны широкой аудитории.

Например, вот поиск по слову "границы" по геопорталам в РФ с помощью datenocmd:
dateno index search 'границы' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1


и поиск по слову borders

dateno index search 'borders' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1


или данные по морям
dateno index search 'моря' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1


Причём можно искать данные сразу в шэйпах добавив в фильтры "dataset.formats"=".shp" или можно искать только среди инсталляций ArcGIS через "source.software.name"="ArcGIS Server"' или только по геопорталам региональных и муниципальных властей "source.owner_type"="Regional government"

И так далее. Для геоданных следующий шаг - это уже поиск по полигонам и геокоординатам, однажды и он тоже появится

#opendata #datasearch #dateno #data #geodata
👍115
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
👍4
Forwarded from Open Data Armenia
Для тех кто ищет данные об Армении в мире, обновился поисковый индекс проекта Dateno [1] и теперь он включает более 25 тысяч наборов данных о стране, большая часть данных это статистические индикаторы Всемирного банка, ВТО, Банка международных расчётов и других. А также иные статистические показатели и геоданные.

Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны

А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴

Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].

P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd

#opendata #data #armenia #datasearch
👍51
В рубрике крупнейших наборов данных в мире GenBank [1] база геномной информации о человеке от Национального центра биотехнологической информации США. В общей сложности размер последней 263 версии базы GenBank составляет около 6.4 ТБ первичных данных и около 2.7 ТБ данных закодированных по ASN.1 [2]. Все эти данные доступны на сайте через веб интерфейс и для скачивания через FTP сервер.

В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.

Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.

Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.

Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/

#opendata #datasets #openaccess #genetics
🔥31👍1
Подборка ссылок про данные, технологии и не только:
- OpenSeaMap [1] аналог OpenStreetMap для морей, открытая краудсорсинговая карта морей и морской инфраструктуры. Нигде не видел сравнений масштабов проекта с коммерческими, но может быть есть шанс повторить судьбу OSM ?
- Data Formulator [2] инструмент по автоматизации визуализации данных с помощью ИИ. Создан исследователями из Microsoft в рамках научной работы. Впервые опубликовали в январе 2024, а в октябре добавили возможность запускать его локально
- 30DayMapChallenge [3] глобальный конкурс для GIS специалистов с ежедневными задачками по визуализации геоданных. В этот раз задачки на ноябрь 2024. Для тех кто хочет показать что умеет визуализировать данные - это очень хороший конкурс чтобы показать себе и другим уровень своих навыков.
- A Business Analyst’s Introduction to Business Analytics [4] книга по бизнес аналитике в открытом доступе. Все примеры на языке R, для тех кто интересуется первым и знает второе - самое оно.
- First aid for figures [5] добротная подборка ресурсов о том как учёным лучше оформлять их работы, научные иконки для замены текстов, оформление таблиц, оформление изображений и тд.
- Chart.css [6] один из самых простых инструментов рисования графиков с помощью элементов HTML и CSS стилей. Поддерживает много видов графиков, очень просто настраивается и очень легковесен.
- A vision for public sector data in Scotland [7] в Шотландии моделируют стратегию региона по работе с госданными. Для этого там создали группу экспертов из 30 человек и под названием Horizon Scan Group после чего те разработали вот такой документ долгосрочного видения
- Using Rust in Non-Rust Servers to Improve Performance [8] большой гайд о том как оптимизировать выполнение задач с помощью Rust для проектов не на Rust. Ваш код медленно работает? Так его можно переписать на Rust, во много как альтернатива переписывания его на C++.

Ссылки:
[1] http://openseamap.org
[2] https://github.com/microsoft/data-formulator
[3] https://30daymapchallenge.com/
[4] https://www.causact.com/
[5] https://helenajamborwrites.netlify.app/posts/24-10_linkcollection/
[6] https://chartscss.org/
[7] https://community.thedatalab.com/news/2187703
[8] https://github.com/pretzelhammer/rust-blog/blob/master/posts/rust-in-non-rust-servers.md

#opensource #gis #dataviz #opendata
👍9
Кстати, я вот не обращал внимание, а сегодня обнаружил что Datalens [1] существует как open source продукт.

И сразу много вопросов к залу.

Есть ли кто-то кто развертывал его в корпоративной сети или в облаке? Есть ли какие-то зависимости от чужих сервисов или можно использовать хоть в полностью закрытой сети?

И ещё вопрос, кем теперь будет развиваться этот продукт, Яндексом или Nebius ?

Есть задачи где нужны похожие BI и хочется понять стоит ли развертывать локально и экспериментировать с Datalens.

Ссылки:
[1] https://datalens.tech

#opensource #dataviz
👍7🔥2