Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Оперирующие термином большие данные часто не знают что это такое и называют ими данные в условные 1-2 гигабайта, кто-то говорит что большие данные это то что не может обработать 1 сервер. Поскольку это маркетинговый термин с самого начала, то как и вокруг многих терминов было много баталий.

Но есть те кто использует именно большие данные - пример это Uber. В последнем посте блога в Uber Engineering [1] они пишут про их платформу больших данных. А у них они _действительно велики_ - это более 100 петабайт в кластере серверов и Hadoop'е и в рамках их аналитической платформы Hudi [2] [3] с открытым кодом [4] поверх Hadoop'а.

Это данные 700 городов, 70 стран и от более чем 2 миллионов водителей собираемые в реальном времени и анализируемые data scientist'ами на платформе Hudi и это по настоящему большие данные.

Ссылки:
[1] https://eng.uber.com/uber-big-data-platform/
[2] https://databricks.com/session/hudi-near-real-time-spark-pipelines-at-petabyte-scale
[3] https://conferences.oreilly.com/strata/strata-ny-2018/public/schedule/detail/70937
[4] https://github.com/uber/hudi

#data #bigdata
Я напоминаю что завтра Форум перспективных технологий https://tceh.com/events/forum-perspektivnyh-tehnologij/ с двумя площадками Ассоциациb участников рынка данных

Приходите, поговорим про данные, госрегулирование, стандарты и тд.

#data #opendata #bigdata
В качестве регулярного напоминания и ответов на вопросы. Подборка ссылок на материалы о том где узнавать о том что такое открытые данные и не только. Мой список рекомендаций.
- The Living Library [1] - библиотека от The GovLab по открытости, прозрачности и цифровизации. Много научных и популярных публикаций
- Surveillance capitalism [2] книга от Shoshana Zuboff о том как устроен современный капитализм слежки, основанный на коммодизации персональных данных.
- Open Data Impact [3] подборка примеров того как открытые данные оказывают влияние на рынки и отрасли
- The Week in Data [4] рассылка ссылок по работе с данными от The Open Data Institute в Великобритании
- Data Elixir [5] еженедельная рассылка про работу с данными. Куча подписчиков, не спамят.
- Рассылка Инфокультуры [6] регулярная рассылка материалов Инфокультуры, про открытые данные, данные и не только
- Scoop.it Big Data [7] поток новостей через сервис Scoop.it по теме Big Data
- Awesome Public Datasets [8] огромная подборка ссылок на общедоступные наборы данных большого объёма
- Re3data [9] реестр открытых научных репозиториев данных по всему миру

Ссылки:
[1] https://thelivinglib.org/
[2] https://en.wikipedia.org/wiki/Surveillance_capitalism
[3] http://odimpact.org/
[4] https://theodi.org/knowledge-opinion/the-week-in-data/
[5] https://dataelixir.com/
[6] https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[7] https://www.scoop.it/i/big-data
[8] https://github.com/awesomedata/awesome-public-datasets
[9] https://www.re3data.org/

#data #opendata #bigdata
Для тех кому хочется поработать с действительно-большими-данными, не обязательно структурированными в гомогенный датасет, но так чтобы объём был огромен, вот несколько ключевых источников таких открытых данных:

CommonCrawl (https://commoncrawl.org/)
Результаты индексирования интернета краулером, база если не сравнивая с Яндекс, Google и Bing'ом, но наиболее к ним приближенная. Это миллиарды ссылок, страниц, документов в петабайтах данных

Internet Archive (https://archive.org)
Крупнейший в мире архив веб-страниц ещё и крупнейший в мире архив всего что только возможно оцифрованного и загруженного пользователями. Огромные объёмы документов, баз данных и иных данных хранится именно здесь

AWS Open Data (https://registry.opendata.aws/)

Огромные по объёмы наборы данных собранные и раздаваемые Amazon'ом в их инфраструктуре AWS. Удивительно что ещё ни один российский интернет провайдер до такого не додумался;)

Wikipedia (https://en.wikipedia.org/wiki/Wikipedia:Database_download)

А ещё вернее все данные фонда Викимедиа. Их много, они активно используются, но с ними надо уметь работать, знать как они структурированы и что с этим можно делать.

#opendata #data #bigdata
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report
Я регулярно пишу про такой класс инструментов как git для данных и про платформы претендующие стать аналогом Github'а для данных. Пока нет лидера ни в том ни в том, но есть хорошие попытки.

Новый-старый инструмент управлению версионностью данных для задач data science - это replicate [1] [2]
Утилита и библиотека на Python с открытым кодом, единственная фактическая альтернатива dvc [3] если говорить про применение к data science. А если говорить про другие dolt, quilt, noms, hub и sno, то практически все они работают с данными относительно небольшого объёма

Ссылки:
[1] https://github.com/replicate/replicate
[2] https://replicate.ai/
[3] https://github.com/iterative/dvc

#bigdata #data #data-science #data-version-control
Для тех кто ищет наборы данных побольше, команда Clickhouse обработала данных из Github'а собранные в проекте GHArchive и превратила в большую базу для Clickhouse [1].

Её также можно скачать в виде цельной базы данных для Clickhouse, 71ГБ в сжатом виде [2]

Конечно, это уже существующие данные, нового раскрытия тут нет, но есть удобный формат для работы. Переупакованные данные также имеют большую ценность поскольку по такой базе проще делать сложные запросы, тем более что примеры там приведены неплохие.

Всем кто изучает сложные структуры, большие графы и тд. это всё будет более чем полезный набор данных.

Ссылки:
[1] https://gh.clickhouse.tech/explorer/
[2] https://gh.clickhouse.tech/explorer/#download-the-dataset

#opendata #bigdata #github #clickhouse
Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных.

- Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными

Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.

#opendata #data #bigdata #datasource
The Information опубликовали список из 50 наиболее многообещающих стартапов [1] (осторожно пэйвол) разбитых по 5 категориям, из этих стартапов, значительная часть, или связана с данными напрямую, или опосредовано. Например, номер 1 в категории AI - это Alation [2], один из наиболее дорогих корпоративных каталогов данных обещающих что они используют технологии AI для организации корпоративных данных для последующего машинного обучения.

Там много и других примеров стартапов с фокусом на микросервисы (Kong), обработку данных в облачных хранилищах (Starburst Data) и др.

P.S. Если кому-то понадобится статья целиком, пишите в чат, выложу туда её текст.

Ссылки:
[1] https://www.theinformation.com/ti50
[2] https://www.alation.com/

#tech #data #bigdata
В рубрике интересные данные, очередной особенно большой набор данных Quotebank [1] состоит из цитат персон в англоязычной онлайн прессе с 2008 по 2020 годы включительно. Это 178 миллионов цитат извлечённых из 196 англоязычных новостных статей собранных из 377 тысяч доменов.

Общий объём данных - 190 гигабайт в сжатом виде (файлы .json.bz2), то есть после распаковки, от 1 до 3 терабайт. Авторы исследования всей командой из École polytechnique fédérale de Lausanne и опубликовали статью на основе этих данных Quotebank: A Corpus of Quotations from a Decade of News [2]

Жаль ничего подобного нет для русского языка.

Ссылки:
[1] https://zenodo.org/record/4277311#.YFI7TNxn2Uk
[2] https://dl.acm.org/doi/10.1145/3437963.3441760

#opendata #openaccess #bigdata #research #datasets
Big data for economic statistics [1] свежий обзор практик применяемых статистическими ведомствами для мониторинга экономической ситуации и сбора оперативной экономической статистики.

Много примеров, например:
- Малазийское статведомство DOSM разработало собственный портал мониторинга цен данные для которого собирают парсингом с сайтов интернет-магазинов
- Аналогично статведомство Новой Зеландии собирает с помощью парсинга сайтов данные по ценам на еду и объединяет их с данными полученными из других источников
- аналогично поступают ещё около десятка статведомств других стран
- в Индонезии и в Грузии отслеживают статистику туризма с помощью данных сотовых операторов

И так далее, примеров много, областей и направлений работы с данными много. Всё это про альтернативные источники данных заменяющие классические статистические показатели. Важные для инвесторов, туристов и тех кто принимает решения внутри страны.

Ссылки:
[1] https://repository.unescap.org/handle/20.500.12870/3501

#statistics #bigdata #economics
В рубрике очень больших наборов данных OpenAlex [1] крупнейший каталог всех научных работ, научных организаций, конференций и авторов работ. Похожий на Microsoft Academic Graph, другой очень крупный набор данных со схожим составом. OpenAlex распространяется в виде слепков на Amazon AWS и через API. А также обещают в феврале 2022 года запустить веб-сайт.

Всё распространяется под лицензией CC0, так что это true open data, можно использовать для любых целей и задач. Например, если кто-то задумает реконструировать карту российской науки или отслеживать публикации по какой-либо редкой теме, этот датасет хорошо подойдет для затравки.

Ссылки:
[1] https://docs.openalex.org/

#bigdata #datasets #data #academic #research
В блоге Pinterest история про то как они выбирали и в итоге настроили оркестратор задач на базе Airflow [1]. Пост интересный, про сложную архитектуру, реально большие данные, сложные процессы и тд.

А также там же много интересных цифр про Pinterest:
- 500 петабайт данных всего
- 600 терабайт данных ежесуточно
- 4000 workflows
- 10 000 data flows
- 38 000 ежесуточных задач в среднем

Достоинство больших проектов и крупных команд как раз в таких масштабах и решениях возникающих от сложностей подобного объема данных.

А в случае Pinterest'а ещё и интересна их архитектура связки потоков данных, развертывания кода и кластеров Kubernetes.

Ссылки:
[1] https://medium.com/pinterest-engineering/spinner-pinterests-workflow-platform-c5bbe190ba5

#opensource #bigdata #datarchitecture #datapipelines