Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Оказывается я совершенно упустил эту новость, но в июне этого года оказывается Google купили за 2.6 млрд долларов США сервис Looker [1], один из лучших облачных сервисов по Business Intelligence. Теперь сервис переползает на Google Cloud, а в Google Cloud появляется нечто что имеет реальную ценность для многих корпоративных пользователей.

В принципе скупка онлайн BI сервисов крупными облачными игроками - это нечто что находится прямо на поверхности. Одна из проблем внешнего BI - это необходимость открывать для сервисов доступ к своим СУБД дистанционно и гонять довольно большие объёмы данных, а также безопасность вот этого всего. Перенос в облако даёт возможность и данные из облака подгружать и безопасность обеспечивать без необходимости открывать порты/коннекторы к конкретным базам данных.

Аналогично Looker'у в мае 2019 года был куплен Periscope Data [2], правда купили их Sisense, создатели другого BI решения, но я предсказываю что те облачные провайдеры которые не купят или построят свой BI будут договариваться о развертывании платформ на своей инфраструктуре.

Ссылки:
[1] https://looker.com/
[2] https://www.periscopedata.com/

#bi #businessintelligence #analytics
Вышел Apache Superset 1.0 [1] важная веха в развитии этого одного из лучших продуктов открытым кодом по Business Intelligence.

В релиз вошли:
- значительное ускорение производительности
- личные лендинговые страницы
- улучшенные дашборды
- графики через Apache eCharts
- удобное REST API

и ещё многое другое.

Из недостатков Superset остался тот что он плохо из коробки работает с NoSQL базами данных вроде MongoDB или ArangoDB, но для этого существует множество коннекторов через инструменты вроде Panoply, Stitch, Presto

Участникам хакатонов и конкурсов на заметку, Superset - это хороший конструктор для быстрой сборки визуальных продуктов. Не стоит стесняться его использовать и его стоит изучать.

Ссылки:
[1] https://github.com/apache/superset

#opensource #bi #data
У Бэна Стэнсила, основателя и руководителя аналитиками в стартапе Mode, замечательная заметка в его рассылке, с рефлексией о том как компании сейчас потребляют данные и как это возможно в будущем [1]. Основной посыл заметки в том что "фронтэнд разваливается" и приводит в пример десятки разных способов донесения данных через дашборды, тетрадки, сервисы визуализации, разные виды, формы и ориентации BI продукты и так далее. Идея в том что можно ли сделать открытый продукт к которому разные формы потребления данных можно было бы добавлять плагинами? По аналогии с Wordpress'ом и другими аналогичными экосистемными продуктами.

Идея интересная, созвучная многим, включая меня. Хотя я пока и не чувствую что разваливается именно фронтэнд и конечное потребление данных, скорее современный стек данных превращается в набор для сборки, а для кого-то и в паззл где своими силами ты делаешь только то что не можешь собрать из кубиков. Или делаешь то что хочешь продать/продавать. Отсюда и растущий запрос не просто на дата-инженеров, а на платформенных дата-инженеров, а может уже пора ввести понятие data-constructor ?

Когда я сейчас проектирую стартап и продукт по анализу и/или/или не обработки данных, я, как и многие, не мыслю категориями разработать его с нуля. Я смотрю на open source и облачные продукты и понимаю что: вот тут для ELT можно взять вот это, вот тут для BI вот это, вот тут для хранилища вот это, вот тут для сбора данных в реальном времени вот это, для пользовательского интерфейса вот это и так далее.

А рассылка Бэна весьма популярна в среде аналитиков и дата инженеров, всячески его рекомендую.

Ссылки:
[1] https://benn.substack.com/p/business-in-the-back-party-in-the-front

#data #thoughts #reading #dataengineering #bi
Вышла новая версия Metabase [1] опенсорсной и облачной системы визуализации дашбордами (BI системы). В этой версии добавили поддержку моделей и возможности моделирования структуры отображаемых данных для нетехнических пользователей и, в принципе, видно что продукт эволюционирует в сторону повышения его доступености для аналитиков без технического бэкграунда и большей поддержке облачных продуктов.

Собственно основные продукты по визуализации данных с открытым кодом готовые к быстрому корпоративному применению - это Metabase и Superset. Изменения в них весьма интересны.

Ссылки:
[1] https://www.metabase.com/blog/Metabase-0.42/index.html

# datatools #cloud #bi #metabase #opensource
Хороший текст “Semantic-free” is the future of Business Intelligence [1] о семантически-свободных BI продуктах и то что headless BI - это тоже семантически-свободный BI. Расшифровывается это как то что все BI инструменты должны соблюдать общие стандарты в результате применения которых можно использовать комбинации BI инструментов. Звучит здорово, но вообще безвендорный мир или мир с ослаблением вендоров сложен без административного или мощного рыночного давления.

Текст же весьма полезный для понимания некоторых проблем с BI которые после прочтения текста кажутся очевидными.

Ссылки:
[1] https://towardsdatascience.com/semantic-free-is-the-future-of-business-intelligence-27aae1d11563

#bi #datastandards
В рубрике интересных стартапов на данных Whaly [1] французский стартап в области автоматизации BI и аналитики, привлекший $1.9M венчурных инвестиций в июле 2022 г. [2]. Стартап любопытный в том что конкурирует с Looker, но своим рыночным преимуществом указывает что умеет интегрироваться с десятками онлайн сервисов и эта интеграция не требует внешнего ETԼ сервиса. Что, в целом, соответствует тому о чём писал Benn Stancil [3] о том что ETL бизнесу вроде Fivetran недолго осталось царствовать. Whaly продукт весьма любопытный, но бесплатно его не попробовать и ценообразование там какое-то непонятное, всё через созвон с сейлами и в прайс листе указано что
планы начинаются с $460 в месяц. Наверное сервис хороший, но вот этот вот подход с невозможностью бесплатного тестирования мне лично категорически не нравится.

И, признаюсь, я лично, обжёгшись на Gitbook'е и Scaleway очень настороженно отношусь к французским стартапам. Даже когда продукт выглядит интересно, customer service оказывается ужасающим.

Ссылки:
[1] https://whaly.io/
[2] https://www.crunchbase.com/organization/whaly
[3] https://benn.substack.com/p/how-fivetran-fails

#data #datatools #startups #analytics #BI
Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.

Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.

В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.

Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.

Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.

Ссылки:
[1] https://evidence.dev

#opensource #dataviz #bi #startups
Ещё один, нестандартный, каталог данных - это общедоступные инсталляции Superset [1]. Для тех кто не сталкивался ранее, Superset - это BI платформа с открытым кодом и с функциональностью каталога датасетов который там представлен в упрощённом виде, адаптированном под то что на основе данных строятся разного рода графики включаемые в дашборды.

Так вот, в мире есть как минимум сотня, может быть пара сотен инсталляций Superset в открытом доступе. Причём немало инсталляций от госорганов и научных организаций.

Выглядят они вот так, в общем-то ничем не отличаясь от внутрикорпоративных инсталляций.

Можно ли индексировать такие источники данных в поисковый индекс или это, всё же, ближе к инфобезу и утечкам данных?;)

Ссылки:
[1] https://superset.apache.org

#opendata #datasets #data #datatools #superset #bi #datacatalogs
Свежий любопытный инструмент Chartbrew [1], частичная замена Superset и ряду других BI инструментам. Одновременно существует как open source и как сервис.

Из плюсов:
- MIT лицензия
- поддержка MongoDB сразу и из коробки
- выглядит достаточно быстрым, судя по их живому демо

Минусы:
- никаких корпоративных СУБД, скорее акцент на онлайн сервисы
- есть сомнения в высокой настраиваемости, то что более продвинутые BI умеют хорошо
- непонятно что с локализацией, нет примеров

В итоге и судя по позиционированию выглядит как low-code BI для веб студий для их клиентов, там даже предусмотрена возможность создания аккаунтов клиентов.

Выглядит не очень продвинуто пока, но свою нишу может найти.

Ссылки:
[1] https://github.com/chartbrew/chartbrew
[2] https://app.chartbrew.com/live-demo

#opensource #bi #datatools