Ivan Begtin
9.09K subscribers
2.5K photos
4 videos
113 files
5.26K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Многие следят за событиями в Twitter'е с массовыми увольнениями инженеров и руганью Элона Маска с некоторыми из них публично. Можно смотреть на это с разными эмоциями, кто-то, надеюсь меньшинство думает что "так мол им и надо зажравшимся смузеедам", а кому-то события вокруг твиттера лишь в очередной раз напоминают что чем меньше ты зависишь от централизованных платформ тем лучше.

Поэтому, мой аккаунт в Mastodon https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.

На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com

#blogging
👍201
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.

Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.

А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]

Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3

#technology #blockchain
👍6😁3
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]

Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]

Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.

Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.

Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.

Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org

#opendata #contracting #procurement #usa #transparency
👍5
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].

Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.

Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.

Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.me/begtin/4382
[3] https://openownership.org

#opendata #opengov #transparency #eu
👍6🤔3😐21😁1
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities
7🔥3
В рубрике интересных инструментов работы с данными Rasgo [1], интерактивный каталог данных работающий поверх Snowflake и BigQuery и в планах команды поддержать RedShift и Delta Lake. Основная идея в том что командам по работе с данными может быть сложно работать с данными в облачных хранилищах и Rasgo должен помочь им в этих задачах. Через интерактивное построние запросов и систематизацию метаданных.

Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.

А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).

Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.

Ссылки:
[1] https://www.rasgoml.com/

#startups #data #datatools #dataengineering #datacatalogs
👍1
Для тех кто любит диаграммы и не любит рисовать их мышкой, декларативный язык программирования D2 [1] позволяет определить набором простых правил как необходимо отобразить нужные блоки диаграммы и получить нужную диаграмму автоматически.

Опубликовано с открытым кодом [2], может использоваться как утилита командной строки или как библиотека для языка Go.

Развивается стартапом Terrastruct [3] у которого есть облачный сервис генерации диаграмм. Стартап существует с 2019 года, а код D2 они выложили месяц назад. Выглядит он довольно зрелым и похож на внутреннюю разработку выложенную в открытый доступ и открытый код.

Ссылки:
[1] https://d2lang.com
[2] https://github.com/terrastruct/d2
[3] https://terrastruct.com/

#opensource #diagramming #datatools #programming
🔥15👍1
В The Verge статья [1] о том что Элон Маск собирается перезапустить механизм прямых сообщений в Twitter и дать возможность обмениваться зашифрованными сообщениями, аудио и видео и тд. И даже собираются сотрудничать с командой Signal в этой задаче. Звучит как конкурент как раз Signal, WhatsApp, Telegram (?), но от Элона Маска.

Может ли Twitter пройти такое преобразование? Почему бы и нет, тогда и логика с платностью аккаунтов и премиумом будет иметь больше пространств для расширения возможностей.

Иначе говоря, если Twitter сможет превратиться аналог в Telegram, то у Telegram՛а появится сильный конкурент. Хотя о чём я, скорее Telegram станет ещё более прямым аналогом Twitter'а ;)

Ссылки:
[1] https://www.theverge.com/2022/11/21/23472174/twitter-dms-encrypted-elon-musk-voice-video-calling

#twitter #telegram #tech #privacy
👍7
У Stable Diffusion, движка с открытым кодом для генерации изображений с помощью ИИ, вышла вторая версия [1] [2].

Среди возможностей:
- визуальное улучшение изображений в плохом разрешении
- развитая генерация изображений на основе изображений с сохранением структуры изображения
- улучшенная генерация изображений из текста
и ещё многое другое.

Если Вы ещё не пробовали Stable Diffusion, то определённо стоит попробовать.

Ссылки:
[1] https://stability.ai/blog/stable-diffusion-v2-release
[2] https://huggingface.co/stabilityai/stable-diffusion-2-base

#ai #opensource #datasets
👍5🔥4
Группа исследователей в области инфобеза выяснили что сервис аналитики компании Apple, так и называется Apple Analytics, собирает персонально идентифицирующую информацию о пользователях [1].

В передаваемых данных там есть параметр "dsId" который они проверили и подтвердили что он является "Directory Services Identifier”, уникальный идентификатор аккаунта iCloud, хотя в условиях использования Apple фигурирует что [2] None of the collected information identifies you personally.

Ждём опровержений, исков к Apple, расследований регуляторов в ЕС и США.

Ссылки:
[1] https://twitter.com/mysk_co/status/1594515229915979776
[2] https://www.apple.com/legal/privacy/data/en/device-analytics/

#privacy #security #apple #surveillance
😁5👍3🔥1
ТикТок анонсировали API для доступа к их аналитике исследователям/учёным [1]. Сами ссылки на API и форма запроса доступа, видимо, появятся позже, а сейчас с ними работают представители их Content and Safety Advisory Councils (общественных советов по контенту).

Ссылки:
[1] https://newsroom.tiktok.com/en-us/an-update-on-our-platform-api-for-researchers

#api #tiktok #transparency #data
👍9🔥1
Забавный текст и термин уютные данные или cozy data [1] за авторством Zach Musgrave в блоге Dolthub. Идея очень проста, в том что cozy data это такой антоним big data. Это такие данные которыми ты занимаешься как хобби, вроде личной картотеки личной коллекции бабочек или результативности игроков в настольный теннис. Иначе говоря это небольшие по объёму, хорошо структурируемые и лично курируемые данные над которыми, как правило, работает один человек, реже больше.

Если не считать того что автор бесстыдно рекламирует Dolthub сама концепция весьма интересная. Cozy дата в этом смысле - это бесконечно число баз в Excel и Access созданное за десятки лет. Частично их создатели перебрались в Google Sheets и Airtable, но далеко не все.

Для тех кто живёт в мире уютных данных главным недостатком онлайн сервисов является подписочная модель оплаты. Я больше поверю в развитие продуктов вроде Strapi и Directus именно для таких пользователей.

Но, кто знает, быть может кто-то ещё сможет создать гармоничное сочетание гибридного клиент-серверного аналога Access'а когда от потери доступа к онлайн сервису доступ к своим данным потерян не будет.

Ссылки:
[1] https://www.dolthub.com/blog/2022-11-18-cozy-data/

#data #datatools
👍12🥰51
Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.

Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.

Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]

Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.

Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries

#data #opendata #census #uk #statistics
👍9