Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я хотел всё это как-то прокомментировать, но у меня "неделя без матерных слов", так что это полезно почитать и помнить что лучше не болеть (с) потому что наступит момент когда таки появится "система поддержки принятия врачебных решений на основе жалоб" и не только
🔥5😢21👍1
В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.

Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.

Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.

#opendata #dateno #datasets #datadiscovery
4
Для тех кто любит исследовать данные, любопытный open source проект с непереводимым, но благозвучным названием huey который внутри использует DuckDB-WASM, а на вход разные дата файлы - parquet, csv, json и др. и позволяет их исследовать прямо в браузере. Можно отнести его к категории data exploration tool, их всё больше, все немного разные и безусловно иногда необходимые.

Из минусов:
- не поддерживает CSV файлы с кодировками отличными от utf8
- не всегда умеет распознавать структуру файлов

Из плюсов:
- всё локально в браузере

#opensource #datatools #duckdb
🔥7😁1
Риски открытого кода в живом примере - выступление и презентация единственного мэйнтейнера проекта curl Дэниэля Стенберга о том что его продукт используется в более чем 20 миллиардах устройств, но ни одна из компаний в продуктах которых он используется его не поддерживает. В общем-то реальность такова что таких продуктов с открытым кодом довольно много, может быть не с десятками миллиардов инсталляций, а лишь сотен миллионов, но у них у всех одинаковя ситуация:
- единственный майнтэйнер.
- отсутствие поддержки со стороны использующих компаний.

Не похоже что эта ситуация поменяется в скором времени, а вот случаи когда такие разработчики могут оказаться под пристальной атакой хакеров, социальной инженерии и тд. участятся.

#opensource
1😢14👍4❤‍🔥2
Свежая научная статья как дополнительное подтверждение того что начинающие разработчики всё менее востребованы, а опытные разработчики востребованы всё более. В выводах в статье ещё есть упоминание о том что более всего это бьёт по выпускникам ВУЗов средней руки, а вот лучшие и наиболее слабые затрагивает в меньшей степени.

Всё это про рынок труда в США, конечно же.

#ai #jobs #it
👍9😢53😁1
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)

#opendata #datasets #geodata
🔥20🤩2
Полезное ссылки про данные, технологии и не только:
- From SEO to AIO: Why Your Content Needs to Exist in AI Training Data заметка рассказывающая о том почему нужно предоставлять свой контент в интернете для обучения ИИ. Критических ни одного, важно помнить про природу этой дискуссии. Common Crawl получили много средств от ИИ компаний в последние пару лет поскольку собранные ими данные - это один из столпов обучения на текстах.
- Common Crawl Foundation Opt-Out Registry буквально в продолжение чтения про тексты для ИИ, Common Crawl создали реестр запросов на запрет на индексирование. Его можно посмотреть в виде Google таблицы. Основная идея за этим реестром в том чтобы уведомить пользователей Common Crawl о том есть список правообладателей от которых надо держаться подальше. Список быстро прирастает
- DuckDB benchmarked against Spark про бенчмарки баз данных о том что DuckDB в 100x быстрее обрабатывает данные чем Apache Spark при тестировании на 20GB файлах Parquet. Это и логично потому что DuckDB оптимизирован под локальную обработку, а Spark под масштабирование, но и одновременно DuckDB либерализует локальную обработку данных.
- Git diagrammer онлайн сервис от стартапа Eraser по превращению репозиториев в Github в диаграммы. Любопытная бесплатная (но не с открытым кодом) штука которая может быть полезна для отрисовки некоторых типов диаграмм. Сам стартап с очень интересной идеей, но, ИМХО, усложнённой реализацией. Ту же самую идею автодокументирования и автопроектирование продуктов можно было сделать проще, понятнее и тд. На мой вкусно, конечно
- Hyperfine инструмент измерения производительности приложений в командной строке. Полезно когда надо сравнивать инструменты в режиме холодного запуска, с учётом их инициализации и выполнения задачи. Не в серверном варианте, в общем, а в рабочем окружении локально.

#opensource #ai #datatools #datadocumentation #digitalpreservation
3
Про цифровой суверенитет многие говорят не только в РФ, но и в Евросоюзе и в странах Глобального Юга, тут важно помнить что никто из них при этом не экспериментирует с тотальными вариантами самоизоляции и отключениями мобильного интернета. В принципе мне лично не нравится что эту практику пытаются подать как нечто нормальное, это ненормально, конечно же и каждое применение такой меры - это экстраординарная ситуация.

Важно только помнить что цифровой суверенитет - это антоним цифрового колониализма. Главный лозунг цифрового суверенитета в ЕС - это снижение зависимости от США (трудноосуществимое на практике, конечно же, но тренд именно туда). И надо понимать что как раз рост продажи цифровых сервисов другим странам - это и есть попытки уменьшить их цифровой суверенитет. К примеру, когда я читаю новости про рост продажи цифровых услуг из РФ в страны Центральной Азии - это именно этим и является. Также как и активная, а иногда и агрессивная продажа цифровых услуг стран Европы в развивающиеся страны.

Поэтому цифровой суверенитет - это про то что никто не хочет быть цифровых колонией, но от своих цифровых колоний не отказались бы.

Поэтому не обманывайтесь речами тех кто о нём говорит, это всё разговоры про власть и наличие рубильника отключающего всё или что-то конкретное. Никто не хочет чтобы у соседей был рубильник отрубающий его квартиру, но многие могут хотеть рубильник отключающий соседа.

#thoughts
💯177🌚1
В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.

Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr

В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.

#opendata #korea #datasets
6
Я тут всё подумывал рассказать о том что творится в мире с открытыми данными с точки зрения сообщества, но как не начну текст получался слишком длинным, сжать никак не получалось, но я попробую хотя бы кратко изложить:
1. Главная проблема всего явления открытых данных в том что данные - это не инструменты, а топливо. С одной стороны все хотят много бесплатного хорошего топлива, а с другой топливо - это не инструмент. Если для открытого кода появилось бизнес модели в основе которых открытый продукт под свободной лицензией, а коммерческий продукт - это, обычно, SaaS. Для открытых данных так не получается и, в лучшем случае, это бизнес как у Фонда Викимедия - открытое идёт обычными дампами, а коммерческое - как дампы адаптированные для ИИ.
2. Как и многие другие области жизни связанные с данными открытые данные активно пожираются ИИ. Кто-то из активистов демотивировался тем что усилия предпринимают они, а зарабатывают на этом бигтехи, кто-то быстро убежал/убегает заниматься ИИ агентами (в основном наиболее технически подкованные), кто-то выпадает из мейнстрима всё больше и дата инженерия/дата сайенс и открытые данные пересекаются плохо.
3. Практически все компании которые делают инструменты для работы с открытыми данными (Datopian, Link Digital, OpenDataSoft) и др. в мир дата инженерии включены слабо, инструменты их выглядят всё более слабо. Исключения OpenDataSoft и Esri с их ArcGIS Data Hub, из-за изначально хорошей коммерческой стратегии, но рынки внедрения их продуктов весьма ограничены.
4. Сама тусовка по открытым данным весьма левая, анти-бигтеховая, с активным уходом в тематики AI literacy. Гранты от ЕС и близких по духу частных фондов? Все готовы. Взаимодействовать с Microsoft или Amazon или Google по повышению доступности данных на базе облачных платформ или в бизнес интересах ? Нее, не готовы.
5. Основное финансирование открытости данных в межгосударственных организациях уходит на поддержку сообществ в наименее развитых странах глобального юга. Это видно по проектам вроде Global Data Barometer
6. Для развитых стран уже считается что если ты развитая страна то открытость гос-ва и открытость данных - это как бы то что должно быть обеспечено по умолчанию. На это ориентированы рейтинги и мониторинги ЕС и ОЭСР, к примеру.
7. В азиатских странах гораздо более сильный акцент на доступности данных для бизнеса чем для граждан (Южная Корея, Япония, Китай)
8. В науке тема открытых данных просто слилась с тематикой открытого доступа и активно развивается и имеет очень чёткие дисциплинарные границы и особенности.
9. В развитых странах сильные акценты на high-value datasets (датасеты высокой ценности). Не только в Евросоюзе, но там наиболее институционально.
10. В целом российская/русскоязычная тусовка как тусовка одна из крупнейших в мире. Данных мало, а людей немало. В большинстве развитых стран всё наоборот, данных очень много, активистов совсем немного и они довольно сильно фрагментированы.

#opendata #thoughts #community
🔥143🤔2👍1💯1
И ещё немного про рынок труда в ИТ, главное изменение в том что рынок перебалансировался и снова стал рынком компаний, а не соискателя. Для соискателей - это боль и существенное изменение, но пока этот баланс не уравновесился до конца то и конфликты происходят из-за несоответствия ожидания сторон. Соискатели ищут зарплату выше рынка и условия работы такие какие были несколько лет назад, компании сталкиваются с тем что теперь необходимо делать техническое интервью с каждым потому что слишком много желающих решать домашние задания с помощью ИИ.

Если говорить про РФ то всё идёт к тому что тема импортозамещения уходит в ИТ крупняк, у ИТ компаний постепенно начнут подрезать льготы, а "лайфхаки" вроде зарегистрировать компанию в Сколково и нанимать самозанятых вместо трудовых отношений могут очень быстро перестать работать. Плюс перегрев рынка большим числом окончивших "быстрокурсы" специалистов.

В мире всё идёт стремительно в сторону автоматизации ИТ процессов с помощью ИИ и тотальной замены всех и вся на ИИ не произойдет, но сокращения идут и продолжатся.

Всё это к тому что хорошие психологи всегда в цене:) Или коньяк, армянский коньяк актуален всегда;)

#thoughts #it
👍202😁2
Perplexity анонсировали новое API для поиска https://www.perplexity.ai/hub/blog/introducing-the-perplexity-search-api надо потестить ибо больше API для поиска - это полезно и нужно.

#api #ai #websearch
👍6
Пару недель назад прошла новость что в Албании назначили первого в мире ИИ министра Diella которая входит в кабинет министров и, кроме всего прочего, обеспечивает прозрачность госзакупок. Я эту новость прочитал ещё давно, но тянул с рассуждениями о ней ожидая критики, потому что уж очень это всё звучало популистски. Критики этой, конечно же, привалило, ключевое в ней то что ИИ системы/чатботы работают настолько хорошо насколько хороши данные на которых они обучены и алгоритмы и обучение Diella непрозрачны, известно только лишь что для этого использовались 36 тысяч документов на середину 2025 года.

Мне слишком много есть что сказать про применение ИИ в части борьбы с коррупцией и в отношении госзакупок в частности, ключевое, конечно же, в том что именно госзакупки - это лишь одна из стадий процессов приобретения работ, товаров и услуг. Все кто хоть более менее как-то знают как это работает изнутри отдают себе отчёт что коррупция возникает не только на процедурном этапе, а не менее важна на этапе планирования и ещё более на этапе исполнения контрактов.

Автоматизировать выявление закупок с признаками риска (red flags) - это не сложная работа, вернее все сложности там с внедрением этого в практику, а не с пониманием того что надо внедрять. А вот автоматизированный контроль с помощью ИИ за тем как принимались решения и тем как исполнялись контракты - вот это самая сложная часть с бесконечной сложностью безумного сопротивления госаппарата на любые попытки применять подобное на практике. Потому что это будет тем что залезает в самую подноготную процессов и даёт возможность тотального контроля.

При этом, применения ИИ хотя бы большей системности в госконтроле и госпланировании более чем возможно. Кое-где даже идут такие эксперименты. Но албанский опыт я на практике не использовал.

Албания не то чтобы большая страна, это 2.7 миллиона человек с ВВП 27 млрд USD, это почти как Новосибирская область в РФ, где примерно столько же людей и ВРП 2.6 млрд USD.

Всё это я к тому что при таких масштабах не нужен ИИ, это всё поддаётся ручному автоматизированному анализу и в таком виде ИИ ассистент - это однозначный популизм.

#thoughts #albania #ai #procurement
😁8👏61💯1
Artificial Intelligence and Open Government: Local Perspectives свежий документ от Open Government Partnership о применении ИИ на уровне муниципалитетов/городов, в основном в странах ОЭСР и иных входящих в OGP. Примеров там куда меньше чем хотелось бы, больше про базовые принципы этичности и подотчетности ИИ, но какие-то полезные факты есть с тем что в ИИ всё больше применяют в городских услугах, сервисах коммуникации с гражданами и тд. И, конечно, это документ отражающий больший тренд на сдвиг в сторону открытости и прозрачности применения ИИ в международных организациях.

#ai #opengovernment
👍5
Полезный текст The End of the User Interface? о том что интерфейс чат-ботов и ИИ агентов сжирает все остальные интерфейсы пользователей и о будущем специалистов по UI/UX. Рассуждения полезны, а многочисленные ссылки на другие публикации ещё полезнее.

Я тоже размышлял на эту тему и мне такой подход к пользовательскому интерфейсу скорее не нравится. Хотя ИИ агенты умеет давать структурированные ответы, но не всегда работа через естественный язык удобнее чего-либо другого. К примеру, использование ИИ как персональных ассистентов удобно в одних задачах и неудобно в других. К, примеру, когда нужно описаться от конкретной рассылки в почте то можно использовать запрос естественным языком. А если надо отписаться от нескольких десятков и с ручным выбором рассылок, то естественный язык не годится.

Тут вопрос как скоро появятся динамический интерфейсы под разные задачи и насколько будут удобны они.

#thoughts #ui #ux
5👍8🤔2💔1
Основатели Polars, высокопроизводительного движка на базе Rust для работы с датафреймами подняли $18 миллионов инвестиций на их облачный продукт Polars Cloud в котором обещают интегрировать обработку данных в облаке и сделать её потоковой. За основателей продукта можно только порадоваться, а как это отразится на их открытом продукте пока непонятно, но думаю что достаточно очевидно что явно они меньше смогут уделять внимание открытой части кода и будут больше внимание уделять коммерческому облачному продукту. Впрочем конкуренция суровая и у Polars в избытке альтернатив начиная с DuckDB, продолжая облачным Clickhouse и ещё много какими другими продуктами.

Однако стоит обратить внимание на стратегию которая привела к успешному привлечению инвестиций. Ребята взяли готовый продукт и сохраняя его интерфейс переписали его в более производительную версию за счёт переписывания на низкоуровневом языке, в данном случае Rust.

#opensource #startups #dataengineering
🔥7💯21
Разное чтение

F-Droid пишут что решение Google об обязательной верификации всех приложений на устройствах на базе Android убьёт их проект и призывает писать своим парламентариям и конгрессменам чтобы те не допустили подобного. История про превращение экосистемы Android'а в закрытую, конечно, плохая. Право распоряжаться собственными устройствами лично я считаю неотъемлимым.

Small data короткий текст в котором автор пишет о том что развитие железа и инструментов работы с данными привело к тому что нет проблемы работать с данными подавляющего большинства компаний без больших инфраструктурных расходов. Тут нет big data, тут только small data. Я на эту тему говорю обычно о том что "Вы не начинаете производить больше данных, а вот инструменты обработки данных развиваются стремительно".

Отдавайте сразу Markdown вместо HTML для скармливания данных LLM. Мысль простая и довольно любопытная, отдавать Markdown текст вместо HTML по HTTP заголовку типа mime. А почему бы и нет?

#readings #data #privacy #ai
1😱6👍3
Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.

В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.

#opendata #startups #datacatalogs
4👍3💯1