В рубрике как это устроено у них европейский проект NGI Search по финансированию проектов по поиску и все что с ними связано через раздачу грантов проектам с открытым кодом. Последняя грантовая программа у них закончилась в 2024 году, а в августе 2025 года закончилось финансирование и доступны результаты всех поддержанных проектов.
Финансирование проходило через NGI0 Discovery Fund как часть программы Next Generation Internet Евросоюза.
В целом там есть что-то любопытное, но, по моим ощущениям, ничего прорывного. Единственное на что я лично обратил внимание - это Open Data Deep Search экспериментальный поисковик по данным с использованием LLM, но демо не впечатляет, по крайней мере ничего необычного.
В целом ощущение что каких-то ииноваций там ждать не стоит, хотя у меня были некоторые надежды увидеть (и повторно использовать) некоторые результаты, но это явно не тот случай.
С другой стороны открытых проектов по data search и data discovery не так много, наиболее системную инициативу по их поддержке я видел только у американской DARPA несколько лет назад в рамках программы D3M
#opendata #datasearch #datadiscovery #opensource
Финансирование проходило через NGI0 Discovery Fund как часть программы Next Generation Internet Евросоюза.
В целом там есть что-то любопытное, но, по моим ощущениям, ничего прорывного. Единственное на что я лично обратил внимание - это Open Data Deep Search экспериментальный поисковик по данным с использованием LLM, но демо не впечатляет, по крайней мере ничего необычного.
В целом ощущение что каких-то ииноваций там ждать не стоит, хотя у меня были некоторые надежды увидеть (и повторно использовать) некоторые результаты, но это явно не тот случай.
С другой стороны открытых проектов по data search и data discovery не так много, наиболее системную инициативу по их поддержке я видел только у американской DARPA несколько лет назад в рамках программы D3M
#opendata #datasearch #datadiscovery #opensource
www.ngisearch.eu
Home - NGI Search
❤3
Новый ИИ браузер ChatGPT Atlas от OpenAI, пока только для MacOS, но думаю что версии для других ОС недалеко. Из плюсов - тесная интеграция с ChatGPT и строка поиска совмещенная с AI чатом. Внутри всё работает на базе Chromium и много возможностей проистекающих из интеграции с браузером включая возможности задавать вопросы в контексте конкретного сайта.
Похоже на прямого конкурента, и браузера Comet от Perplexity и самого Google Chrome.
Лично я надеюсь что у Google Chrome появится полноценный конкурент, потому что конкуренция в этой области ох как необходима к тому же многие пользователи ох как устали от рекламного давления и AdTech монополий и наличие браузера интегрированного с сервисом за который и так платишь (если платишь) кажется логичной и потенциально удобной.
С другой стороны это всё больший путь в сторону зависимости от сервисов OpenAI. Поэтому хочется дождаться AI браузера с возможностью выбора сервиса ИИ на основе которого он бы работал. Локального или дистанционного, но по выбору потому что вендор-лок - это больно.
#ai #browser
Похоже на прямого конкурента, и браузера Comet от Perplexity и самого Google Chrome.
Лично я надеюсь что у Google Chrome появится полноценный конкурент, потому что конкуренция в этой области ох как необходима к тому же многие пользователи ох как устали от рекламного давления и AdTech монополий и наличие браузера интегрированного с сервисом за который и так платишь (если платишь) кажется логичной и потенциально удобной.
С другой стороны это всё больший путь в сторону зависимости от сервисов OpenAI. Поэтому хочется дождаться AI браузера с возможностью выбора сервиса ИИ на основе которого он бы работал. Локального или дистанционного, но по выбору потому что вендор-лок - это больно.
#ai #browser
Openai
Introducing ChatGPT Atlas
The browser with ChatGPT built in.
🔥4💯2
К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.
Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.
В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.
Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.
Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами
Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.
Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.
Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.
#digitalpreservation #webarchives #thoughts
❤4✍3⚡2
Чувствую что первой, возможно, короткой книжкой которую я напишу будет книга о цифровом сохранении. Потому что все остальные мои цифровые хобби уже превратились в работу, а это всё ещё именно хобби.
А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта
Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.
Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.
Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.
2. Использование архивов сайтов
После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.
ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.
pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.
Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.
3. Анализ и обработка WARC файлов
Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.
Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.
Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides
А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта
Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.
Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.
Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.
2. Использование архивов сайтов
После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.
ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.
pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.
Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.
3. Анализ и обработка WARC файлов
Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.
Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.
Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides
❤9👍6🔥4
Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
🤣12😱3❤2👍2
Периодически посматриваю видео с семинаров Future Data Systems Seminar Series — Fall 2025 которые проводят CMU Database Group и там выступают фаундеры и ключевые разработчики многих современных дата продуктов и технологий работы с данными, вроде Russel Spitzer, руководителя проекта Apache Iceberg и др.
А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox
У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.
Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.
#rdbms #opensource #databases
А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox
У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.
Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.
#rdbms #opensource #databases
❤8
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
Nieman Lab
The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects
Between May and October 2025, homepage snapshots fell by 87% across 100 news publications.
👍7😢2✍1🤔1
Я за последние несколько дней несколько раз от разных людей слышал тезис о том что Python медленный язык программирования и скажу по собственному опыту что это и правда и неправда одновременно. Важнее то что Python - это язык в котором производительность приложения значительно зависит от квалификации разработчика. Многие решения по оптимизации кода, скажем так, не на поверхности да и ИИ агенты чаще не создают оптимальный код потому оптимизации могут быть за пределами Python, но быть с Python связанными.
Приведу несколько примеров:
1. Начну с самого очевидного, обработки данных. Какое-то время назад я писал инструменты и отдельные скрипты для обработки данных в достаточно больших объёмах используя как стандартные библиотеки Python так и pandas. Производительность была неоптимальной, сотни миллионов записей на настольном компьютере могли обрабатываться часами. Решение резко ускоряющее работу было в переходе на DuckDB и Polars, а это не оптимизация кода, а зачастую его переписывание. Это, действительно, самое очевидное, настолько что даже рассказывать о таком неловко😉
2. Оптимизация регулярных выражений. Какое-то время назад я создавал библиотеку qddate для парсинга дат в условно любом формате. qddate сейчас поддерживает множество шаблонов написания дат и работает достаточно быстро, а по началу скорость работы была ужаснейшей. Потому что я вначале воспользовался стандартной библиотекой для регулярных выражений в Python и столкнулся с её, мягко говоря, неоптимальностью. У меня даже были мысли написать свой движок или сделать обертку для работы с более производительными версиями. И даже создать свой собственный язык правил для упрощения парсинга дат, он был бы сильно проще чем использовать полный набор возможностей регулярных выражений. В итоге оказалось что все решилось через написания правил на PyParsing. Этот же подход я применял далее для инструментов вроде metacrafter'а по идентификации семантических типов данных. Там не просто так всё на прямом мэтчинге строк и PyParsing.
3. RoundRobin к серверу на Python. Больше 24 лет назад я совмещал работу спеца по автоматизации тестирования и программиста. В основном я занимался автоматизацией тестирования, но там когда всё настроишь то оказывалось что остается время для других задач (шутка). Однажды мне на тестирование передали здоровенную расчетную машинку набитую процессорами и способную сравнивать до нескольких миллионов отпечатков пальцев в секунду. Уникальная штука по тем временам и адски недоделанная. У неё отсутствовал управляющий контур, процессоры периодически переставали реагировать на команды и им был нужен мягкий сброс, а самое главное что эта штука была одна и работать с ней разработчиками клиентского приложения и тестировать её мне было сложно одновременно. Опущу историю как я приделывал на ходу управляющий контур и расскажу что для тестирования мне, фактически пришлось, реконструировать бинарный протокол работы с этим сервером и сделать эмулятор на Python который, конечно же, безбожно тормозил, особенно после того как он не просто эмулировал и давал тестовую выдачу, а когда к нему удалось прикрутить неоптимизированную DLL библиотеку и реально матчить отпечатки пальцев, но ооочень медленно. Библиотека была однопоточной и любые оптимизации на Python упирались в это до 100% загрузки процессора. Решением было в в том чтобы форкать до десятков экземпляров эмуляторов и универсального пакета для запуска на множестве серверов и рабочих станций, а разработчики клиентского приложения добавили опцию загрузки во множество серверов сразу. Это и так было запланировано, но тут было уже просто нужно иначе ПО было не проверить.
Приведу несколько примеров:
1. Начну с самого очевидного, обработки данных. Какое-то время назад я писал инструменты и отдельные скрипты для обработки данных в достаточно больших объёмах используя как стандартные библиотеки Python так и pandas. Производительность была неоптимальной, сотни миллионов записей на настольном компьютере могли обрабатываться часами. Решение резко ускоряющее работу было в переходе на DuckDB и Polars, а это не оптимизация кода, а зачастую его переписывание. Это, действительно, самое очевидное, настолько что даже рассказывать о таком неловко😉
2. Оптимизация регулярных выражений. Какое-то время назад я создавал библиотеку qddate для парсинга дат в условно любом формате. qddate сейчас поддерживает множество шаблонов написания дат и работает достаточно быстро, а по началу скорость работы была ужаснейшей. Потому что я вначале воспользовался стандартной библиотекой для регулярных выражений в Python и столкнулся с её, мягко говоря, неоптимальностью. У меня даже были мысли написать свой движок или сделать обертку для работы с более производительными версиями. И даже создать свой собственный язык правил для упрощения парсинга дат, он был бы сильно проще чем использовать полный набор возможностей регулярных выражений. В итоге оказалось что все решилось через написания правил на PyParsing. Этот же подход я применял далее для инструментов вроде metacrafter'а по идентификации семантических типов данных. Там не просто так всё на прямом мэтчинге строк и PyParsing.
3. RoundRobin к серверу на Python. Больше 24 лет назад я совмещал работу спеца по автоматизации тестирования и программиста. В основном я занимался автоматизацией тестирования, но там когда всё настроишь то оказывалось что остается время для других задач (шутка). Однажды мне на тестирование передали здоровенную расчетную машинку набитую процессорами и способную сравнивать до нескольких миллионов отпечатков пальцев в секунду. Уникальная штука по тем временам и адски недоделанная. У неё отсутствовал управляющий контур, процессоры периодически переставали реагировать на команды и им был нужен мягкий сброс, а самое главное что эта штука была одна и работать с ней разработчиками клиентского приложения и тестировать её мне было сложно одновременно. Опущу историю как я приделывал на ходу управляющий контур и расскажу что для тестирования мне, фактически пришлось, реконструировать бинарный протокол работы с этим сервером и сделать эмулятор на Python который, конечно же, безбожно тормозил, особенно после того как он не просто эмулировал и давал тестовую выдачу, а когда к нему удалось прикрутить неоптимизированную DLL библиотеку и реально матчить отпечатки пальцев, но ооочень медленно. Библиотека была однопоточной и любые оптимизации на Python упирались в это до 100% загрузки процессора. Решением было в в том чтобы форкать до десятков экземпляров эмуляторов и универсального пакета для запуска на множестве серверов и рабочих станций, а разработчики клиентского приложения добавили опцию загрузки во множество серверов сразу. Это и так было запланировано, но тут было уже просто нужно иначе ПО было не проверить.
🔥10👏9❤3
Возвращаюсь к взгляду на Python как на медленный язык уже взглядом технического директора и человека формирующего технические команды я бы сказал так что специалисты способные писать на нём оптимизированный код стоят столько же сколько специалисты владеющие Rust и другими оптимизированными языками разработки, более заточенными на высокопроизводительные решения.
Для обработки данных сейчас Python совсем не медленный язык, он становится гораздо быстрее в связке с библиотеками на Rust и знанием некоторых архитектурных подходов которые помогают в работе.
Python сейчас - это основной язык работы для дата инженеров и дата аналитиков, знание способов его оптимизации даёт много возможностей по его ускорению.
#python #thoughts #memories
Для обработки данных сейчас Python совсем не медленный язык, он становится гораздо быстрее в связке с библиотеками на Rust и знанием некоторых архитектурных подходов которые помогают в работе.
Python сейчас - это основной язык работы для дата инженеров и дата аналитиков, знание способов его оптимизации даёт много возможностей по его ускорению.
#python #thoughts #memories
2✍17👍4👏4⚡3❤2
Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.
#opensource #tools #datatools
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.
#opensource #tools #datatools
www.dash.builders
Dash - Data Exploration Tool
Open-source data visualization tool with DuckDB.
👍10✍7❤5
Что тут скажешь, не достигло ли влияние западной цивилизации апогея с появлением "западноевропейского ИИ" или же компании будут делать адаптированные версии/ответы под разные страны и культуры?
#ai #worldvalues #surveys
1👍14😁7❤1
Nixiesearch любопытный поисковый движок со встроенным ИИ поиском, позиционируется как альтернатива Elasticsearch и Opensearch, внутри использует Apache Lucene, хранит индекс в S3 и индексирование через pull запросы без необходимости отправлять JSON в индекс постоянно.
Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.
Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.
Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.
Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.
Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.
Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.
Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.
#opensource #data #search #ai #vectorsearch
Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.
Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.
Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.
Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.
Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.
Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.
Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.
#opensource #data #search #ai #vectorsearch
👍5✍3❤3
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
😢9👍3⚡1😱1💯1
В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
🔥4❤1
Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM
#links #readings #ai #data #datatools
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM
#links #readings #ai #data #datatools
stackoverflow.blog
AI vs Gen Z: How AI has changed the career pathway for junior developers - Stack Overflow
✍5⚡1
Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.
- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML
А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных
И это далеко не полный список.
#opendata #specifications #datasets #standards
- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML
А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных
И это далеко не полный список.
#opendata #specifications #datasets #standards
Substack
Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
«Буду делать хорошо, и не буду — плохо». (Маяковский)
🔥2❤1🌚1
В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.
#opendata #datacatalogs #datasets #eu #openaccess
#opendata #datacatalogs #datasets #eu #openaccess
👍3
Элон Маск запустил Grokipedia как альтернативу Википедии проверямую и улучшаемую с помощью ИИ в виде Grok от xAI.
Многие пишут что там всего 885 тысяч статей против 7 миллионов в английской википедии, но, я бы сразу смотрел на этот вопрос шире.
У Grokipedia есть важная фишка - отсутствие необходимости привлекать редакторов людей, а это именно то что сейчас является проблемой переходящей в системный кризис для Википедии. У Википедии падает посещаемость потому что ИИ сервисы отнимают трафик и по множеству причин падает мотивация редакторов.
Одна из "фишек" Grokipedia в факт чекинге к статьям, вот пример статьи Aloha где Grok убрал или отредактировал ряд утверждений.
В каком-то смысле Grokipedia - это проект схожий с российским РуВики или Baike в Китае, но с ИИ главредом и с тем что люди если и будут участвовать в редактировании, то лишь опосредствано.
Не так важно взлетит ли конкретно Grokipedia, как то что сама концепция ИИ надстройки над Википедией и другими ресурсами может оказаться живучей и это будет далеко не последним заходом на эту задачу.
#wikipedia #ai
Многие пишут что там всего 885 тысяч статей против 7 миллионов в английской википедии, но, я бы сразу смотрел на этот вопрос шире.
У Grokipedia есть важная фишка - отсутствие необходимости привлекать редакторов людей, а это именно то что сейчас является проблемой переходящей в системный кризис для Википедии. У Википедии падает посещаемость потому что ИИ сервисы отнимают трафик и по множеству причин падает мотивация редакторов.
Одна из "фишек" Grokipedia в факт чекинге к статьям, вот пример статьи Aloha где Grok убрал или отредактировал ряд утверждений.
В каком-то смысле Grokipedia - это проект схожий с российским РуВики или Baike в Китае, но с ИИ главредом и с тем что люди если и будут участвовать в редактировании, то лишь опосредствано.
Не так важно взлетит ли конкретно Grokipedia, как то что сама концепция ИИ надстройки над Википедией и другими ресурсами может оказаться живучей и это будет далеко не последним заходом на эту задачу.
#wikipedia #ai
👍10