Ivan Begtin – Telegram

Ivan Begtin

9.07K subscribers

2.56K photos

5 videos

114 files

5.34K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.07K subscribers

В рубрике как это устроено у них европейский проект NGI Search по финансированию проектов по поиску и все что с ними связано через раздачу грантов проектам с открытым кодом. Последняя грантовая программа у них закончилась в 2024 году, а в августе 2025 года закончилось финансирование и доступны результаты всех поддержанных проектов.

Финансирование проходило через NGI0 Discovery Fund как часть программы Next Generation Internet Евросоюза.

В целом там есть что-то любопытное, но, по моим ощущениям, ничего прорывного. Единственное на что я лично обратил внимание - это Open Data Deep Search экспериментальный поисковик по данным с использованием LLM, но демо не впечатляет, по крайней мере ничего необычного.

В целом ощущение что каких-то ииноваций там ждать не стоит, хотя у меня были некоторые надежды увидеть (и повторно использовать) некоторые результаты, но это явно не тот случай.

С другой стороны открытых проектов по data search и data discovery не так много, наиболее системную инициативу по их поддержке я видел только у американской DARPA несколько лет назад в рамках программы D3M

#opendata #datasearch #datadiscovery #opensource

www.ngisearch.eu

Home - NGI Search

❤3

1.4K viewsIvan Begtin, 13:21

Новый ИИ браузер ChatGPT Atlas от OpenAI, пока только для MacOS, но думаю что версии для других ОС недалеко. Из плюсов - тесная интеграция с ChatGPT и строка поиска совмещенная с AI чатом. Внутри всё работает на базе Chromium и много возможностей проистекающих из интеграции с браузером включая возможности задавать вопросы в контексте конкретного сайта.

Похоже на прямого конкурента, и браузера Comet от Perplexity и самого Google Chrome.

Лично я надеюсь что у Google Chrome появится полноценный конкурент, потому что конкуренция в этой области ох как необходима к тому же многие пользователи ох как устали от рекламного давления и AdTech монополий и наличие браузера интегрированного с сервисом за который и так платишь (если платишь) кажется логичной и потенциально удобной.

С другой стороны это всё больший путь в сторону зависимости от сервисов OpenAI. Поэтому хочется дождаться AI браузера с возможностью выбора сервиса ИИ на основе которого он бы работал. Локального или дистанционного, но по выбору потому что вендор-лок - это больно.

#ai #browser

Introducing ChatGPT Atlas

ChatGPT Atlas, the browser with ChatGPT built it. Get instant answers, summaries, and smart web help—right from any page. With privacy settings you can control. Available now for MacOS.

🔥4💯2

1.28K viewsIvan Begtin, 16:08

К разговору о конкурсах и так далее я давно хочу организовать онлайн конкурс по инструментам цифровой архивации и пока единственное что меня сдерживает - это то что я не могу сказать что хорошо понимаю получится ли собрать участников заинтересованных именно в ней.

Потому что эта мысль меня не покидает в том числе потому что из-за того что работа над ruarxive.org для меня является далеко не основной и я регулярно возвращаюсь к мыслям как её оживить вовлекая сообщество.

Цифровая архивация - это довольно специфическая тема про данные которые с дата инженерией и data science пересекается только в части обучения LLM'ок и пока из всех известных мне проектов наиболее продвинутыми технологически являются те которые в этом помогают - это Common Crawl и ряд пиратских библиотек.

В остальном же есть экосистема WARC с пулом инструментария созданного в командах Archive.org, Browsetrix и некоторых национальных архивов и библиотек. Я также делал инструмент metawarc с акцентом на исследование метаданных внутри веб архивов, в первую очередь для анализа метаданных внутри файлов документов.

Кроме экосистемы WARC есть ещё и гораздо менее развитые инструменты архивации соцсетей, иных цифровых ресурсов и тд. Как правило для архивации того что веб-краулерам не поддается. Та же архивация телеграм каналов, чатов в WhatsApp или чатов и каналов в других мессенжерах.

Но в целом задачи по цифровой архивации можно разделить на следующие:
- создание и улучшение инструментов архивации и анализа архивов
- создание архивов и коллекций каких-либо значимых цифровых ресурсов
- создание инструментов каталогизации накопленных архивов, а также поиска по ним, индексации и тд
- создание обучающих курсов и материалов, гайдов, инструкций, видеолекций. Может быть тетрадок для Jupyter Notebook для работы с цифровыми архивами

Отчасти сюда можно отнести и выкладку датасетов на основе оцифрованных нецифровых материалов и создание инструментов для работы с цифровыми коллекциям изначальное нецифровых материалов.

Может быть решение вообще в другой плоскости и в том чтобы найти для ruarxive.org активного куратора, а может быть все же в том чтобы вовлечь сообщество тем способом что я описываю, но с учетом ограниченности меня по времени.

Вот примерно об этом я думаю в контексте цифровой архивации. Заодно наблюдаю как в США сейчас ренессанс цифровой архивации на фоне спасения гос-сайтов уничтоженных Администрацией Трампа и их воссозданием как общественных проектов активистами.

#digitalpreservation #webarchives #thoughts

❤4✍3⚡2

1.4K viewsIvan Begtin, edited 17:06

Чувствую что первой, возможно, короткой книжкой которую я напишу будет книга о цифровом сохранении. Потому что все остальные мои цифровые хобби уже превратились в работу, а это всё ещё именно хобби.

А пока короткий гайд о том как работать с веб архивами, файлами WARC для тех кто планирует сохранять значимые для себя сайты или работать с их содержимым.
—
1. Создание копии сайта

Самый простой способ создания веб архивов - это использование инструментов командной строки wget или wpull. wget есть практически на всех платформах, но и имеет ограничения по размеру и настройкам. wpull - это инструмент созданный как клон wget на Python и он включает много новых опций и скриптинг на Lua. Из его минусов - это он поддерживается хуже чем wget и могут потребоваться доп усилия чтобы его установить.

Чуть более продвинутый инструмент - это grab-site в основе которого лежит wpull, но он позволяет ещё и в реальном времени менять настройки краулинга и другие параметры.

Более сложные инструменты включают серверные краулеры такие как Heritrix, Nutch и Zeno, их легко нагулить. но они довольно непросты в настройке и требуют довольно комплексной инфраструктуры.

2. Использование архивов сайтов

После создания WARC файла или множества файлов есть задача в том чтобы посмотреть их содержимое. Это делается с помощью специальных инструментов таких как ReplayWeb.page и pywb.

ReplayWeb.page - это настольное приложение с помощью которого можно открыть локально сохраненный WARC файл и смотреть его словно в браузере.

pywb - это серверное приложение которое индексирует WARC файлы по представленному списку и создает веб интерфейс похожий на интерфейс веб коллекций в Archive.org.

Есть и другие инструменты выполняющие эти функции, но они значительно менее популярны.

3. Анализ и обработка WARC файлов

Содержимое WARC файлов часто может быть предметом интереса для последующих задач анализа и обработки содержимого. Например, если Вы обучаете нейросеть по содержанию сайта архив которого у Вас есть в наличии или если Вам необходимо извлечь какие-то конкретные файлы и данные.

Программные инструменты доступа к архивам включают такие инструменты как warcio, warcat, megawarc, FastWARC и многие другие. Описание многих есть в Вики ArchiveTeam.

Я тут добавлю разработанный мной инструмент для извлечения метаданных из WARC файлов metawarc он более всего подходит для задач forensic science поскольку в нем заложено извлечение метаданных из содержания WARC файлов и создание базы DuckDB и parquet файлов с этими метаданными.
—
#digitalpreservation #webarchives #guides

❤9👍6🔥4

1.51K viewsIvan Begtin, edited 08:52

Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).

Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.

Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.

Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.

#readings #thoughts #ai

🤣12😱3❤2👍2

1.36K viewsIvan Begtin, 06:36

Периодически посматриваю видео с семинаров Future Data Systems Seminar Series — Fall 2025 которые проводят CMU Database Group и там выступают фаундеры и ключевые разработчики многих современных дата продуктов и технологий работы с данными, вроде Russel Spitzer, руководителя проекта Apache Iceberg и др.

А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox

У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.

Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.

#rdbms #opensource #databases

❤8

1.25K viewsIvan Begtin, edited 07:34

The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.

Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.

При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.

#webarchives #digitalpreservation #data

The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects

Between May and October 2025, homepage snapshots fell by 87% across 100 news publications.

👍7😢2✍1🤔1

2.12K viewsIvan Begtin, 11:11

Я за последние несколько дней несколько раз от разных людей слышал тезис о том что Python медленный язык программирования и скажу по собственному опыту что это и правда и неправда одновременно. Важнее то что Python - это язык в котором производительность приложения значительно зависит от квалификации разработчика. Многие решения по оптимизации кода, скажем так, не на поверхности да и ИИ агенты чаще не создают оптимальный код потому оптимизации могут быть за пределами Python, но быть с Python связанными.

Приведу несколько примеров:
1. Начну с самого очевидного, обработки данных. Какое-то время назад я писал инструменты и отдельные скрипты для обработки данных в достаточно больших объёмах используя как стандартные библиотеки Python так и pandas. Производительность была неоптимальной, сотни миллионов записей на настольном компьютере могли обрабатываться часами. Решение резко ускоряющее работу было в переходе на DuckDB и Polars, а это не оптимизация кода, а зачастую его переписывание. Это, действительно, самое очевидное, настолько что даже рассказывать о таком неловко😉

2. Оптимизация регулярных выражений. Какое-то время назад я создавал библиотеку qddate для парсинга дат в условно любом формате. qddate сейчас поддерживает множество шаблонов написания дат и работает достаточно быстро, а по началу скорость работы была ужаснейшей. Потому что я вначале воспользовался стандартной библиотекой для регулярных выражений в Python и столкнулся с её, мягко говоря, неоптимальностью. У меня даже были мысли написать свой движок или сделать обертку для работы с более производительными версиями. И даже создать свой собственный язык правил для упрощения парсинга дат, он был бы сильно проще чем использовать полный набор возможностей регулярных выражений. В итоге оказалось что все решилось через написания правил на PyParsing. Этот же подход я применял далее для инструментов вроде metacrafter'а по идентификации семантических типов данных. Там не просто так всё на прямом мэтчинге строк и PyParsing.

3. RoundRobin к серверу на Python. Больше 24 лет назад я совмещал работу спеца по автоматизации тестирования и программиста. В основном я занимался автоматизацией тестирования, но там когда всё настроишь то оказывалось что остается время для других задач (шутка). Однажды мне на тестирование передали здоровенную расчетную машинку набитую процессорами и способную сравнивать до нескольких миллионов отпечатков пальцев в секунду. Уникальная штука по тем временам и адски недоделанная. У неё отсутствовал управляющий контур, процессоры периодически переставали реагировать на команды и им был нужен мягкий сброс, а самое главное что эта штука была одна и работать с ней разработчиками клиентского приложения и тестировать её мне было сложно одновременно. Опущу историю как я приделывал на ходу управляющий контур и расскажу что для тестирования мне, фактически пришлось, реконструировать бинарный протокол работы с этим сервером и сделать эмулятор на Python который, конечно же, безбожно тормозил, особенно после того как он не просто эмулировал и давал тестовую выдачу, а когда к нему удалось прикрутить неоптимизированную DLL библиотеку и реально матчить отпечатки пальцев, но ооочень медленно. Библиотека была однопоточной и любые оптимизации на Python упирались в это до 100% загрузки процессора. Решением было в в том чтобы форкать до десятков экземпляров эмуляторов и универсального пакета для запуска на множестве серверов и рабочих станций, а разработчики клиентского приложения добавили опцию загрузки во множество серверов сразу. Это и так было запланировано, но тут было уже просто нужно иначе ПО было не проверить.

🔥10👏9❤3

1.24K viewsIvan Begtin, 13:19

Возвращаюсь к взгляду на Python как на медленный язык уже взглядом технического директора и человека формирующего технические команды я бы сказал так что специалисты способные писать на нём оптимизированный код стоят столько же сколько специалисты владеющие Rust и другими оптимизированными языками разработки, более заточенными на высокопроизводительные решения.
Для обработки данных сейчас Python совсем не медленный язык, он становится гораздо быстрее в связке с библиотеками на Rust и знанием некоторых архитектурных подходов которые помогают в работе.

Python сейчас - это основной язык работы для дата инженеров и дата аналитиков, знание способов его оптимизации даёт много возможностей по его ускорению.

#python #thoughts #memories

2✍17👍4👏4⚡3❤2

1.56K viewsIvan Begtin, edited 13:19

Полезные ссылки про данные, технологи и не только:
- dash расширение для DuckDB для быстрого построения дашбордов. Напоминает некоторые open source BI инструменты, но тут во всём Parquet формат и DuckDB как инструмент запросов
- gizmosql построение SQL сервера на базе DuckDB и Apache Arrow Flight Server в тесной связке и с бенчмарками на типовых облачных серверах. Обещают легкое развертывание и работу с большими объёмами данных, но, ИМХО, конкретных примеров использования нехватает
- httpie хорошо известный в узких кругах разработчиков инструмент с открытым кодом для тестирования HTTP запросов и API в частности. Интересная альтернатива Postman, APIDog и им подобным. В 2021 году подняли $6.5 миллиона венчурного финансирования на облачный коммерческий продукт и вот уже более 7 месяцев не обновляют код, не публикуют ничего в блоге, твиттере и тд. Есть ощущение что то там случилось, как бы продукт не погиб
- fastmcp быстрое создание MCP интерфейса поверх приложения FastAPI. Выглядит привлекательно простотой разработки, но надо тестировать на практике конечно же.
- nextcloud облачный сервис и open source продукт управления файлами, календарем и документами созданный в Германии. Очень характерно наблюдать как просто из продукта на рынке они превращаются в инструмент цифрового суверенитета Евросоюза. Риторика, стиль публикаций и акценты до боли напоминают некоторые российские компании играющие в импортозамещение.

#opensource #tools #datatools

www.dash.builders

Dash - Data Exploration Tool

Open-source data visualization tool with DuckDB.

👍10✍7❤5

1.48K viewsIvan Begtin, 09:53

~~Британские учёные~~ Исследователи из Гарварда выяснили что ChatGPT по ценностям ближе всего к Западной Европе и конкретно к Финляндии и Нидерландам и самим США, что, впрочем, ожидаемо. Оценивали они это по ответам на World Values Survey (WVS) и сравнивая с результатами по странам.

Что тут скажешь, не достигло ли влияние западной цивилизации апогея с появлением "западноевропейского ИИ" или же компании будут делать адаптированные версии/ответы под разные страны и культуры?

#ai #worldvalues #surveys

1👍14😁7❤1

1.6K viewsIvan Begtin, 19:04

Nixiesearch любопытный поисковый движок со встроенным ИИ поиском, позиционируется как альтернатива Elasticsearch и Opensearch, внутри использует Apache Lucene, хранит индекс в S3 и индексирование через pull запросы без необходимости отправлять JSON в индекс постоянно.

Я его смотрел где-то год назад, но тогда там не было столь явного акцента на интеграции с LLM.

Его автор, также, создатель бенчмарка HSEB для движков векторного поиска и там есть интересные сравнения Elasticsearch, OpenSearch, Qdrant и других.

Вот только скорость - это далеко не единственный критерий сравнения поисковых движков, неважно векторных или обычных.

Из своего опыта могу сказать что скорость важна, но не только она, например, в начале создания Dateno мы использовали Meilisearch который давал фантастическую скорость на объёмах данных в несколько миллионов записей и стал превращаться в непонятную тыкву на десятках миллионов. Его индексатор работал только в режиме push, только асинхронно и, как оказалось, без возможности адекватной отладки. В какой-то момент ты кидаешь в него очередную порцию JSON документов, а он зависает с их обработкой часами и не выдаёт вообще никакой диагностики о происходящем. В этом смысле тот же Elasticsearch с его по умолчанию синхронной загрузкой документов гораздо надежнее.

Вторая проблема с Meilisearch оказалась в том что многие опции запросов задавались только на уровне настроек индекс и требовали переиндексации при их смене. То что в том же Elasticsearch или OpenSearch можно передать параметром, в Meilisearch требовало гораздо больших усилий.

Поэтому скорость это далеко не все, есть, как минимум, критерии масштабируемости, управляемости, гибкости поиска, пригодности к отладке и ещё много всего.

Но Nixiesearch продукт любопытный, надо будет его посмотреть на каком-нибудь большом датасете чтобы понять как он тянет большие объёмы и нагрузку.

#opensource #data #search #ai #vectorsearch

👍5✍3❤3

1.27K viewsIvan Begtin, edited 06:43

Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata

😢10👍3⚡1😱1💯1

3.82K viewsIvan Begtin, edited 12:48

В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году

На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.

Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.

Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.

С другой стороны небольшое число датасетов компенсируется их значимостью.

#opendata #china #datasets #data #datacatalogs

🔥4❤1

1.24K viewsIvan Begtin, 15:26

Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM

#links #readings #ai #data #datatools

stackoverflow.blog

AI vs Gen Z: How AI has changed the career pathway for junior developers - Stack Overflow

✍5⚡1

1.3K viewsIvan Begtin, 18:28

Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.

- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML

А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных

И это далеко не полный список.

#opendata #specifications #datasets #standards

Хорошие и плохие практики публикации данных. Метаданные и форматы файлов

«Буду делать хорошо, и не буду — плохо». (Маяковский)

🔥2❤1🌚1

1.12K viewsIvan Begtin, 06:37

В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.

#opendata #datacatalogs #datasets #eu #openaccess

👍3

1.24K viewsIvan Begtin, 07:16

Элон Маск запустил Grokipedia как альтернативу Википедии проверямую и улучшаемую с помощью ИИ в виде Grok от xAI.

Многие пишут что там всего 885 тысяч статей против 7 миллионов в английской википедии, но, я бы сразу смотрел на этот вопрос шире.

У Grokipedia есть важная фишка - отсутствие необходимости привлекать редакторов людей, а это именно то что сейчас является проблемой переходящей в системный кризис для Википедии. У Википедии падает посещаемость потому что ИИ сервисы отнимают трафик и по множеству причин падает мотивация редакторов.

Одна из "фишек" Grokipedia в факт чекинге к статьям, вот пример статьи Aloha где Grok убрал или отредактировал ряд утверждений.

В каком-то смысле Grokipedia - это проект схожий с российским РуВики или Baike в Китае, но с ИИ главредом и с тем что люди если и будут участвовать в редактировании, то лишь опосредствано.

Не так важно взлетит ли конкретно Grokipedia, как то что сама концепция ИИ надстройки над Википедией и другими ресурсами может оказаться живучей и это будет далеко не последним заходом на эту задачу.

#wikipedia #ai

👍11

1.55K viewsIvan Begtin, 08:45