Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- Artifacts бета версия версионированного хранилища файлов с доступом через Git. Продукт от Cloudflare, под использование ИИ агентами и легким созданием новых репозиторий. Выглядит интересно, под ИИ продукты особенно (а может быть только для них). Из необычного - написан на Zig
- AI Summer, Data Winter: What the AI Index Reveals — and What It Doesn’t Yet Measure статья об исчерпании данных для обучения ИИ и о data winter, сжиманию открытости данных из-за ИИ хайпа. Полезно почитать это и другие статьи автора
- isitagentready.com еще один сервис от Cloudflare который определяет готов ли Ваш сайт для ИИ агентов. Возникает вопрос - а хорошо ли если он готов и плохо ли если не готов? В чем больше выгоды?
- Inside Notion про культуру внутри Notion, читать интересно, хороший жанр

#ai #tools #services #readings
👍71
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода

#opensource #ai #readings
👍42🔥1
Свежий доклад The 2026 AI Index Report про тренды в ИИ в создании продуктов, регулировании и тд от Стэнфордского университета (кто бы мог подумать, но он в РФ признан нежелательной организацией).

Основные выводы:
1. ИИ продукты стремительно развиваются, плато не достигнуто
2. США лидируют по возможностям и числу дата центров
3. Компании в США и Китае основные лидеры, с таким отрывом что остальных можно даже не рассматривать
4. США лидируют в инвестициях в ИИ, но возможность привлекать таланты снижается
5. ИИ суверенитет все более значимая тема для национальных правительств
6. Число ИИ инцидентов растет
7. Большой разрыв в восприятии ИИ экспертами и гражданами. Эксперты позитивны, общественность негативна.

Чтение полезное, достаточно просто чтобы было понятно, недостаточно просто чтобы было бесполезным.

Там еще много чего интересного в самом документе отчета, например, снижение прозрачности Foundation Models (индекс FMTI).

Это далеко не все, отчет в PDF на 425 страниц и там очень многие аспекты разобраны.

Россия упоминается минимально, только в контексте числа ИИ законов и числа дата центров. Малые страны упоминаются только в контексте языковых бенчмарков.

Повторюсь, что это хорошее чтение, стоит в него погрузиться.

#readings #ai
👍943🔥3🌚1
Где ИИ инструменты были бы полезны и где их нет. Автоматизация работы с почтой

Я смотрю на свои повседневные инструменты и сервисы с которыми я работаю и рефлексирую о том где ИИ ассистенты были бы очень полезны и где их нет. Вот пример подобного.

У меня более 31 тысячи писем в основном почтовом ящике и около 8600 во втором и по нескольку тысяч в других. Даже при том что я придерживаюсь практики zero inbox, в нем, все равно, накапливается до 300-400 писем в входящих. И тут кажется что совершенно естественно применять ИИ ассистента который бы по команде умел бы структурировать и каталогизировать входящие письма. У Google есть встраивание Gemini в Gmail, но проблема в том что Gemini там на все запросы выдает инструкции и ничего сам не делает.

Есть внешние инструменты вроде Manus которые умеют подключаться к Gmail и даже писать код который разметит и рассортирует все письма или подключение ChatGPT к Outlook Email, но совсем не хочется давать доступ внешнему сервису к своей почте. Тем более поскольку нет желания обучать его на своих письмах.

Я подозреваю что такие ассистенты для почты постепенно появляются внутри наиболее массовых продуктов (тот же Gemini внутри Gmail), но пока недостаточно хорошо. А стартапы вроде Superhuman Mail или Inbox Zero, ИМХО, имеют мало перспектив поскольку экосистемы вроде Google или Microsoft сильно выигрывают.

Кроме того есть ощущение что интерфейсы к почте используемые ИИ ассистентами, мягко говоря, неэффективны. Обработку почту внутри самого сервиса можно было бы колоссально оптимизировать использовать внутреннее API.

Подозреваю что, всё таки, все пойдет скорее по пути стыковки ИИ агентов крупных AI BigTech'ов со своими аккаунтами и управление через них с разными защитными механизмами вроде обязательных бэкапов и тд.

#ai #thoughts #email #productivity
10👍5🔥31
Open Design открытый (open source) продукт для создания дизайна и верстки сайтов и приложений. Сделан по аналогии с Claude Design, но можно использовать разных провайдеров через их командные строки или API . Настраиваемость очень высокая, можно использовать и локальные модели через Ollama или LM Studio или альтернативы.

В качестве примера я за 5 минут сделал альтернативную верстку для общественного каталога открытых данных hubofdata.ru который мы давно не обновляли, но который все еще жив. Специально привожу именно его в пример потому что показывать то чем реально занимаюсь никак не могу;)

Все примеры датасетов и организаций на макетах условны, все сделано на очень скорую руку.

Лично мне в текущей версии нехватило режима в стиле "Сделай 4 разных вида дизайна и отобрази их для сравнения". Но это в идеале, а текущее уже хорошо.

#opensource #ai #design
1👍104🔥2
Я [не так уж] недавно озадачился темой баз знаний и баз документов для работы с ИИ да и без него тоже и не то чтобы в восторге от того что есть в практическом использовании. Если посмотреть на то как об этом думают другие, например, Andrey Karpathy в его тексте LLM Knowledge Bases то там речь про связку Obsidian как личный инструмент редактирования и набор инструментов по поиску и обогащению материалов с помощью LLM.

Вот эта модель, когда в ядре используются связанные Markdown файлы, а способы редактирования могут быть разные, Obsidian один из наиболее популярных, но далеко не единственный. Способ работающий, до каких то пределов и для подготовки сжатых смысловых связанных блоков.

Какие есть еще варианты связок редактор/интерфейс, LLM и тд. ?

Самый очевидный воспользоваться каким-нибудь Notion где AI встроен можно сказать естественным образом.

Есть еще OpenKB на базе PageIndex в котором вообще нет UI интерфейса, но есть возможность делать запросы с командной строки. Веб интерфейс это не проблема, можно поднять один из Markdown wiki продуктов вроде Docusaurus, но сам подход выглядит так:
добавляешь документ в любом формате -> он преобразуется в Markdown -> Markdown индексируется в базу знаний - > можно задавать вопросы естественным языком.

Карпатый в своих рассуждениях еще упоминал qmd любопытный тул как раз для такой базы знаний.

Я про все это тоже думаю, сразу в контексте 3-х близких задач:
1. Личная база знаний, которая у меня как и у многих на базе Obsidian и к которой хотелись бы LLM возможности что называется из коробки, а не через разные *Claw.
2. База знаний для работы доменных экспертов когда есть пул специалистов в предметной области и они готовят материалы для обучения LLM под предметную область какой бы она ни была (кулинария, юриспруденция, поэззия и тд). Тут идеально если есть Вики инструмент, на том же Markdown'е. И в который раз можно лишь посетовать про дефицит структурированных вики, хотя есть тот же Outline.
3. Хранилище документов под очень большие объёмы, условно в миллионы документов, с тем что документы могут быть разного типа с разными профилями метаданных и также подключаемыми. У этого есть разные решения, от технических, все метаданные в индекс OpenSearch, а профили описывать в разными схемами в YAML, до концептуальных через создание онтологии и использование институциональных репозиториев вроде Hyrax, DSpace, Islandora и тд. Институциональные репозитории и библиотечные системы далеки очень от инженерных паттернов и не факт что это лучшее решение.

Может показаться что эти задачи отличаются, но вот мне представляется что они очень близки.

#thoughts #ai #documents
6👍5🔥42
ProgramBench интересный проект и исследование из Meta про проверке способности LLM не просто программировать, но и проектировать архитектуру приложений.

LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.

Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.

Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.

#opensource #ai #thoughts
👍6🔥21
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT

#opendata #opensource #ai
🔥4👍3
Даже не знаю как это прокомментировать, наверное что как бы российские власти не пошли тем же путем. И сейчас ИИ специалистов очень сложно найти, а вообще никого в стране не останется(

#ai #china #regulation
🌚7🔥3
Обзор протокола MCP от NSA (Агентство национальной безопасности США). Если коротко то так
Хотя MCP действительно является многообещающим базовым уровнем для агентных систем, его текущее
состояние безопасности остается неоднородным и в значительной степени зависит от дисциплины реализации, а не от гарантий протокола.

Сам по себе документ небольшой, 17 страниц, обзорный по многим ранее опубликованным проблемам протокола. Почитать его стоит всем разработчикам и архитекторам работающим с MCP протоколом.

#readings #security #ai
182👍1
Подборка ссылок про данные, технологии и не только:
- Dead on Arrival: The AI Dashboard Problem автор рассуждает о том насколько легко стало делать дашборды с помощью ИИ и насколько они плохи и о том как их улучшить. Полезное чтение для всех кто быстро делает дашборды для себя и других
- SiteRows маленький стартап/проект который позволяет получать данные из сайтов с помощью SQL. На вход много ссылок и SQL запрос - на выход таблицы. Лет 8 назад я проектировал похожий сервис, но к реализации так и не приступил, только сделал автопревращение страниц в RSS ленты. А тут автор пошел дальше и сразу SQL и явно прицел под маленький стартап. По моему бизнес идея там сейчас недостаточно ёмкая, но любопытно
- 2026 State of Analytics Engineering Report от команды dbt и с ожидаемыми выводами о том как растет эта экосистема в первую очередь с акцентом на сам dbt. Полезно для корпоративных аналитиков и дата инженеров
- Digitally delivered services trade dataset набор данных и визуализации по торговле услугами оказываемыми через интернет, включая финансовые услуги, нематериальные ИТ услуги и многое другое. С одной стороны интересно и можно наглядно увидеть, например, резкое падение импорта и экспорта услуг из России с 2022 года (но падение, а не исчезновение). А с другой стороны почему то оценки по услугам из США и по их импорту услуг меньше чем по тому же Евросоюзу в 2.5 раза.Сам набор данных небольшой, CSV файл в 7.5 мегабайт, период охвата 2005-2025 годы.

#opendata #datasets #readings #ai
3👍3
Я вот тут столкнулся с тем что сам осваивал все что касается программирования ИИ агентами и применения ИИ в целом самостоятельно и на практике в основном, но регулярно в окружении есть люди которым нужно быстрое погружение, а материалов как раз про быстрое погружение у меня на руках нет.

Посоветуйте:
1. Что можно порекомендовать почитать про развитие ИИ в последние годы в сжатом виде для людей старшего возраста которые не имеют о теме ИИ глубокого представления, но обладают хорошим техническим образованием и бэкграундом. Понятно что практические материалы устаревают (обновляются) чуть ли не ежемесячно, и на смену RAG пришло уже много всего другого, как пример. Но наверняка есть хороший материал/книга/бесплатный курс быстрого погружения.

2. Какие курсы дают реальное быстрое погружение в Cursor, Antigravity, Claude Code и другие ИИ агенты для кодирования с нуля под задачи программирования и анализа данных. Курсов много, большая часть очень сомнительного качества. Что есть наиболее полезного сейчас? Критерий качества для меня - это "я на эти курсы готов отправить всех разработчиков", но никак не "я этот курс сделал, он отличный".

#questions #ai
134👍3🤔21
Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом

#opendata #opensource #ai #tools
3