Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я обещал начать более системно записывать взаимосвязь открытых данных и ИИ и их пересечения и, в том числе, посмотрел конференцию The Future of Open Data которую OKFN провело ко дню открытых данных в мире.

Сессия эта с участием разных предсавителей сообщества открытых данных, разработчиков CKAN, академических и других исследователей. С сильным акцентом на экосистему CKAN'а, но это специфика OKFN откуда разработчики и изначальные создатели CKAN'ат вышли.

Так вот про взаимосвязь ИИ и открытых данных, это довольно сложная история про разные взгляды и восприятие:
1. Отношение к ИИ в среде открытых данных (тусовке) довольно неоднозначное, главным образом из-за довольно сильно левых взглядов у тусовки в целом, неприятию Бигтехов в целом и ИИ Бигтехов в частности. Если, к примеру, я рационализирую применение ИИ инструментов проприетарных или открытых в зависимости от ситуации и стоимости, то многие в среде open data рассматривают только открытые ИИ модели для практического использования. Это не вся тусовка, конечно, но существенная её часть.
2. Одно из очевидных применений - это попытки создавать MCP сервисы как неотъемлимую или дополняемую часть порталов открытых данных. Я ранее писал про MCP сервис французского национального портала данных data.gouv.fr, а также есть MCP сервисы у CKAN'а и PortalJS и других
3. В целом активность тех кто работал над наиболее заметными и известными доступными наборами данных можно разделить на две части. Существенное усиление тех кто поставляет данные для обучения ИИ и сохраняет некоммерческий статус - пример, Common Crawl. Они получили существенно большее финансирование в последние годы (но и это копейки в сравнении с объёмом ИИ рынка), и многих других кто создавал открытые данные, а теперь понимает что их монетизируют другие (ИИ бигтехи в основном).
4. Тут важно понимать что открытые данные сами по себе не являются профессией или специализацией. Профессией может быть дата инженерия или биоинформатика, к примеру. А главные выгодоприобретатели от идущей ИИ революции в данных являются люди с глубоким отраслевым или профессиональным погружением. Поэтому, если честно, то существенная часть мировой тусовки по открытым данным выглядит всё маргинализированной в сравнении с профессиональными дата продуктами. Я ранее ругался про то куда ушла разработка Open Data Editor, который OKFN делали для подготовки данных для публикации в CKAN и это лишь один из многих примеров. Продукт откровенно свернул не туда, ИИ фичи в нем оказались очень плохо реализованными и в целом программная реализация скорее плохая чем какая-либо иная.
5. К примеру, то что мы делаем в Dateno сильно лучше (без хвастовства) чем практически все попытки делать ИИ ассистенты, поисковики и тд в экосистеме открытых данных, но если сравнивать с профессиональными продуктами и сервисами то ещё есть куда расти. MCP сервис у нас уже есть, про ИИ асситентов я расскажу еще позже, но в целом из изучения что делают разные команды в среди именно в тусовке open data никаких инсайтов не дает, увы.
6. Очень много разговоров в среде открытых данных про этику применения ИИ, OKF, к примеру, пытается еще и заниматься AI Literacy, но объективно компетенций в этом немного и это далеко от открытости данных, объективно.

В целом, как я неоднократно вслух рассуждал, с одной стороны открытые данные как уже не настолько sexy тема как лет 10 назад, а с другой стороны сама тема никуда не исчезла и имеет много институционального закрепления во многих странах, сильнее всего в ЕС. Однако видно как многие кто этим занимались десятилетия уже устали, а смены им не будет, потому что ИИ пожирает всё, и интересы активных технарей интересующихся открытостью меняются.

А в целом лично мне нехватает глубины что ли в разговорах про ИИ и про открытость. Например, может ли возникнуть такая ситуация что государства могут отойти от политики открытых данных и вместо этого будут предоставлять ИИ модели обученные на них?

Типа, а зачем вам данные? Вот вам ГосЧат, им и пользуйтесь! А все что есть данные у него внутри и только так.

#opendata #ai #thoughts
👍4🔥421
В качестве регулярных напоминаний, помимо телеграм канала я также пишу в рассылке на Substack, электронную почту (пока что) в России не блокируют так что можно на нее подписаться и получать мои тексты на почту. Ранее я туда писал редко и, в основном, длинные тексты поскольку большая часть читателей была в Телеграм, сейчас подумываю о том что дублировать тексты из Телеграм канала и там тоже. Тогда письма будут приходить сильно чаще, но это будет удобнее кому в Telegram теперь будет тяжело.

По поводу ведения Телеграм канала, я придерживаюсь того же мнения что и Катерина Аксенова, я ее пост пересылал недавно. Любой информационный канал очень сильно зависит от платформы, в VK или Max'е повторить эффект накопления аудитории и дискуссий очень сложно и непонятно зачем. Поэтому нет, я не буду заводить канал в Max'е и давно прекратил дублировать тексты в VK, это требует слишком много усилий с непонятным результатом при том что и телеграм канал я создавал не как медиа, а как открытую записную книжку. Я потому и проставляю теги у каждого поста потому что регулярно ищу и читаю написанное ранее. Если кому-то полезно написанное мной, то и хорошо.

А также про Dateno и на английском я чаще пишу в LinkedIn и сильно реже в Medium

#blogging #thoughts
20👍16🔥4👏2
Ещё мысли вслух:
1. Если присмотреться к наиболее популярным репозиториям в Github'е которые попадают в ежесуточные, еженедельные и ежемесячные списки Trending то в какой-то недавний момент почти 100% из них - это разного рода инструменты и руководства для работы с ИИ агентами или сами открытые ИИ агенты или иной код для работы с ИИ.

В какой-то момент ИИ инструменты стали синонимом разработки, хайп ли или реальные изменения достигшие неимоверного масштаба. Фактически стремительный переход к AI-first разработке не только в том смысле что с помощью ИИ ассистентов пишется код, но и в том что все наиболее популярные разработки идут в сторону усиления этого тренда. Лично я ничего подобного не наблюдал ранее.

2. Похоже осталось немного времени когда ИИ инструменты получат возможность осуществлять оплату от имени пользователя и это сильно повлияет не только на рынок сервисов, но и на рынок дата продуктов (и данных соответственно). Например, когда появится возможность задавать ИИ агентам задачи. в стиле "исследуй то-то и то-то, найди сведения о том-то и том-то, систематизируй знания в этой области и потрать на это исследование не более $200" причем не обязательно на токены для запросов к LLM, а, например, для подключения к платному API, платным базам данных и тд. Неизбежно изменение тарификации, агентская тарификация - это вам не ручная подписка на доступ, это оплата здесь и сейчас по числу запросов к сервису. Это поломает бизнес модели многих онлайн сервисов и даст новые возможности многим другим. И это актуально потому что сейчас ИИ агенты делают выводы по общедоступным сведениям преимущественно.

#thoughts #ai #business
👍1310🔥2
Я тут думал как бы прокомментировать идущие и грядущие блокировки Интернета в РФ. По моему то что предсказания ИА Панорама начали сбываться это более чем иллюстративно к нынешней российской реальности.

Если коротко то политические решения однозначно начали доминировать над экономическими. Нарушается не только личное, но и любое профессиональное общение с теми кто живет и работает в странах с которыми Россия (пока что) торгует. Экономическое воздействие ограничительных мер если и анализируется, то очень секретно, а больше похоже что никак не анализируется. Социальное пространство сильно сжимается и это не одноразовое действие - это ежедневно ощущаемая людьми невозможность общаться с семьёй, друзьями, коллегами и тд.

Ограничения - это хреново, самоизоляция страны это ещё хуже. Я слышу как ощущения "осажденной крепости" у многих сменяется тем что осада то идет не снаружи, а изнутри.

У тех кто еще как-то умудрялся оставаться в России и работать на компании не в России, теперь всё жестче стоит выбор уезжать безвозвратно.

Печально это всё.

#thoughts
💯357🔥3🌚3
Разные мысли вслух:
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.

#opendata #ai #thoughts
👍54
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍6🔥531
Еще немного размышлений вслух про дата продукты и открытые данные. Я поизучал спецификацию ODPS (Open Data Product Specification) в её последней редакции версии 4.1. Её, кстати, правильно читать не как спецификацию про открытые дата продукты, а как открытую спецификацию на дата продукты. Это, конечно, неплохой документ и чуть ли не единственный описывающий данные именно к продукт и спецификация сама по себе имеет ценность не только для технического описания, но и как шаблона для внутреннего описания дата продуктов. Условно хороший документ спецификации для API к доступу к данным на этапе проектирования (скорее продуктового чем технического).

Но, при этом, со своими ограничениями:
1. Малая экосистема. У дата продукта может быть более одного интерфейса, это могут быть данные доступные через REST API, в формате для массовой выгрузки (bulk download), в формате специализированного API (WFC и OGC совместимые). Хотя в спецификации это всё предусмотрено, но каждый из этих интерфейсов, но нехватает инструментов тестирования этих множественных интерфейсов на основе спецификации.
2. Интеграция с ИИ агентами. Наличие ссылок на документацию - это важно, и, ИМХО, важно не просто наличие human-readable документации, но и документации для ИИ агента (в виде markdown похоже) для автоматизированного доступа к дата продукту.

Как я понимаю в части работы с общедоступными данными у ODPS есть реализация внутри X-Road, но при этом общедоступно действующих примеров нет и нет примеров её использования наиболее продвинутыми создателями открытых дата продуктов в госсекторе, к примеру, государственные API во Франции не описываются через ODPS хотя их описание и документация наиболее близки именно к описанию дата продуктов.

В принципе лично меня это смущает более всего, я знаю довольно много дата продуктов которые могли бы быть описаны с помощью ODPS, но не описываются по какой-то причине. Я подозреваю по той что за спецификацией не стоит кто-то достаточно крупный кто внедрил бы это в свой достаточно популярный каталог дата продуктов. К примеру достаточно крупных агрегатор сервисов API (но им спецификация не вполне подходит) или дата маркетплейс (таких крупных не так много). Кто-то вроде бывшего Quandl'а мог бы использовать подобную спецификацию.

#thoughts #data #specifications #dataengineering
🔥5👍3
Да, но... собрал наблюдения за происходящим:
- Github - это крупнейшая платформа для разработки, хранения кода и тд. Это большой плюс. Минус в растущем объёме технологического спама основанного на активности на ней. Например, ты лайкаешь какой-то репозиторий, а потом тебе приходят письма "Я знаю что тебе нравится такой-то продукт, а я делаю альтернативный. Посмотри на него пожалуйста". Или "Я обнаружил что ты активен в таком то репозитори, а мы делаем альтернативный проект вот такой. Попробуй его". Это не личные письма, а полностью автоматизированные рассылаемые массово. Со временем их число растет.
- когда open source проект набирает популярность - это повод к нему присмотреться, там часто нужный код, нужная функциональность и отзывчивые к запросам разработчики. Как только проект получает венчурные инвестиции - это повод начинать искать альтернативы, потому что инвестиции в 99% случаях идут на создание облачного сервиса и разработчики приоритетно начинают развивать именно его, забрасывая или искажая имеющиеся функции к KPI переданным инвесторами
- цифровая суверенизация по которой идут некоторые страны в мире - это не то чтобы однозначно плохо, те кто ратуют и продвигают её могут быть правы со своей колокольни. Но важно не забывать что это губительно для той быстрой гонки в разработке что сейчас есть в мире и исключают многие интересные продукты из глобальных экосистем. К примеру, как бы ни были хороши российские ИИ продукты, в мире они представлены минимально
- многие принципиально правильные идеи вроде стандартов описания данных на RDF маргинализируются несмотря на опору на многие внедрения и институциональную основу потому что разработка ИИ, дата инженерия, ИИ инженерия воспринимает их исключительно как жесткое легаси и все стандарты исходящие от практиков игнорируют институциональные стандарты везде где это возможно
- корпоративные каталоги данных выглядят хорошей идеей и очень логичной, но правильнее сказать что казались. После попыток заменить их на идею data discovery видно что и она не особенно приживается. А теперь вместе со снижением стоимости внутренней разработки ПО еще и возникает ситуация когда сделать с помощью ИИ свой внутренний каталог данных/конвееров и тд. быстрее, дешевле и проще чем внедрить внешний. Похоже этот рынок будет быстро меняться

#thoughts
65🤔41
Я тут, было дело, написал для самого себя лонгрид про ограничения интернета в России, потом перечитал его и понял что ничего нового не скажу. А если кратко, то можно на это смотреть как на меру антиэкономическую, как и многие другие меры снятия льгот, повышения налогов и тд.

Я понимаю что у правительства много идей по приданию динамики экономике России, но может быть главная идея была бы в том чтобы поотменять все запретительное, ограничивающее и обременяющее регулирование как минимум последних лет ?

Там список длинный получится. Но, как я много раз упоминал, сейчас политические причины любого регулирования доминируют над экономическими. Экономике явно будет хуже, из этого и надо строить свои личные и семейные стратегии того чем и где заниматься в ближайшие годы.

#thoughts
😢129👍32🔥1
Я вчера практически весь день провел на CAIGF (Central Asian Intenet Governance Forum), говорил, как всегда про данные, рассказывал немного про Dateno и Open Data Armenia, про дефицит открытых данных в странах Центральной Азии, сильном сдвиге публикации данных в сторону ИИ, в том что важно устанавливать приоритет на дата продукты и о том что вне зависимости от того открыты данные или нет, должны быть доступны метаданные и четкие условия доступа к данным разного типа, от полностью открытых (открытые данные под свободными лицензиями) до доступных ограниченному числу пользователей по четким регламентам.

Все это часть общего Data Governance и, по моим наблюдениям, в странах Центральной Азии есть в национальных правительств есть мотивация к росту цифровых сервисов включая дата продукты и все что с данными связано. Конечно, с учетом всех ограничений, но тем не менее.

Мысли которые я лично вынес с этой конференции:
1. В Центральной Азии наблюдается либерализация доступа к Интернету, и даже если есть ограничения, то с нынешними российскими они не сравняться.
2. Есть явный дефицит национальных данных и относительно ограниченные возможности государств его восполнять, но это не непреодолимый барьер, а скорее ситуация у которой может быть разумное развитие.
3. Российское присутствие есть только через глобальные компании которые продолжают экспансию в страны где у них нет ограничений, но государственное присутствие минимально. Условно российский Гостех не имеет там перспектив хотя бы потому что в большинстве стран уже либо свои продукты, либо идет внедрение X-Road (изначально эстонский продукт шины обмена данными между госорганами)
4. В каких-то аспектах цифровизация идет быстрее чем в России или в странах ЕС и во многом это из-за меньшего груза традиций бумажного документооборота и экономии.
5. ИИ внедряется повсеместно с ИИ моделями и продуктами, или от глобальных игроков, или модели открытого кода.

#opendata #data #conferences #centralasia #thoughts
🔥1065👌2
Где ИИ инструменты были бы полезны и где их нет. Автоматизация работы с почтой

Я смотрю на свои повседневные инструменты и сервисы с которыми я работаю и рефлексирую о том где ИИ ассистенты были бы очень полезны и где их нет. Вот пример подобного.

У меня более 31 тысячи писем в основном почтовом ящике и около 8600 во втором и по нескольку тысяч в других. Даже при том что я придерживаюсь практики zero inbox, в нем, все равно, накапливается до 300-400 писем в входящих. И тут кажется что совершенно естественно применять ИИ ассистента который бы по команде умел бы структурировать и каталогизировать входящие письма. У Google есть встраивание Gemini в Gmail, но проблема в том что Gemini там на все запросы выдает инструкции и ничего сам не делает.

Есть внешние инструменты вроде Manus которые умеют подключаться к Gmail и даже писать код который разметит и рассортирует все письма или подключение ChatGPT к Outlook Email, но совсем не хочется давать доступ внешнему сервису к своей почте. Тем более поскольку нет желания обучать его на своих письмах.

Я подозреваю что такие ассистенты для почты постепенно появляются внутри наиболее массовых продуктов (тот же Gemini внутри Gmail), но пока недостаточно хорошо. А стартапы вроде Superhuman Mail или Inbox Zero, ИМХО, имеют мало перспектив поскольку экосистемы вроде Google или Microsoft сильно выигрывают.

Кроме того есть ощущение что интерфейсы к почте используемые ИИ ассистентами, мягко говоря, неэффективны. Обработку почту внутри самого сервиса можно было бы колоссально оптимизировать использовать внутреннее API.

Подозреваю что, всё таки, все пойдет скорее по пути стыковки ИИ агентов крупных AI BigTech'ов со своими аккаунтами и управление через них с разными защитными механизмами вроде обязательных бэкапов и тд.

#ai #thoughts #email #productivity
10👍5🔥31
Я только-только хотел написать что блокировки VPN уже не столько и не только убивают российскую ИТ отрасль, как оставшуюся, пока что, в живых науку, как нашел текст в канале Алексея Хохлова в котором про то же самое.

Я бы тут сформулировал так, что из множество профессий у ИТшников всегда было чуть больше свободы отъезда из России из-за возможности дистанционной работы и хотя бы технического знания английского языка. А у исследователей глобальная востребованность в тех специализациях где была и есть возможность коммуницировать с зарубежными коллегами и где есть "живая наука", со спросом и предложением и инвестициями.

Я знаю многих людей из академических организаций которые пользовались, да и пользуются изнутри России VPN'ами не только чтобы обойти блокировки РКН, но даже чаще чтобы обойти блокировки в зарубежных сервисах связанных с их научной работой. Да, российские подсети уже несколько лет как блокируются на многих таких сервисах и доступ к данным, публикациям и сервисам может быть заблокирован.

Вообще я не могу не вернуться к той мысли что блокировки VPN и ограничения Интернета, телеграма и тд. это когда ради политических решений идеи разрушение коммуникации, экономики, общественных отношений и принципиальной возможности для самореализации.

Не буду расписывать в подробностях к чему это приведет, но точно не к тому что спрос на доступ в Интернет куда-то исчезнет.

#thoughts
💯32💔1243
Я тут было хотел в очередной раз "пнуть" российский портал открытых данных data.gov.ru, на предмет его бессмысленности, но посмотрел там раздел новости понял что всё, похоже он обречен. Даже нерелевантные новости Минэка там не обновляются с октября 2025 года, а релевантная вообще была только одна, о запуске портала в июле 2025.

Похоже что эта лошадь сдохла также как и предыдущая. Надо сделать архивную копию на случай если "внезапно перестанет работать". Но поскольку в России давно уже не ориентируются на рейтинги оценки цифровизации в мире, то судьба нац портала открытых данных столь незавидная

#opendata #russia #thoughts
👍14💯731🐳1
Я [не так уж] недавно озадачился темой баз знаний и баз документов для работы с ИИ да и без него тоже и не то чтобы в восторге от того что есть в практическом использовании. Если посмотреть на то как об этом думают другие, например, Andrey Karpathy в его тексте LLM Knowledge Bases то там речь про связку Obsidian как личный инструмент редактирования и набор инструментов по поиску и обогащению материалов с помощью LLM.

Вот эта модель, когда в ядре используются связанные Markdown файлы, а способы редактирования могут быть разные, Obsidian один из наиболее популярных, но далеко не единственный. Способ работающий, до каких то пределов и для подготовки сжатых смысловых связанных блоков.

Какие есть еще варианты связок редактор/интерфейс, LLM и тд. ?

Самый очевидный воспользоваться каким-нибудь Notion где AI встроен можно сказать естественным образом.

Есть еще OpenKB на базе PageIndex в котором вообще нет UI интерфейса, но есть возможность делать запросы с командной строки. Веб интерфейс это не проблема, можно поднять один из Markdown wiki продуктов вроде Docusaurus, но сам подход выглядит так:
добавляешь документ в любом формате -> он преобразуется в Markdown -> Markdown индексируется в базу знаний - > можно задавать вопросы естественным языком.

Карпатый в своих рассуждениях еще упоминал qmd любопытный тул как раз для такой базы знаний.

Я про все это тоже думаю, сразу в контексте 3-х близких задач:
1. Личная база знаний, которая у меня как и у многих на базе Obsidian и к которой хотелись бы LLM возможности что называется из коробки, а не через разные *Claw.
2. База знаний для работы доменных экспертов когда есть пул специалистов в предметной области и они готовят материалы для обучения LLM под предметную область какой бы она ни была (кулинария, юриспруденция, поэззия и тд). Тут идеально если есть Вики инструмент, на том же Markdown'е. И в который раз можно лишь посетовать про дефицит структурированных вики, хотя есть тот же Outline.
3. Хранилище документов под очень большие объёмы, условно в миллионы документов, с тем что документы могут быть разного типа с разными профилями метаданных и также подключаемыми. У этого есть разные решения, от технических, все метаданные в индекс OpenSearch, а профили описывать в разными схемами в YAML, до концептуальных через создание онтологии и использование институциональных репозиториев вроде Hyrax, DSpace, Islandora и тд. Институциональные репозитории и библиотечные системы далеки очень от инженерных паттернов и не факт что это лучшее решение.

Может показаться что эти задачи отличаются, но вот мне представляется что они очень близки.

#thoughts #ai #documents
6👍5🔥42
ProgramBench интересный проект и исследование из Meta про проверке способности LLM не просто программировать, но и проектировать архитектуру приложений.

LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.

Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.

Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.

#opensource #ai #thoughts
👍6🔥21
Почему я задумался про LLM Knowledge base и работу с базами знаний через LLM? У меня есть какое-то, немало количество материалов собранных из большого числа небольших записок и недописанных книг. Эти книги, изначально в формате лонгридов и страниц для Gitbook'а можно назвать существенными кусками (ядром) того что можно назвать доменной базой знаний, в понимании домена как очерченной предметной области.

У меня таких областей было и есть несколько и вот сейчас без применения ИИ ассистентов работать с ними очень сложно. И из реально работающих инструментов реально наиболее оптимален Notion, но со всеми оговорками зависимости от его проприетарности.

Идеальный инструмент - это продукт работающий локально на компьютере или в локальной сети, позволяющий вносить знания по предпопределенным профилям и шаблонам, с визуальным редактированием и совместной работы от 5 редакторов. Самое очевидное тут Mediawiki/Wikibase, с оговоркой что там внутри не Markdown, что там очень консервативное API и интеграции, и с не менее консервативными инструментами метаописания и редактирования.

Тут я вспомнил что есть и другой путь. Переводить все документы в YAML и формировать их структурированными блоками. YAML/TOML файлы значительно проще редактировать сохраняя структурную целостность, заполняя метаданными и так далее, а конвертация в Markdown может быть автоматической/автоматизированной.

Это неидеальный сценарий поскольку он требует редактирования базы знаний в IDE, а не визуальном редакторе и такой редактор надо делать (что не так сложно с помощью генеративных LLM).

#thoughts #knowledge
7🔥4👍32
Мысли вслух по поводу применения ИИ для создания наборов данных. Многие российские ведомства за последние годы удалили немало статистических данных и других датасетов, отчетов и докладов со своих сайтов, но, на самом деле, произошло примерно следующее. Данные пропали в структурированном виде, но фрагментарно публикуются их пресс-службами в виде агргеированных цифр и, реже, публикуются разного рода отраслевыми изданиями.

Иначе говоря, данные не совсем исчезли, но теперь фрагментированы и требуют больше усилий по их сбору. И да, полнота данных уменьшилась, но как бы исчезли они не полностью. Почему это происходит? Потому что совсем не публиковать цифры госорганы не могут, это всегда было часть их коммуникационной стратегии с субъектами регулирования и это как бы публичное подтверждение что они "работают".

Вот, например, Росавиация перестала уже давно в открытом доступе осуществлять публикацию статистики по авиаперевозкам, загруженности аэропортов и тд. В пресс-релизах есть некоторые сведения, но это тексты из которых эти цифры необходимо извлекать. Можно ли реконструировать датасеты из этих пресс релизов и других цифр отрасли? Вообще-то хотя и частично можно, в первую очередь с помощью ИИ ассистентов/агентов которые могут извлекать из текстов цифры и формировать временные ряды.

Можно ли говорить что это позволяет преодолеть проблему отсутствия данных? Лишь отчасти потому что это оправдывает себя только на реально ценных данных для четко сформулированных панелей мониторинга показателей.

Много лет назад я подумывал о том что можно было бы сделать довольно простой проект с набором ключевых показателей, условно, "Россия в цифрах" и транслировать через него панель индикаторов происходящего в экономике и обществе. Есть же в США проекты вроде USAFacts и DataUSA, и в ряде стран есть похожее. Данных было больше, политических ограничений меньше. Сейчас данных меньше, политических ограничений больше, но это все еще реалистично, только руки до такого дойдут уже нескоро. Скорее похоже на задачу под хакатон, причем хакатон скорее про визуализацию данных чем про что-то еще.

А вот, к примеру, в Армении политических ограничений нет, но есть существенные ограничения в доступности данных не по причине их сокрытия, а просто по причине отсутствия структурированных данных и с тем что ИИ агенты до сих пор с армянским языком работают недостаточно хорошо. В случае Армении других вариантов кроме как собирать панель показателей с помощью ИИ агентов нет. Что-то вроде DataArmenia собрать реалистично, но проводить хакатон по визуализации можно только понимая источники данных и их сбора.

В целом же дефицит данных для принятия решения сводится к данным доступных с ежесуточной/еженедельной частотой. Таких данных относительно немного, а по развивающимся странам они в остром дефиците.

#opendata #data #thoughts
8👍64😁1
По поводу введения "платы за VPN сервисы" в России, давайте называть всё своими именами. Это выглядит как цифровой налог на бедных. Понятно что те кому это критично найдут на это деньги (или способ обойти и это) и понятно что интернет-провайдеров будут люто за это ненавидеть. А для людей с небольшими и средними доходами - это будет очень болезнено. И отличить любой другой зарубежный трафик от VPN будет практически невозможно. И богатых имеющих доступ к зарубежному трафику тоже будут ненавидеть, не так сильно как провайдеров и регуляторов, но тоже. Общий градус злости будет сильно выше

Так что инициатива так себе во всех смыслах. Хуже только тотальный запрет зарубежного трафика.

#thoughts
💯325😢5🤝2
Радует что в ответ на мой запрос про парсинг НЭБа сразу несколько откликов, ожидаемо какого-то простого решения нет и парсинг займет некоторое осмысленное время, однако сама задача привела меня к мысли о том какими сейчас могут быть конкурсы и хакатоны про открытые данные.

Идея в том что трансформировать идею дататонов (datathons) хакатонов где создаются открытые данные к созданию данных высокой ценности. В ЕС и ряде развитых стран они называются high value datasets и являются частью госполитики, но слишком часто эти данные изначально существуют в неструктурированном виде. В лучшем случае в Excel, в худшем случае в бумажном архиве картинками. Самый частый случай - это множество PDF документов со сканами или текстами или HTML страниц.

Это могут быть базы законов, файлы ведомственной статистики, прогнозы погоды и метеонаблюдений картинками, тематические годовые доклады/отчеты и так далее. Иначе говоря - это не из API надо извлечь JSON'ки и склеить их или не самый простой HTML распарсить, а часто надо над этим повозиться.

Раньше это делать было непросто потому что подготовка качественных данных - это всегда было дорого из-за больших трудозатрат в анализе первичных данных и потом в их парсинге. Поэтому дататоны не были особо популярны. А вот с появлением ИИ агентов и кодирующих ассистентов такие задачи стали проще, настолько проще что можно к этому вернуться.

И мои мысли таковы что можно делать такие конкурсы на регулярной основе. Собрать призовой фонд в $2-3 тысячи в любой нац. валюте реалистично. Задач тоже множество. Например, по России - это уже упомянутые мной базы законов, госдокладов, статистики в PDF'ах, книг и тд. В Армении все еще хуже - большая часть интересных данных в виде PDF и реже файлах MS Word и Excel.

У меня есть списки из десятков таких подборок, те же госдоклады в РФ часто содержат то чего нет в официальной статистике Росстата, а таких госдокладов немало. У Минприроды, у ВИМС, у Роспотребнадзора и ещё много чего.

Поскольку хороших датасетов от государства сейчас дождаться сложно, то можно и, похоже, нужно возвращаться к их созданию из общедоступных сведений.

Как оценивать результаты на таком конкурсе? По объёмам (документов и записей), по сложности решаемой задачи (преобразовать Excel файлики просто, преобразовать изображения сложно), по востребованности, по качеству результата (качество содержания и качество метаданных).

Вот такие мысли вслух. Свободно делюсь идеей потому что если кто-то ещё будет делать подобное и как общественное благо, то будет только лучше.

#opendata #thoughts
👍11🔥832❤‍🔥2
По поводу блокировок в России Pypi, репозитория библиотек кода для Python и заявлений Роскомнадзора по поводу того что "это не они", все довольно просто. Pypi как и тысячи других сервисов в мире используют CDN, в данном случае сервис Fastly. Вот его Роскомнадзор уже несколько раз блокировал в предыдущих блокировках других ресурсов. Сейчас, я подозреваю, в очередной раз блокировали что-то еще использующее Fastly и затронули Pypi "случайно". Что РКН не оправдывает и не оправдывало никогда.

Проблема в том что таких инцидентов будет больше. Из-за наплыва ИИ агентов все больше онлайн ресурсов используют CDN'ы, просто из-за роста трафика, из-за задач блокировки ИИ агентов и краулеров, из-за роста нагрузки на инфраструктуру.

#thoughts #comments #russia
👍12🕊5💯2