Docker теперь умеет запускать ИИ модели [1], похоже что пока только на Mac с Apple Silicon, но обещают скоро и на Windows с GPU ускорением.
Пора обновлять ноутбуки и десктопы.😜
Ссылки:
[1] https://www.docker.com/blog/introducing-docker-model-runner/
#ai #docker #llm
Пора обновлять ноутбуки и десктопы.😜
Ссылки:
[1] https://www.docker.com/blog/introducing-docker-model-runner/
#ai #docker #llm
👍13🌚2
Ещё одна важная находка, оказывается облачные LLM'ки вполне неплохо научились восстанавливать данные из графиков. Причём в разных формах и разных стилях. Это даёт довольно существенные возможности по превращению PDF отчетов и презентаций в таблицы с данными.
Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.
#data #datasets #llm
Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.
#data #datasets #llm
🔥26❤🔥2👍1
Прекрасно справляются LLM'ки с анализом идентификаторов. Вот результаты Deep Research через Perplexity по промпту
—
В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала https://t.me/bloodysx код 677fd08c4de6c368456d0b5f
Проанализируй по какому алгоритму могли быть созданы эти коды
—
Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.
В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.
#llm #ai #research #identifiers
—
В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала https://t.me/bloodysx код 677fd08c4de6c368456d0b5f
Проанализируй по какому алгоритму могли быть созданы эти коды
—
Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.
В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.
#llm #ai #research #identifiers
🤗3
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.
Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.
В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.
Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.
Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.
#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.
В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.
Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.
Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.
#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
❤5✍4👍4
Про MCP ещё полезное чтение
A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].
Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет
Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/
#ai #llm #readings
A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].
Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет
Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/
#ai #llm #readings
raz.sh
Raz Blog
👍6❤1💯1
Для некоторых задач уникальный по функциональности инструмент manus.im китайский облачный ИИ агент помогающий в практических исследовательских задачах, создаёт код и структурированное описание по запросу. Он оказался очень хорош в задачах которые у меня возникают время от времени - поиску недокументированного API. Этот тип задач я регулярно задаю разным ИИ агентам и Manus справляется пока что лучше всех. Неидеально, но очень неплохо, с меньшим числом глюков из-за проверки собранных результатов.
На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.
#opendata #ai #llm
На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.
#opendata #ai #llm
👍8🔥7🙏1
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.
Ссылки:
[1] https://qwen.ai/download
#llm #qwen #ai #tools
Ссылки:
[1] https://qwen.ai/download
#llm #qwen #ai #tools
1👍10
TOON - свежий инструмент/спецификация/нотация для отправки структурированных данных LLM.
Переупаковывает JSON данные в упрощённый CSV подобный формат для отправки в запросе к LLM.
Сразу возникает запрос - зачем это нужно? И ответ в уменьшении числа токенов и экономии на использовании облачным LLM и LLM-как-сервиса.
#opensource #ai #llm #specifications
Переупаковывает JSON данные в упрощённый CSV подобный формат для отправки в запросе к LLM.
Сразу возникает запрос - зачем это нужно? И ответ в уменьшении числа токенов и экономии на использовании облачным LLM и LLM-как-сервиса.
#opensource #ai #llm #specifications
👍7⚡4❤3💊1
AgenticSeek альтернатива Manus умеющая выполнять разные, в том числе довольно сложные задачи требующие запуска приложений и браузера иных агентских операций. Важное отличие - открытый код и локальный (приватный) запуск.
#opensource #ai #privacy #llm #tools #datatools
#opensource #ai #privacy #llm #tools #datatools
✍10🔥1
Короткий текст The fate of “small” open source где автор рассказывает о будущей печальной судьбе программных библиотек на примере свой библиотеки blob-util и того что ИИ агенты не предлагают использовать её, а автоматически генерируют код.
Это, кстати, довольно таки важная тема что по мере прогресс ИИ инструменты чаще всего игнорируют не самые популярные библиотеки для ПО и каждый раз плодят бесконечное число кода. Можно, конечно, в запросе к ИИ агенту поставить задачу на использование конкретной библиотеки, но это не то что является поведением по умолчанию.
Итоговые изменения пока малопредсказуемы, но вероятность того что многие библиотеки кода будут быстро устаревать весьма вероятно.
И тут я бы ещё добавил что еще одно важное возможное изменение - это применение LLM для переписывания ПО с блокирующими лицензиями на открытые. Например, есть открытый продукт с кодом на GPL или AGPL который Вам надо интегрировать в свой продукт. Подключаете LLM которое переписывает полностью код так чтобы не доказать что он использовался и у Вас на руках появляется продукт под более разрешающей лицензии и с тем же открытым кодом.
Похоже на реалистичный сценарий?
#opensource #ai #llm
Это, кстати, довольно таки важная тема что по мере прогресс ИИ инструменты чаще всего игнорируют не самые популярные библиотеки для ПО и каждый раз плодят бесконечное число кода. Можно, конечно, в запросе к ИИ агенту поставить задачу на использование конкретной библиотеки, но это не то что является поведением по умолчанию.
Итоговые изменения пока малопредсказуемы, но вероятность того что многие библиотеки кода будут быстро устаревать весьма вероятно.
И тут я бы ещё добавил что еще одно важное возможное изменение - это применение LLM для переписывания ПО с блокирующими лицензиями на открытые. Например, есть открытый продукт с кодом на GPL или AGPL который Вам надо интегрировать в свой продукт. Подключаете LLM которое переписывает полностью код так чтобы не доказать что он использовался и у Вас на руках появляется продукт под более разрешающей лицензии и с тем же открытым кодом.
Похоже на реалистичный сценарий?
#opensource #ai #llm
Read the Tea Leaves
The fate of “small” open source
By far the most popular npm package I’ve ever written is blob-util, which is ~10 years old and still gets 5+ million weekly downloads. It’s a small collection of utilities for working w…
🤔7😢3❤2🌚2