Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Forwarded from Innovation & Research
Корейский поисковик Naver выпустил языковую модель

Разработка называется HyperCLOVA X. На её базе действует похожий на ChatGTP чат-бот CLOVA X и генеративный поисковый сервис Clue, аналогичный Bing от Microsoft.

Число параметров не раскрывается, но известно, что предыдущая версия модели, HyperCLOVA, разработанная в 2021 году, имела 204 млрд параметров.

Над моделью работала команда из 500 экспертов в области ИИ и Naver теперь входит в пятёрку компаний, имеющих собственную большую языковую модель с более чем 100 млрд параметров.

Также компания разрабатывает мультимодальную языковую модель, которая могла бы генерировать помимо текста ещё и графику, видео и аудио.

Naver фокусирует продукты на национальных языках региона и стремится распространить своё покрытие на Корею, Японию, страны Юго-Восточной Азии и Ближнего Востока, для которых международные гиганты типа Microsoft и Google пока не открыли свои флагманские ИИ-сервисы.

#LLM #чатботы

https://techcrunch.com/2023/08/24/koreas-internet-giant-naver-unveils-generative-ai-services/
👍42
Два интересных и противоположных текста. В NYTimes о том как Марк Цукерберг поднабрал кармы и репутации выбрав open-source путь для развития AI в Meta. И, в целом, текст про пользу от открытия кода LLAMA.

Второй текст авторский от John Luttig из фонда Founders Fund, финансирующего многие AI стартапы что у нас на слуху, о том что фундаментальные модели ИИ будут с закрытым кодом. Потому что дорого, потому что национальная безопасность и много разных соображений.

Где правда? Я бы предположил что правда в будущих прецедентах. Если кто-то из недружественных для США стран попадётся на применении open-source LLM в каком-нибудь военном непотребстве конфликте, то open source LLM пришибут очень быстро.

Как бы то ни было тема важная, забывать про неё нельзя.

#opensource #ai #LLM
10👍5💯4🤔1
Свежий open source инструмент/код по осмысленной интерпретации данных для LLM называется GraphRAG [1] весь код опубликован на Github.

Пока не могу сказать подробнее, надо экспериментировать, но выглядит просто таки очень интересно.

Ссылки:
[1] https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/

#opensource #llm #ai
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]

Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619

#opensource #llm #ai #datatools
🔥543
Полезные ссылки про данные, технологии и не только:
- Classifying all of the pdfs on the internet [1] автор проанализировал 8TB PDF файлов собранных через Common Crawl и использовал Llama-3-70B для их классификации.
- Loss Rider [2] библиотека для визуализации Line Rider диаграм. Наглядный импакт!
- quarto-live [3] расширение для Quarto добавляющее интерактивности для R и Python примеров. Хорошо подойдёт для любых онлайн учебных курсов.
- A Gentle Introduction to GDAL Part 8: Reading Scientific Data Formats [4] лонгрид про обработку научных геоданных HDF и NetCDF с помощью GDAL. Выглядит полезным
- LOTUS [5] движок для запросов к запросов к Pandas с LLM

Ссылки:
[1] https://snats.xyz/pages/articles/classifying_a_bunch_of_pdfs.html
[2] https://github.com/jndean/LossRider
[3] https://r-wasm.github.io/quarto-live/
[4] https://medium.com/@robsimmon/a-gentle-introduction-to-gdal-part-8-reading-scientific-data-formats-1a1f70d5388c
[5] https://github.com/stanford-futuredata/lotus

#opensource #readings #llm #ai
👍5🔥3
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.

Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].

Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.

Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.

Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.

Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418

#opensource #datatools #dataengineering #data #ai #llm
👍6
Китайский стартап Deepseek [1] с его 3-й версией языковой модели показал что можно создать конкурентную языковую модель за $6 миллионов и ограниченными ресурсами, всего 10 тысяч процессоров Nvidia H100s [2]. Сейчас в США акции AI компаний упали, особенно Nvidia, а также приложение DeepSeek в топе скачиваний. Оно уже явно сбоит, невозможно зарегистрироваться через их сайт, ошибки одна за другой, но это явно из-за массового спроса.

Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.

Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].

Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.

Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

#ai #ml #llm
🔥21👍2🌭1
Open R1 [1] полностью открытая реконструкция модели Deepseek-R1 которая несколько дней назад стала столь известной и популярной.

Думаю что недолго будет ждать когда появится сервис (спорю что уже появились) альтернативы DeepSeek в других юрисдикциях, не в Китае.

Что последствия для рынка не отменит, но уменьшит опасения утечки конфиденциальных данных

Ссылки:
[1] https://github.com/huggingface/open-r1

#opensource #llm #deepseek #ai
🔥10
AI и политика

Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.

Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.

Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967

#ai #opensource #deepseek #llm
👏8👍3🌚1
ChatGPT теперь даёт возможность поиска и интерактива без авторизации [1] вот что конкуренция творит, а всего-то китайцы запустили Deepseek😜

Ссылки:
[1] https://chatgpt.com/?hints=search

#llm #ai #chatgpt
😁26👍43
Docker теперь умеет запускать ИИ модели [1], похоже что пока только на Mac с Apple Silicon, но обещают скоро и на Windows с GPU ускорением.

Пора обновлять ноутбуки и десктопы.😜

Ссылки:
[1] https://www.docker.com/blog/introducing-docker-model-runner/

#ai #docker #llm
👍13🌚2
Ещё одна важная находка, оказывается облачные LLM'ки вполне неплохо научились восстанавливать данные из графиков. Причём в разных формах и разных стилях. Это даёт довольно существенные возможности по превращению PDF отчетов и презентаций в таблицы с данными.

Слишком многие данные вот таким образом закопаны в официальных отчётах. А теперь можно их "выковыривать" гораздо более универсальными способами.

#data #datasets #llm
🔥26❤‍🔥2👍1
Прекрасно справляются LLM'ки с анализом идентификаторов. Вот результаты Deep Research через Perplexity по промпту

В государственном реестре у телеграм канала https://t.me/government_rus указан код 676aa1e71e4e233a71743076, а также
- у телеграм канала
https://t.me/webstrangler код 6726c91f4821646949597aa1
- у телеграм канала
https://t.me/bloodysx код 677fd08c4de6c368456d0b5f

Проанализируй по какому алгоритму могли быть созданы эти коды


Полную декомпозицию получить не удалось, потому что примеров пока маловато, а может быть там действительно рандомные значения.

В задачах OSINT анализ идентификаторов требуется часто. Но нужен он ещё и в задачах анализа данных в контексте дисциплины data understanding.

#llm #ai #research #identifiers
🤗3
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.

Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.

В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.

Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.

Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.

#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
54👍4
Про MCP ещё полезное чтение

A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].

Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет

Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/

#ai #llm #readings
👍61💯1
Для некоторых задач уникальный по функциональности инструмент manus.im китайский облачный ИИ агент помогающий в практических исследовательских задачах, создаёт код и структурированное описание по запросу. Он оказался очень хорош в задачах которые у меня возникают время от времени - поиску недокументированного API. Этот тип задач я регулярно задаю разным ИИ агентам и Manus справляется пока что лучше всех. Неидеально, но очень неплохо, с меньшим числом глюков из-за проверки собранных результатов.

На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.

#opendata #ai #llm
👍8🔥7🙏1
Появилось настольное приложение Qwen [1] для Windows и MacOSX через которую можно работать с 5 облачными языковыми моделями этого семейства LLM. Это не local-first и не local-only, все языковые модели облачные поэтому чувствительные тексты и документы туда направлять не будет разумным, но в остальном удобно для тех кто кто не может использовать другие LLM из-за геоблокировок. Важный объявленный плюс - поддержка MCP. Мне, правда, так и не удалось подключить Qwen к локальному MCP серверу по http streaming, хотя через LM Studio всё прекрасно работало. Но, будем надеяться, что это скоро исправят.

Ссылки:
[1] https://qwen.ai/download

#llm #qwen #ai #tools
1👍10
TOON - свежий инструмент/спецификация/нотация для отправки структурированных данных LLM.

Переупаковывает JSON данные в упрощённый CSV подобный формат для отправки в запросе к LLM.

Сразу возникает запрос - зачем это нужно? И ответ в уменьшении числа токенов и экономии на использовании облачным LLM и LLM-как-сервиса.

#opensource #ai #llm #specifications
👍743💊1
AgenticSeek альтернатива Manus умеющая выполнять разные, в том числе довольно сложные задачи требующие запуска приложений и браузера иных агентских операций. Важное отличие - открытый код и локальный (приватный) запуск.

#opensource #ai #privacy #llm #tools #datatools
10🔥1
Короткий текст The fate of “small” open source где автор рассказывает о будущей печальной судьбе программных библиотек на примере свой библиотеки blob-util и того что ИИ агенты не предлагают использовать её, а автоматически генерируют код.

Это, кстати, довольно таки важная тема что по мере прогресс ИИ инструменты чаще всего игнорируют не самые популярные библиотеки для ПО и каждый раз плодят бесконечное число кода. Можно, конечно, в запросе к ИИ агенту поставить задачу на использование конкретной библиотеки, но это не то что является поведением по умолчанию.

Итоговые изменения пока малопредсказуемы, но вероятность того что многие библиотеки кода будут быстро устаревать весьма вероятно.

И тут я бы ещё добавил что еще одно важное возможное изменение - это применение LLM для переписывания ПО с блокирующими лицензиями на открытые. Например, есть открытый продукт с кодом на GPL или AGPL который Вам надо интегрировать в свой продукт. Подключаете LLM которое переписывает полностью код так чтобы не доказать что он использовался и у Вас на руках появляется продукт под более разрешающей лицензии и с тем же открытым кодом.

Похоже на реалистичный сценарий?

#opensource #ai #llm
🤔7😢32🌚2