Ivan Begtin
8.99K subscribers
2.62K photos
5 videos
114 files
5.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
По поводу законопроекта Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации [1] который многие сейчас обсуждают и который вступит в силу в сентябре 2027 г. если будет принят.

Содержательно его и без меня многие разберут по косточкам, а я могу лишь с небольшой иронией озвучить "в воздух вопросы":
1. Будет ли создано министерство духовно-нравственных ценностей? А то дело то серьезное, во многих законах уже есть (думаю что де-факто есть засекреченное)
2. Все незарегистрированные ИИ ассистенты и агенты заблокируют или китайские ИИ агенты еще останутся доступными? (а есть сомнения? все заблокируют)
3. И самое главное, а чего полтора года то тянуть? Это что же такое, целых полтора года российские суверенные и национальные модели будут бездушные и безнравственные?! (вопрос риторический)

Ссылки:
[1] https://regulation.gov.ru/projects/166424/

#ai #russia #regulation #laws
1😁29👏11😢7🌚32💯2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM

#opensource #ai
1👍101
Forwarded from Open Data Armenia
Среди нас очень много интересующихся языковыми корпусами, разметкой, NLP и прочими ключевыми словами современности.

6-10 июля в Ереване пройдёт международная летняя школа, посвященная малоресурсным языкам и возможностям армянского в частности.

Участие бесплатное, рабочий язык – английский, приём заявок до 30 марта, все остальные подробности по ссылке.
👍10❤‍🔥1
Во Вьетнаме Министерство науки и технологии приняло National Artificial Intelligence Ethics Framework - этический кодекс разработки и эксплуатации ИИ. Сам текст на английском языке пока что найти не удалось, только новость о том что регулирование принято и начнет действовать сразу же, с марта 2026 года.

Как появится текст на английском языке можно будет обсуждать его подробнее, а на вьетнамском он доступен. Что важно так его обязательность, это не саморегулирующий добровольный документ, а набор требований.

И что не менее важно он написан в соответствии с глобальными документам ОЭСР, ЮНЕСКО и EU AI Act

#ai #regulation #vietnam
👍102🌚1🤨1
Написал про российский законопроект регулирования ИИ скучным текстом на Substack и картинкой для тех кто любит смотреть картинки, а не читать (в тексте подробностей больше, если что).

Картинку, конечно, рисовал с помощью ИИ агента.

#ai #regulation #russia
👍276🔥3🤣2🤔1
Для тех кто интересуется глобальными геодатасетами Global Canopy Heights (Глобальная высота растительного покрова) эти обновленные данные совсем недавно Meta опубликовали как открытую модель на 22ТБ и появился уже сервис chm.geocarpentry.org для выгрузки из него по странам или по конкретным блокам. Он позволяет извлечь из датасета слепки по интересующим территориям.

#opendata #datasets #geodata
👍122❤‍🔥1
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.

#opensource #digitalpreservation #webarchives #documentation
👍2🔥21
В рубрике как это устроено у них NIH 3D публичный депозиторий 3D моделей от Национального института аллергии и инфекционных болезней США. 3D модели - это что-то среднее между данными и исходным кодом, ближе к данным. В этом депозитории более 15 тысяч моделей, преимущественно имеющим отношение к лекарствам, патогенам и медицинским изделиям. Опубликованы с указанием лицензий (преимущественно CC-BY, но есть и другие). С инструкциями для печати и многими другими фильтрами специфичными для 3D печати и области здравоохранения. Является одним из рекомендуемых репозиториев для публикации результатов научных работ при публикации в научных журналах.

Имеет прямое практическое применение для печати наглядных пособий для студентов и для печати деталей для многих медицинских устройств.

#opendata #3D #healthcare
👍7🔥32
Ещё порция размышлений и предсказаний вслух по поводу ограничений Телеграм'а и не только:
- практически неизбежно появится сервисы проксирующие пересылку сообщений и чтение каналов через использование почты и сервисов хранения файлов вроде почты mail.ru, Яндекс Почты, Яндекс Диска и других находящихся в "белых списках". Технически это вполне реализуемо, вопрос лишь когда их сделают и в том что они будут работать с не-мультимедиа контентом преимущественно. Вопрос как долго почтовые сервисы останутся в белых списках и останутся ли ?
- затронут ли ограничения интернета в РФ электронную почту? Например, появятся ли блокировки на по почтовым доменам и IP адресам вне Рунета? Если появятся, то это будет еще более катастрофично чем блокировки мессенжеров.

#russia #internet
💯115🔥3😢1
Для тех кто, возможно, еще не читал, полезный материал Coding agents for data analysis от Саймона Уиллисона про применении ИИ агентов в анализе данных. Более всего полезно дата журналистам, даже аналитикам и в разного рода аналитических проектах.

Главное достоинство - все хорошо и просто объяснено, хоть переводи и курс делай по этому материалу.

#opendata #ai #dataanalysis
137👍3
Все тот же Саймон Уиллисон выложил результаты дизассемблирования компилятора Turbo Pascal 3.02A 1986 года в интерактивной форме с посекционной структурой. Выглядит неплохо, но судя по всему и здесь не обошлось без галлюцинаций ИИ

Идея интересная, но ИИ инструменты пока с ней не справляются, во всяком случае не в руках специалистов по ассемблеру и бинарному коду.

Впрочем я предсказываю что это изменится в течение этого года и тогда это будет еще один прорыв в работе ИИ в разработке ПО, потому что объективная человеческая трудоемкость у этих задач сейчас огромная, а тут ИИ вполне может справиться.

#ai #itmarket #softwaredev
2🙏1
Ещё один любопытный проект про данные в эпоху ИИ ассистентов Legal Data Hunter в виде базы нормативно-правовых и судебных документов со всего мира. Явно пэт-проект одного разработчика, бизнес идея если и прослеживается, то в ней есть сомнения, автор явно хочет продавать API к глобальной базе законов и судебных решений чтобы кто угодно мог подключать их к своим ИИ ассистентам. Открытые данные там тоже есть - это каталог источников юридических документов legal-sources организованный на удивление похоже с тем как я создавал реестр Dateno, в виде большой коллекции YAML файлов по каждому источнику.

Весь проект с конвеерами сбора данных, сбором источников и тд. автор писал с помощью ИИ. Написал он всё это в очень короткий срок и охватывает уже источники более чем по 40 странам (остальные в статусе "запланировано").

Порог входа для создания таких проектов теперь резко сократился, можно сделать в одиночку за недели то что команда разработчиков раньше делала бы полгода или дольше.

Конкретно судьба этого проекта не так интересна, а вот руках более продвинутой LegalTech команды можно создавать базы НПА и судебных решений другого уровня.

#opendata #datasets #ai
42🤔2
Я готовлюсь к выступлению на одной большой международной конференции (не буду говорить пока на какой, лучше потом выложу презентацию или расскажу постфактум) и ловлю себя на том что почти окончательно перешел от подготовки презентаций в BeautifulAI к Manus.

Тезисы и структуру презентации по прежнему готовлю текстом, но все остальное - упаковка, стиль, компоновка слайдов, акценты, почти всё это сгружаю на ИИ ассистента и вычищаю последовательным набором запросов.

Не скажу что презентации получаются красивее сразу, их надо допиливать практически всегда, но скорость работы над любой новой презентацией сильно возрастает.
👍22🔥5😁2❤‍🔥1
Сегодня утром я выступал на конференции Digital Qazaqstan 2026 в Шымкенте, рассказывал про Dateno, Open Data Armenia, про открытые данные в целом, о том как страны могут развивать практики публикации данных. Презентация прошла успешно, судя по числу людей с кем я потом переговорил по итогам. Мероприятие целиком отличное и Шымкент город красивый.

А, помимо моего выступления, я немного послушал о чем говорили на сессии премьер министры стран и структурно это звучало примерно так:
- Казахстан: у нас лучшие цифровые услуги, мы делаем свой государственный LLM и SLM и наши услуги будут еще лучше
- Беларусь: У нас отличный ИТ парк и наши сельхозпроизводители роботизируются ( очень мало про цифровые услуги)
- Узбекистан: У нас есть ИТ парк, программа для стартапов и мы хотим улучшить кредитование ИТ компаний. И да, у нас отличные цифровые услуги
- Кыргызстан: У нас есть ИТ парк, разные программы развития бизнеса в ИТ и отличные цифровые услуги. А еще мы оцифровываем книжки для обучения ИИ
- Россия (Мишустин): покупайте наши импортозамещенные базовые станции и мы делаем свои LLM (показывал Алису, но не Гигачат, заметим) и покупайте наши технологии. Ничего не говорил про российские госуслуги и про Гостех

Я об этом всем чуть позже еще подумаю вслух, а пока готовлюсь к вечернему воркшопу который я буду вести на тему инвентаризации данных.

#opendata #data #kazakhstan
👍259🔥3👌21🐳1
В продолжение предыдущей моей публикации про Digital Qazaqstan 2026 и мое выступление там. У меня было примерно 10 минут выступление в котором я рассказывал том как публикуют открытые данные в мире, что изменилось за эти годы, какие государства продвинулись в этом и какие сильные и слабые стороны публикации данных есть в ЕАЭС.

Ключевое - это доступность данных для экономического развития, многие данные необходимы для принятия решений и подход заключается в публикации данных особой ценности (High Valued Datasets) и воприятии создаваемых наборов данных как дата-продуктов, а не как пассивные обременения.

Также мое выступление было про то что государства являются монополиями и не предоставляя бизнесу данные, они замыкают все инновации внутри себя и эти инновации там же и погибают ( и не рождаются )

Что хорошо - многие на конференции ко мне подошли по итогам и было много содержательных разговоров после выступления и в процессе воркшопа который я провел ближе к вечеру про инвентаризацию данных. Рассказывал, например, о том что в Казахстане есть 46 каталогов данных, но о их существовании мало кто знает внутри страны и большая часть этих каталогов - это геопорталы.

Что можно добавить - если вслушаться в речи практически всех премьер-министров которые выступали на пленарной сессии то они озвучивали позицию "государственного патернализма" (кто-то скажет социализма или госкорпоративизма), но важнее то что государства сами создают цифровые услуги и ИИ сервисы вместо развития коммерческих экосистем. Не поймите меня правильно, про поддержку стартапов говорили многие, но инфраструктура для ИТ стартапов это не только налоги, помещения и деньги, но и иные ресурсы которые включают данные. У компаний недостаточно цифрового топлива и это удорожает и усложняет их путь.

Тем кто хоть что-то говорил про цифровые продукты был российские премьер Мишустин, но делал он это не упоминая ни одной компании, а только в режиме "покупайте наши базовые станции", "покупайте наши технологии" и еще "у нас есть Алиса", но даже говоря про Алису Яндекс он не упомянул. (тут сложно не сделать ремарку о том что чья Алиса то. Она точно Яндексу принадлежит, а не российскому пр-ву?🙈)

Надо отдать должное сам форум прошел отлично, организаторы хорошо постарались и посетителей там было какое-то особенно большое количество, самые большие залы собирали ребята рассказывающие про ИИ и ML с точки зрения разработки, там стульев явно нехватало. Единственный явный организационный огрех был в том что на пленарной сессии премьер-министров был еще и представитель Кубы который говорил на испанском. К этому никто готов не был, я его худо-бедно понимал, но в целом ничего значимого он не говорил, так что и рассказать об этом нечего.

#opendata #data #kazakhstan
7🤝544🌚2
Ещё мысли вслух:
1. Если присмотреться к наиболее популярным репозиториям в Github'е которые попадают в ежесуточные, еженедельные и ежемесячные списки Trending то в какой-то недавний момент почти 100% из них - это разного рода инструменты и руководства для работы с ИИ агентами или сами открытые ИИ агенты или иной код для работы с ИИ.

В какой-то момент ИИ инструменты стали синонимом разработки, хайп ли или реальные изменения достигшие неимоверного масштаба. Фактически стремительный переход к AI-first разработке не только в том смысле что с помощью ИИ ассистентов пишется код, но и в том что все наиболее популярные разработки идут в сторону усиления этого тренда. Лично я ничего подобного не наблюдал ранее.

2. Похоже осталось немного времени когда ИИ инструменты получат возможность осуществлять оплату от имени пользователя и это сильно повлияет не только на рынок сервисов, но и на рынок дата продуктов (и данных соответственно). Например, когда появится возможность задавать ИИ агентам задачи. в стиле "исследуй то-то и то-то, найди сведения о том-то и том-то, систематизируй знания в этой области и потрать на это исследование не более $200" причем не обязательно на токены для запросов к LLM, а, например, для подключения к платному API, платным базам данных и тд. Неизбежно изменение тарификации, агентская тарификация - это вам не ручная подписка на доступ, это оплата здесь и сейчас по числу запросов к сервису. Это поломает бизнес модели многих онлайн сервисов и даст новые возможности многим другим. И это актуально потому что сейчас ИИ агенты делают выводы по общедоступным сведениям преимущественно.

#thoughts #ai #business
👍1310🔥2
Полезное чтение про данные, технологии и не только:
- Dataset Discovery and Exploration: A Survey наиболее полный современный обзор автоматизированных методов поиска и исследования датасетов. Охватывает архитектуры поисковых систем, методы навигации и аннотирования данных.

- Lost or Found? Discovering Data Needed for Research Результаты крупнейшего глобального опроса о том, как исследователи ищут и используют вторичные данные. Анализируются стратегии поиска и критерии оценки данных.

- Discovering Datasets on the Web Scale: Challenges and Recommendations for Google Dataset Search Исследование пользовательского опыта работы с Google Dataset Search. Рассматриваются ментальные модели пользователей и проблемы работы с гетерогенными данными в масштабах веба.

- Datagraphy: toward a systematic approach to dataset discovery Статья, вводящая концепцию "датаграфии" - формализованного и воспроизводимого метода поиска датасетов, призванного заменить хаотичный поиск.

- Handbook on Using Administrative Data for Research and Evidence-based Policy Практическое руководство по поиску, получению доступа и использованию административных (государственных) данных для исследований.

#data #datadiscovery #datasets #readings
👍21
Я, как и обещал, начал чаще писать в рассылку https://begtin.substack.com. Формат рассылки, все таки, существенно отличается от телеграм канала. В моем понимании, телеграм канал под короткие и быстрые заметки, а рассылка для более масштабного чтения, поэтому сейчас я в рассылку отправляю не каждый пост из телеграм канала, а некоторую их совокупность в 2-4 заметки.

Для всех у кого есть сложности доступа к Telegram каналам - рассылка это удобный вариант
1👍132❤‍🔥1
Для тех кто интересуется где можно найти материалы многих, в том числе закрытых, Wiki проектов в мире. Команда Wikiteam из ArchiveTeam регулярно архивирует вики сайты и результаты их архивации доступны в одноименной коллекции Wikiteam и Интернет Архиве.

Контент сохраняется в форматах XML и в виде архивов с изображениями.

Для тех кто хотел бы архивировать сайты на базе MediaWiki самостоятельно, существует открытый код инструмента wikiteam3.

Учитывая что контент вики сайтов публикуется в виде дампов в XML пригодных для машинной обработки, можно сказать что эта коллекция в Интернет Архиве не только каталог архивов, но и каталог открытых данных.

Важно что многие исчезнувшие русскоязычные вики проекты и те что могут исчезнуть в очень скором времени могут быть найдены именно там.

#opendata #digitalpreservation #wiki #archiveorg
🔥8👍31