Ivan Begtin – Telegram

Ivan Begtin

9.08K subscribers

2.52K photos

4 videos

114 files

5.29K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.08K subscribers

Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.

Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul

#opendata #datasets #data #datascience

Why So Many Data Scientists Quit Good Jobs at Great Companies

A look at why the ‘sexiest job of the 21st century’ has lost its appeal

1.47K viewsIvan Begtin, 13:01

Для тех кто интересуется "гражданской наукой" (citizen science) и данными - проект BirdNet [1] лаборатории орнитологии Корнелла в виде мобильного приложения куда каждый может загрузить часть птичьей песни для немедленной идентификации кто же её поёт.

У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.

Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET

#opensource #datascience #citizenscience

GitHub - birdnet-team/BirdNET-V1: Soundscape analysis with BirdNET.

Soundscape analysis with BirdNET. Contribute to birdnet-team/BirdNET-V1 development by creating an account on GitHub.

1.89K viewsIvan Begtin, 19:34

Forwarded from APICrafter

Обновления в каталоге APICrafter

Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]

Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда

Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.

Мы обязательно опубликуем примеры его использования.

Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd

#apicrafter #datascience #datasets #parquet #json #csv

1.08K viewsIvan Begtin, 09:00

Cogram [1] ассистент программирования для задач машинного обучения. Интегрируется с Python и помогает в работе с SQL. Переводит тексты на ясном английском языке в программные директивы.

Выглядит недорого, $29 в месяц за профессиональную версию и бесплатно для личного пользования. А перспективы хорошие. Так и хочется сказать что первое что делают разработчики и инженеры инструментов на базе ИИ - это лишать работы других разработчиков и инженеров ИИ;)

Ссылки:
[1] https://www.cogram.com

#machinelerning #datascience

Cogram - The AI platform for Architects, Engineers, and Builders

From AI meeting minutes and field reports to email management and RFIs & Submittals, Cogram keeps your projects on schedule, within budget, and out of disputes.

👍1

1.49K viewsIvan Begtin, 11:45

У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].

Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.

Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.

Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture

#datascience #moderndatastack #data #dataproducts

Build, deploy, and manage data, analytics, and AI projects, realizing your Everyday AI vision with The Universal AI Platform™

👍1

1.32K viewsIvan Begtin, 07:39

Для тех кто ищет больших данных и побольше, Academic Torrents [1] раздает 83ТБ открытых данных, в основном для научного применения - в data science и не только. Например, там есть свежий слепок Wikidata в 109ГБ и множество климатических датасетов, датасетов по распознаванию изображений и многого другого.

Ресурс полезный как для поиска интересного так и для публикации собственных больших данных.

Ссылки:
[1] https://academictorrents.com

#opendata #datascience #openacces

Academic Torrents

A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.

👍4🔥4

2.14K viewsIvan Begtin, 08:12

Полезная подборка чтения про данные на ближайшие дни, про разное:
- 10 Hot 🔥 Data & Analytics Trends to Watch in 2022 [1] в блоге Count, о том какие тренды идут в аналитической инженерии.
- Open Archaeo [2] проект открытая археология включая открытые данные, открытый код, стандарты, руководства и протоколы работы
- The Battle for Data Engineer’s Favorite Programming Language Is Not Over Yet [3] дискуссионная статья о будущем языка программирования Rust как языка для инженеров данных
- Data diffs: Algorithms for explaining what changed in a dataset [4] статья об алгоритмах отслеживания изменений в наборах данных
- Building Python Microservices with Apache Kafka: All Gain, No Pain [5] глубоко технологическая заметка о том как делать API с помощью Python и Kafka.
- Easy data processing at scale with Optimus [6] ещё одна очень технологическая заметка о движке Optimus для Python, заменяющий Pandas и включающие многие доп возможности, например, всё то же определение семантических типов данных. В упрощённом варианте, конечно, но есть такое.
- Inside Pornhub [7] нетехническое и познавательное чтение о внутреннем устройстве PornHub'а. Побольше бы таких о крупных/интересных компаниях

Ссылки:
[1] https://blog.count.co/how-data-analytics-will-change-in-2022/
[2] https://open-archaeo.info
[3] https://betterprogramming.pub/the-battle-for-data-engineers-favorite-programming-language-is-not-over-yet-bb3cd07b14a0
[4] https://blog.marcua.net/2022/02/20/data-diffs-algorithms-for-explaining-what-changed-in-a-dataset.html
[5] https://medium.com/towards-data-science/building-python-microservices-with-apache-kafka-all-gain-no-pain-1435836a3054
[6] https://medium.com/@argenisleon/easy-data-processing-at-scale-with-optimus-f467f867d756
[7] https://www.theverge.com/c/22925906/pornhub-mindgeek-content-moderation

#data #datascience #readings #opendata

👍3

2.51K viewsIvan Begtin, 17:44

В рубрике интересных инструментов по работе с данными ploomber ("сантехник") [1] движок на Python по работе с трубами данных. Главное достоинство - работа внутри notebooks (тетрадок) и примеры такой работы [2]. В январе 2022 года авторы присоединились к Y Combinator [3], так что почти наверняка продукт будет развиваться в сторону связки: бесплатный open source + платный cloud.

У проекта четкий акцент на интеграцию с инструментами для data science, так что может и через какое-то время он нарастит популярность.

Ссылки:
[1] https://github.com/ploomber/ploomber
[2] https://ploomber.io/
[3] https://ploomber.io/blog/yc/

#datascience #opensource #data #datatools

GitHub - ploomber/ploomber: The fastest ⚡️ way to build data pipelines. Develop iteratively, deploy anywhere. ☁️

The fastest ⚡️ way to build data pipelines. Develop iteratively, deploy anywhere. ☁️ - ploomber/ploomber

👍4🔥1

2.24K viewsIvan Begtin, 11:30

В рубрике полезных инструментов для работы с документацией и воспроизводимостью исследований и работы с данными

Quatro [1] система с открытым кодом для подготовки научной и технической документации. Поддерживает интеграцию с Jupyter Notebook и создание dynamic documents, интерактивных публикаций, полезных в представлении многих научных результатов. Внутри Pandoc [2], умеет работать с Observable, Python, R, Julia и ещё много чего. Для полного счастья не хватает только web UI/GUI и удивительно что нет стартапа который бы подобное поверх Quatro не запилил, потому что движок также умеет делать книжки в ePub, PDF, MS Word.
В целом выглядит как удобная надстройка над Pandoc.

Курс Reproducible and Trustworthy Workflows for Data Science [3] о том как делать проекты для data science воспроизводимыми. Актуально для любых проектов на данных и аналитика без data science тоже, но тут всё подробно и конкретно. Курс полезный, стоит его пройти.

Ссылки:
[1] https://quarto.org/
[2] https://pandoc.org/
[3] https://ubc-dsci.github.io/reproducible-and-trustworthy-workflows-for-data-science/README.html

#openscience #opensource #documentation #datascience

🔥3👍1

2.31K viewsIvan Begtin, 06:15

В рубрике интересных проектов на данных Data-Driven Discovery of Models (D3M) [1], большой проект DARPA, военного ведомства США финансирующего инновационные проекты.

Проект посвящён автоматизации data science и предсказанием применения моделей данных. А главная идея в улучшении понимания предметных областей для для исследователей данных.

Они упоминают там 3 платформы в этом направлении:
- Einblick [2] система совместного исследования данных и моделирования предсказаний на их основе
- TwoRavens [3] система для моделирования предметных областей через данные и моделирования данных в этих областях
- Distil [4] система для специалистов предметных областей исследовать данные в разных формах

Фактически D3M это экосистема внутри которой финансируются многие проекты. Например, Auctus, поисковик по данным о которым я недавно писал [5] и Datamart [6] проект по анализу наборов данных с сопоставлением их с Wikidata.

А также множество проектов по направлению AutoML, помогающим автоматизировать работу отраслевых экспертов и отделяющих машинное обучение от самих специалистов по машинному обучению. Через типовые модели, через создание базы примитивов для этих моделей и многое другое.

Там много очень разных интересных идей, причём в сторону технологически продвинутых nocode/low-code инструментов внутри которых могут быть сложные алгоритмы работы с данными. Фактически это путь по значительному усилению отраслевых аналитиков в областях экономики, геополитики, промышленности и тд и для того чтобы они самостоятельно могли бы работать с большими данными.

Ссылки:
[1] https://datadrivendiscovery.org/
[2] https://www.einblick.ai/
[3] http://2ra.vn/
[4] https://d3m.uncharted.software/
[5] https://t.me/begtin/3922
[6] https://datadrivendiscovery.org/augmentation/

#data #research #datascience #datadiscovery #ml

👍10

1.85K viewsIvan Begtin, 04:38

Написал большой текст на английском про спектр каталогов данных и отличия между научными репозиториями данных, порталами открытых данных и корпоративными каталогами [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-1-spectrum-of-data-catalogues-ba75d1dd06c9

#opendata #datacatalogs #datascience #openaccess

Data catalogs. Part 1. The Spectrum of data catalogs

Following short articles, I will write about data catalogs related to corporate, scientific, and open data topics.

🔥11👍2

1.84K viewsIvan Begtin, 18:35

Многие научные журналы в мире требуют от учёных публиковать вместе со статьями так называемый DAS (Data availability statement), заявление о доступности данных. Оно включает, или ссылку на открытые опубликованные данные, или объявление о доступности данных по запросу.

Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]

Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.

У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.

Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe

#opendata #openaccess

Sergio Uribe (@sergiouribe) | Twitter

The latest Tweets from Sergio Uribe (@sergiouribe). Researcher @bbcentre_eu & Assoc Prof @RSUinfo @fame_uach | PhD OMFR DDS | #dataScience #EBD #epi #opensci #ml4h | https://t.co/ZBa0PJSfjS…. Cēsis, Latvija

👍10🤔1

1.77K viewsIvan Begtin, 03:48

Полезная статья [1] о применении машинного обучения и глубокого обучения для задач VDU (Visual document understanding), распознавания текстов (и образов) в документах. Автор пишет о том как на базе библиотеки transformers [2] от HuggingFaces, модели Donut [3] (Document understanding transformer) и базы сканированных чеков она настроила их автоматическое распознавание в структурированный формат в JSON так что на выходе получается не текст неким свободным образом написанный, а структура объекта чтобы сразу класть в базу данных.

Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.

Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.

Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE

#data #opensource #ml #datascience

👍5

2.08K viewsIvan Begtin, edited 18:13

Данные которые не скачать напрямую, но которые всё ещё открытые данные.

Есть такая особенность у данных машинного обучения что каталоги и реестры для их публикации часто не содержат прямых ссылок на файлы или же доступ по прямым ссылкам не является основнным. Это кажется очень странным, но это так. Вместо этого они содержат ... код для доступа к датасетам.

Те кто занимается задачами по data science к такому привычны давно, те кто использует другие инструменты могут находить это весьма необычным.

Вот несколько примеров:
- Tensorflow Catalog [1] каталог наборов данных к продукту Tensorflow, по каждому датасету есть информация о первоисточнике, объёму и способу подключения используя Tensorflow
- UC Irvine Machine Learning Repository [2] каталог датасетов для машинного обучения. Кроме ссылки на выгрузку, генерируется код для Python, а для каталога есть специальная открытая библиотека
- аналогично с каталогом датасетов Pytorch [3], сразу код для импорта и это логично ведь он часть библиотеки

Не говоря уже о Kaggle и HuggingFace, там такой режим доступа по умолчанию. Можно сказать что это code - first стратегия для работы с данными.

Один из интересных вопросов в том как индексировать такие датасеты. Помимо того что все такие каталоги написаны очень по своему, так ещё и получается что у них нет такого понятия как ресурсы, файлы или ссылки, в ситуации когда доступ только через API. Зато есть автогенерация кода, причём, в основном сразу в Python.

Это одна из причин почему в Dateno пока ещё мало датасетов по Machine Learning, все каталоги в этой области очень специфичны и не все дают возможность индексировать их просто и давать ссылки на файлы.

Но, конечно, вскоре и они будут добавлены

Ссылки:
[1] https://www.tensorflow.org/datasets/catalog/overview
[2] https://archive.ics.uci.edu/
[3] https://pytorch.org/vision/stable/datasets.html
[4] https://paperswithcode.com/dataset/cityscapes

#opendata #datasets #datacatalogs #ml #datascience #python

✍5👍2🤔2

1.86K viewsIvan Begtin, 09:16

- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.

Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.

Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.

#opendata #data #datascience #ml #machinelearning

Dateno - datasets search engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

👍6🔥3

1.53K viewsIvan Begtin, 05:55

Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops

👍18❤2

1.83K viewsIvan Begtin, 17:39

Подборка полезных ссылок про данные, технологии и не только:
- Catalogue of predictive models in the humanitarian sector [1] каталог предсказательных моделей в гуманитарном секторе, про погоду, засуху, катастрофы, пандемии и так далее. Большая подборка, в основном от университетов и структур ООН
- OGP Data Dashboard [2] обещания стран по развитию открытости в рамках OGP наложенное на карты. В том числе локальные инициативы
- Rubber Duck Debugging [3] отладка резиновой уточкой, способ программирования код объясняешь код построчно желтой резиновой утке рядом. Можно заменить на плюшевого медведя. Не новость, но полезное напоминание для тех кто задолбался с отладкой;)
- Enhancing findability and searchability of research data: Metadata conversion and registration in institutional repositories [4] научная работа про повышение качества поиска и находимости научных данных. Построено с акцентом на японскую национальную систему публикации научных данных IRDB [5]
- SciLake. Scientific Knowledge Graphs in the heart of Open Science
[6] европейский проект поверх OpenAIRE по сбору дополнительных данных и обогащению метаданных связанных с научными активностями. Больше похоже на параллельные научные гранты по обогащению данных OpenAIRE, не связанные между собой, но результатом может быть интересный открытый код

Ссылки:
[1] https://centre.humdata.org/catalogue-for-predictive-models-in-the-humanitarian-sector/
[2] https://www.opengovpartnership.org/data-dashboard
[3] https://en.wikipedia.org/wiki/Rubber_duck_debugging
[4] https://datascience.codata.org/articles/10.5334/dsj-2024-040
[5] https://irdb.nii.ac.jp
[6] https://scilake.eu

#opendata #datascience #programming #data #openaccess

👍4✍1

1.28K viewsIvan Begtin, 04:21

Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.

Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.

Ссылки:
[1] https://marimo.io

#opensource #datascience #data #datatools

❤14👍4

1.61K viewsIvan Begtin, 06:13

💡 Чем интересен Dateno?

Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.

📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.

👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.

📥 Форматы ресурсов:

CSV — 1 008 646 (15%)

XLSX — 525 329 (7.8%)

XML — 522 501 (7.8%)

JSON — 509 668 (7.6%)

ZIP — 496 709 (7.4%)

PDF — 487 189 (7.3%)

HTML — 475 377 (7.1%)

WMS — 320 159 (4.8%)

NC — 233 229 (3.5%)

XLS — 185 855 (2.8%)

WCS — 141 472 (2.1%)

KML — 122 781 (1.8%)

DOCX — 115 723 (1.7%)

📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.

📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.

🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.

Хочется верить, что это изменится.

#данные #opendata #dateno #datascience #dataengineering

Dateno - datasets search engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

🔥7✍5

1.31K viewsIvan Begtin, edited 10:43

Полезные ссылки про данные, технологии и не только:
- DS-STAR новый ИИ агент для решения задач в data science, обещают многое включая автоматизация обработки, анализа и визуализации данных. Заодно препринт где в тексте приведены другие похожие продукты.
- Federal Agency Github Activity визуализация активности на Github'е федеральных государственных агентств, спойлер: многие не публикуют ничего, но есть такие что работают над кодом постоянно. При этом в США есть госполитика о том что не менее 20% разрабатываемого госведомствами кода должно быть открытым кодом. Автор проекта рассказывает об этом подробнее
- Shai-Hulud 2.0 - новая версия вредоноса который инфильтруется в виде пакета для npm и ворует ключи, пароли и реквизиты доступа. В этой версии появился "dead man switch", угроза уничтожения данных пользователя если он мешает распространению. Кстати, что происходит с "AI powered malware" ? Появились ли уже вредоносы умеющие в ИИ?
- LocalAI позиционируется как local-first альтернатива OpenAI, лицензия MIT, быстро набирает популярность. Акцент на более человеческих, а не технических интерфейсах

#opensource #malware #ai #datascience

research.google

DS-STAR: A state-of-the-art versatile data science agent

✍4👍2

1.51K viewsIvan Begtin, 05:12