Ivan Begtin
9.08K subscribers
2.52K photos
4 videos
114 files
5.29K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Кстати, в качестве регулярного напоминания, кроме всего прочего какое-то время назад я занимался разработкой утилиты metacrafter, она довольно умело умеет идентифицировать семантические типы данных. При этом в ней нет нейросетей, ИИ, а лишь очень много правил в виде регулярных выражений и их аналога в синтаксисе pyparsing с помощью которых можно быстро сканировать базы данных и файлы для выявления смысловых полей данных.

Чтобы собрать те правила я тогда перелопатил около 10 порталов открытых данных и кучу других собранных датасетов для выявления повторяющихся типов данных. И то типов данных собрал больше чем потом сделал правил, реестр типов, при этом вполне живой.

Так вот одна из интересных особенностей Dateno - это бесконечный источник данных для обучения чего-либо. Например, у меня сейчас для экспериментальных целей уже собрано около 5TB CSV файлов из ресурсов Dateno, а также несколько миллионов мелких CSV файлов из потенциальных каталогов данных, ещё в Dateno не подключённых. А это гигантская база для обучения алгоритмов на выявление типовых паттернов и атрибутов.

Вообще в планах было подключить к Dateno возможность фильтрации по распознанным семантическим типам данных, правда уже сейчас понятно что самым распространённым атрибутом из CSV файлов будет геометрия объекта, атрибут the_geom который есть в каждом экспорте слоя карт из Geoserver.

В любом случае Dateno оказывается совершенно уникальным ресурсом для тех кто хочет поделать себе обучающих подборок данных на разных языках, в разных форматах, из разных стран и заранее обладающим множеством метаданных позволяющих упростить задачи классификации распознавания содержимого.

Я уже общался недавно с группой исследователей которые так вот запрашивали подборки CSV файлов именно на разных языках: английском, испанском, арабском и тд. и желательно из разных источников, чтобы были и примеры с ошибками, с разными разделителями и тд.

Впрочем в Dateno проиндексированы не только CSV файлы, но и многие JSON, NetCDF, Excel, XML, KML, GeoTIFF, GML, DBF и других. Можно собирать уникальные коллекции именно для обучения.

А какие файлы для каких задач для обучения нужны вам?

#opendata #thougths #dateno #algorithms
🔥7👍1
В продолжение размышлений про ИИ агенты, я тут недавно добрался до того чтобы посмотреть интервью Романа Ямпольского про то что в перспективе 5-10 лет мир придет к 99% безработицы с учетом развития ИИ агентов и, хотя я не разделяю такого фатализма, но согласен с тем что всё развивается очень быстро и пока не проглядываются пределы и ограничения технологий не позволяющие делать дальнейшие технологические прорывы.

Это, в каком-то смысле, ситуация противоположная тому о чем писали фантасты, поскольку ИИ разрабатывается не тайно крупными корпорациями или секретными госагентствами, а максимально публично на спекулятивные (венчурные) деньги сверхсконцентрированными на этой задаче.

Для всех кто работал в технологическом секторе быстрое проникновение новых технологий это не редкость, собственно высокие заработки в ИТ были обусловлены необходимостью быстрой адаптации к новым технологиям, а в случае внедрения в ИИ изменения настолько ускорились что не у всех эта адаптация срабатывает. Что говорить о других профессиях где вообще не привыкли столь резким и быстрым изменениям. Масштабы страхов работающих по найму и надежды инвесторов в стартапы здесь сходятся в масштабе ожиданий, но не в результате.

Последний месяц я занимаюсь актуализацией многих технических заданий, дорожных карт и иных планов разработки и уже просто явно вижу что есть задачи которые в ближайший год не заменить с помощью ИИ (пока не заменить), а есть те которые поддаются автоматизации на 70-80% если не сейчас то в ближайшем будущем.

По сути люди [пока] незаменимы сейчас во всех вопросах связанных с коммуникациями, например, организовать хакатон или договориться с поставщиком данных или нанять или уволить человека, но с помощью ИИ агентов вполне себе пишется техническая и отчетная документация, разворачивается инфраструктура, разрабатываются базы данных, создается ПО, осуществляется тестирование и тд. Для чего нужны меньшие по размеру команды (ну или снижение активного найма и обучение действующих команд).

Всё это делает многие длинные планы сразу нерелевантными поскольку их необходимо пересматривать уже не ежегодно, а ежеквартально также как и планы управления ресурсами, людьми, бюджетами и критическими зависимостями.

Лично у меня пока нет каких-то далеко идущих выводов от происходящего или прорывных решений потому что всё меняется слишком быстро, но общая стратегия в быстрой адаптации идущим изменениям.

Я вот для себя лично все больше понимаю что с идущими изменениями вокруг ИИ агентов большую ценность приобретает повышение архитектурных ИТ навыков, а не узкотехнических. Условно надо не идеально знать какой-то язык программирования, а уметь формулировать архитектурные паттерны для ИИ агентов.

#thougths #ai
👍53💯31