Кстати, в качестве регулярного напоминания, кроме всего прочего какое-то время назад я занимался разработкой утилиты metacrafter, она довольно умело умеет идентифицировать семантические типы данных. При этом в ней нет нейросетей, ИИ, а лишь очень много правил в виде регулярных выражений и их аналога в синтаксисе pyparsing с помощью которых можно быстро сканировать базы данных и файлы для выявления смысловых полей данных.
Чтобы собрать те правила я тогда перелопатил около 10 порталов открытых данных и кучу других собранных датасетов для выявления повторяющихся типов данных. И то типов данных собрал больше чем потом сделал правил, реестр типов, при этом вполне живой.
Так вот одна из интересных особенностей Dateno - это бесконечный источник данных для обучения чего-либо. Например, у меня сейчас для экспериментальных целей уже собрано около 5TB CSV файлов из ресурсов Dateno, а также несколько миллионов мелких CSV файлов из потенциальных каталогов данных, ещё в Dateno не подключённых. А это гигантская база для обучения алгоритмов на выявление типовых паттернов и атрибутов.
Вообще в планах было подключить к Dateno возможность фильтрации по распознанным семантическим типам данных, правда уже сейчас понятно что самым распространённым атрибутом из CSV файлов будет геометрия объекта, атрибут the_geom который есть в каждом экспорте слоя карт из Geoserver.
В любом случае Dateno оказывается совершенно уникальным ресурсом для тех кто хочет поделать себе обучающих подборок данных на разных языках, в разных форматах, из разных стран и заранее обладающим множеством метаданных позволяющих упростить задачи классификации распознавания содержимого.
Я уже общался недавно с группой исследователей которые так вот запрашивали подборки CSV файлов именно на разных языках: английском, испанском, арабском и тд. и желательно из разных источников, чтобы были и примеры с ошибками, с разными разделителями и тд.
Впрочем в Dateno проиндексированы не только CSV файлы, но и многие JSON, NetCDF, Excel, XML, KML, GeoTIFF, GML, DBF и других. Можно собирать уникальные коллекции именно для обучения.
А какие файлы для каких задач для обучения нужны вам?
#opendata #thougths #dateno #algorithms
Чтобы собрать те правила я тогда перелопатил около 10 порталов открытых данных и кучу других собранных датасетов для выявления повторяющихся типов данных. И то типов данных собрал больше чем потом сделал правил, реестр типов, при этом вполне живой.
Так вот одна из интересных особенностей Dateno - это бесконечный источник данных для обучения чего-либо. Например, у меня сейчас для экспериментальных целей уже собрано около 5TB CSV файлов из ресурсов Dateno, а также несколько миллионов мелких CSV файлов из потенциальных каталогов данных, ещё в Dateno не подключённых. А это гигантская база для обучения алгоритмов на выявление типовых паттернов и атрибутов.
Вообще в планах было подключить к Dateno возможность фильтрации по распознанным семантическим типам данных, правда уже сейчас понятно что самым распространённым атрибутом из CSV файлов будет геометрия объекта, атрибут the_geom который есть в каждом экспорте слоя карт из Geoserver.
В любом случае Dateno оказывается совершенно уникальным ресурсом для тех кто хочет поделать себе обучающих подборок данных на разных языках, в разных форматах, из разных стран и заранее обладающим множеством метаданных позволяющих упростить задачи классификации распознавания содержимого.
Я уже общался недавно с группой исследователей которые так вот запрашивали подборки CSV файлов именно на разных языках: английском, испанском, арабском и тд. и желательно из разных источников, чтобы были и примеры с ошибками, с разными разделителями и тд.
Впрочем в Dateno проиндексированы не только CSV файлы, но и многие JSON, NetCDF, Excel, XML, KML, GeoTIFF, GML, DBF и других. Можно собирать уникальные коллекции именно для обучения.
А какие файлы для каких задач для обучения нужны вам?
#opendata #thougths #dateno #algorithms
GitHub
GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers,…
Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter
🔥7👍1
В продолжение размышлений про ИИ агенты, я тут недавно добрался до того чтобы посмотреть интервью Романа Ямпольского про то что в перспективе 5-10 лет мир придет к 99% безработицы с учетом развития ИИ агентов и, хотя я не разделяю такого фатализма, но согласен с тем что всё развивается очень быстро и пока не проглядываются пределы и ограничения технологий не позволяющие делать дальнейшие технологические прорывы.
Это, в каком-то смысле, ситуация противоположная тому о чем писали фантасты, поскольку ИИ разрабатывается не тайно крупными корпорациями или секретными госагентствами, а максимально публично на спекулятивные (венчурные) деньги сверхсконцентрированными на этой задаче.
Для всех кто работал в технологическом секторе быстрое проникновение новых технологий это не редкость, собственно высокие заработки в ИТ были обусловлены необходимостью быстрой адаптации к новым технологиям, а в случае внедрения в ИИ изменения настолько ускорились что не у всех эта адаптация срабатывает. Что говорить о других профессиях где вообще не привыкли столь резким и быстрым изменениям. Масштабы страхов работающих по найму и надежды инвесторов в стартапы здесь сходятся в масштабе ожиданий, но не в результате.
Последний месяц я занимаюсь актуализацией многих технических заданий, дорожных карт и иных планов разработки и уже просто явно вижу что есть задачи которые в ближайший год не заменить с помощью ИИ (пока не заменить), а есть те которые поддаются автоматизации на 70-80% если не сейчас то в ближайшем будущем.
По сути люди [пока] незаменимы сейчас во всех вопросах связанных с коммуникациями, например, организовать хакатон или договориться с поставщиком данных или нанять или уволить человека, но с помощью ИИ агентов вполне себе пишется техническая и отчетная документация, разворачивается инфраструктура, разрабатываются базы данных, создается ПО, осуществляется тестирование и тд. Для чего нужны меньшие по размеру команды (ну или снижение активного найма и обучение действующих команд).
Всё это делает многие длинные планы сразу нерелевантными поскольку их необходимо пересматривать уже не ежегодно, а ежеквартально также как и планы управления ресурсами, людьми, бюджетами и критическими зависимостями.
Лично у меня пока нет каких-то далеко идущих выводов от происходящего или прорывных решений потому что всё меняется слишком быстро, но общая стратегия в быстрой адаптации идущим изменениям.
Я вот для себя лично все больше понимаю что с идущими изменениями вокруг ИИ агентов большую ценность приобретает повышение архитектурных ИТ навыков, а не узкотехнических. Условно надо не идеально знать какой-то язык программирования, а уметь формулировать архитектурные паттерны для ИИ агентов.
#thougths #ai
Это, в каком-то смысле, ситуация противоположная тому о чем писали фантасты, поскольку ИИ разрабатывается не тайно крупными корпорациями или секретными госагентствами, а максимально публично на спекулятивные (венчурные) деньги сверхсконцентрированными на этой задаче.
Для всех кто работал в технологическом секторе быстрое проникновение новых технологий это не редкость, собственно высокие заработки в ИТ были обусловлены необходимостью быстрой адаптации к новым технологиям, а в случае внедрения в ИИ изменения настолько ускорились что не у всех эта адаптация срабатывает. Что говорить о других профессиях где вообще не привыкли столь резким и быстрым изменениям. Масштабы страхов работающих по найму и надежды инвесторов в стартапы здесь сходятся в масштабе ожиданий, но не в результате.
Последний месяц я занимаюсь актуализацией многих технических заданий, дорожных карт и иных планов разработки и уже просто явно вижу что есть задачи которые в ближайший год не заменить с помощью ИИ (пока не заменить), а есть те которые поддаются автоматизации на 70-80% если не сейчас то в ближайшем будущем.
По сути люди [пока] незаменимы сейчас во всех вопросах связанных с коммуникациями, например, организовать хакатон или договориться с поставщиком данных или нанять или уволить человека, но с помощью ИИ агентов вполне себе пишется техническая и отчетная документация, разворачивается инфраструктура, разрабатываются базы данных, создается ПО, осуществляется тестирование и тд. Для чего нужны меньшие по размеру команды (ну или снижение активного найма и обучение действующих команд).
Всё это делает многие длинные планы сразу нерелевантными поскольку их необходимо пересматривать уже не ежегодно, а ежеквартально также как и планы управления ресурсами, людьми, бюджетами и критическими зависимостями.
Лично у меня пока нет каких-то далеко идущих выводов от происходящего или прорывных решений потому что всё меняется слишком быстро, но общая стратегия в быстрой адаптации идущим изменениям.
Я вот для себя лично все больше понимаю что с идущими изменениями вокруг ИИ агентов большую ценность приобретает повышение архитектурных ИТ навыков, а не узкотехнических. Условно надо не идеально знать какой-то язык программирования, а уметь формулировать архитектурные паттерны для ИИ агентов.
#thougths #ai
YouTube
The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy
WARNING: AI could end humanity, and we’re completely unprepared. Dr. Roman Yampolskiy reveals how AI will take 99% of jobs, why Sam Altman is ignoring safety, and how we’re heading toward global collapse…or even World War III.
Dr. Roman Yampolskiy is a leading…
Dr. Roman Yampolskiy is a leading…
👍5❤3💯3⚡1