Весьма любопытный обзор/мини-анализ инструментов машинного обучения [1] (на английском). Автор просмотрел более 200 ML инструментов и делает вывод что инструментарий для AI неразвит, несмотря на весь пузырь в этой области. Многие проблемы не решены, многие задачи требуют инструментов которые пока ещё никто не разрабатывает. И, в качестве резюме, то что хайп вокруг AI угасает и если Вы хотите заниматься данными, то выбирайте инженерию, а не машинное обучение. Машинное обучение всегда сможете наверстать, а без инженерных навыков в жизни никуда.
Ссылки:
[1] https://huyenchip.com/2020/06/22/mlops.html
#data #ai #ml
Ссылки:
[1] https://huyenchip.com/2020/06/22/mlops.html
#data #ai #ml
Chip Huyen
What I learned from looking at 200 machine learning tools
[Twitter thread, Hacker News discussion]
Для тех кто давно хочет поэкспериментировать с машинным переводом, Translator API [1] полностью с открытым кодом на Github, легко модифицируется, поддерживает 150 языков и работает на основе языковой модели Language Technology Research Group at the University of Helsinki [2].
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.
Очень интересно было бы сравнить с автоматизированными облачными переводчиками.
Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/
#ml #machinelearning #datascience #cooltools #data
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.
Очень интересно было бы сравнить с автоматизированными облачными переводчиками.
Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/
#ml #machinelearning #datascience #cooltools #data
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.
В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.
Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats
#opendata #data #ml
В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.
Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats
#opendata #data #ml
Backblaze
Hard Drive Test Data
Hard Drive test data from the Backblaze data center. Backblaze is affordable, easy-to-use cloud storage.
На WeatherSpark [1] замечательные визуализации средней погоды по городам мира. Есть и Россия и Москва конкретно, с рекомендацией лучшей погоды с конца июня по середину августа [2]. Как раз этот период заканчивается через несколько дней.
Сервис визуализации исходного кода (на самом деле структуры файлов в репозитории) на Github. Можно посмотреть пример на проекте undatum [3] и исходный код визуализатора [4]. Может быть полезно и просто неплохо выглядит.
Подборка курсов по Machine Learning для тех кто только начинает изучать эту область знаний [5].
Ссылки:
[1] https://weatherspark.com
[2] https://weatherspark.com/y/100524/Average-Weather-in-Moscow-Russia-Year-Round
[3] https://octo-repo-visualization.vercel.app/?repo=datacoon%2Fundatum
[4] https://octo.github.com/projects/repo-visualization
[5] https://github.com/dair-ai/ML-YouTube-Courses
#dataviz #ml
Сервис визуализации исходного кода (на самом деле структуры файлов в репозитории) на Github. Можно посмотреть пример на проекте undatum [3] и исходный код визуализатора [4]. Может быть полезно и просто неплохо выглядит.
Подборка курсов по Machine Learning для тех кто только начинает изучать эту область знаний [5].
Ссылки:
[1] https://weatherspark.com
[2] https://weatherspark.com/y/100524/Average-Weather-in-Moscow-Russia-Year-Round
[3] https://octo-repo-visualization.vercel.app/?repo=datacoon%2Fundatum
[4] https://octo.github.com/projects/repo-visualization
[5] https://github.com/dair-ai/ML-YouTube-Courses
#dataviz #ml
Weatherspark
The Weather Year Round Anywhere on Earth - Weather Spark
Get monthly, daily, and hourly graphical reports of the average weather: daily highs and lows, rain, clouds, wind, etc. Great for event and trip planning!
В MIT Technology Review статья о том что Meta (ранее - Facebook) создали новую языковую модель для того чтобы обойти недостатки GPT-3 [1]․ Она называется OPT-175B и уже есть некоторые подробности о её содержании[2]. 175 в названии - это 175 миллиардов параметров, а раскрытие модели - это интересный шаг. Meta, как критикуют, так и ставят в пример. Действительно вокруг их работы есть много этических аспектов, но сам шаг публикации такой модели крайне интересен.
Ссылки:
[1] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
[2] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
#opendata #ai #ml #languagemodels
Ссылки:
[1] https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/
[2] https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
#opendata #ai #ml #languagemodels
MIT Technology Review
Meta has built a massive new language AI—and it’s giving it away for free
Facebook’s parent company is inviting researchers to pore over and pick apart the flaws in its version of GPT-3
В рубрике интересных проектов на данных Data-Driven Discovery of Models (D3M) [1], большой проект DARPA, военного ведомства США финансирующего инновационные проекты.
Проект посвящён автоматизации data science и предсказанием применения моделей данных. А главная идея в улучшении понимания предметных областей для для исследователей данных.
Они упоминают там 3 платформы в этом направлении:
- Einblick [2] система совместного исследования данных и моделирования предсказаний на их основе
- TwoRavens [3] система для моделирования предметных областей через данные и моделирования данных в этих областях
- Distil [4] система для специалистов предметных областей исследовать данные в разных формах
Фактически D3M это экосистема внутри которой финансируются многие проекты. Например, Auctus, поисковик по данным о которым я недавно писал [5] и Datamart [6] проект по анализу наборов данных с сопоставлением их с Wikidata.
А также множество проектов по направлению AutoML, помогающим автоматизировать работу отраслевых экспертов и отделяющих машинное обучение от самих специалистов по машинному обучению. Через типовые модели, через создание базы примитивов для этих моделей и многое другое.
Там много очень разных интересных идей, причём в сторону технологически продвинутых nocode/low-code инструментов внутри которых могут быть сложные алгоритмы работы с данными. Фактически это путь по значительному усилению отраслевых аналитиков в областях экономики, геополитики, промышленности и тд и для того чтобы они самостоятельно могли бы работать с большими данными.
Ссылки:
[1] https://datadrivendiscovery.org/
[2] https://www.einblick.ai/
[3] http://2ra.vn/
[4] https://d3m.uncharted.software/
[5] https://t.me/begtin/3922
[6] https://datadrivendiscovery.org/augmentation/
#data #research #datascience #datadiscovery #ml
Проект посвящён автоматизации data science и предсказанием применения моделей данных. А главная идея в улучшении понимания предметных областей для для исследователей данных.
Они упоминают там 3 платформы в этом направлении:
- Einblick [2] система совместного исследования данных и моделирования предсказаний на их основе
- TwoRavens [3] система для моделирования предметных областей через данные и моделирования данных в этих областях
- Distil [4] система для специалистов предметных областей исследовать данные в разных формах
Фактически D3M это экосистема внутри которой финансируются многие проекты. Например, Auctus, поисковик по данным о которым я недавно писал [5] и Datamart [6] проект по анализу наборов данных с сопоставлением их с Wikidata.
А также множество проектов по направлению AutoML, помогающим автоматизировать работу отраслевых экспертов и отделяющих машинное обучение от самих специалистов по машинному обучению. Через типовые модели, через создание базы примитивов для этих моделей и многое другое.
Там много очень разных интересных идей, причём в сторону технологически продвинутых nocode/low-code инструментов внутри которых могут быть сложные алгоритмы работы с данными. Фактически это путь по значительному усилению отраслевых аналитиков в областях экономики, геополитики, промышленности и тд и для того чтобы они самостоятельно могли бы работать с большими данными.
Ссылки:
[1] https://datadrivendiscovery.org/
[2] https://www.einblick.ai/
[3] http://2ra.vn/
[4] https://d3m.uncharted.software/
[5] https://t.me/begtin/3922
[6] https://datadrivendiscovery.org/augmentation/
#data #research #datascience #datadiscovery #ml
Полезная статья [1] о применении машинного обучения и глубокого обучения для задач VDU (Visual document understanding), распознавания текстов (и образов) в документах. Автор пишет о том как на базе библиотеки transformers [2] от HuggingFaces, модели Donut [3] (Document understanding transformer) и базы сканированных чеков она настроила их автоматическое распознавание в структурированный формат в JSON так что на выходе получается не текст неким свободным образом написанный, а структура объекта чтобы сразу класть в базу данных.
Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.
Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.
Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE
#data #opensource #ml #datascience
Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.
Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.
Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE
#data #opensource #ml #datascience
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
У технической команды Dropbox интересная публикация про идентификацию дат из названий файлов [1] и автозаполнение полей форм при их загрузке.
Хорошая практическая задача, а тут ещё и описание подхода и инструментов. Правда почти всё описываемое про англоязычные даты, но, возможно, другие языки просто не описаны.
Причём подход описывается как замена распознаванию дат по правилам. Правда ML подход работает медленнее, о чём они пишут.
А я когда-то делал инструмент для идентификации дат в тексте. Это библиотека qddate (quick-and-dirty date) [2]. Я написал её около 10 лет назад, а 6 лет назад её обновил и выложил в открытый доступ. С тех пор почти не обновлял. Что я могу сказать, так то что распознавание по правилам недооценено и может быть гораздо эффективнее и быстрее. Правда, в qddate я решал задачу производительности и внутри много "грязных хаков" ускоряющих распознавание дат, но, в общем, это из тех задач для которых я считаю ML избыточным.
Хотя и на результат которого достигли эти ребята хотелось бы посмотреть подробнее.
Ссылки:
[1] https://dropbox.tech/machine-learning/using-ml-to-identify-date-formats-in-file-names
[2] https://github.com/ivbeg/qddate
#datatools #data #ml
Хорошая практическая задача, а тут ещё и описание подхода и инструментов. Правда почти всё описываемое про англоязычные даты, но, возможно, другие языки просто не описаны.
Причём подход описывается как замена распознаванию дат по правилам. Правда ML подход работает медленнее, о чём они пишут.
А я когда-то делал инструмент для идентификации дат в тексте. Это библиотека qddate (quick-and-dirty date) [2]. Я написал её около 10 лет назад, а 6 лет назад её обновил и выложил в открытый доступ. С тех пор почти не обновлял. Что я могу сказать, так то что распознавание по правилам недооценено и может быть гораздо эффективнее и быстрее. Правда, в qddate я решал задачу производительности и внутри много "грязных хаков" ускоряющих распознавание дат, но, в общем, это из тех задач для которых я считаю ML избыточным.
Хотя и на результат которого достигли эти ребята хотелось бы посмотреть подробнее.
Ссылки:
[1] https://dropbox.tech/machine-learning/using-ml-to-identify-date-formats-in-file-names
[2] https://github.com/ivbeg/qddate
#datatools #data #ml
Обновлённая подборка ссылок на порталы с открытыми или общедоступными данными для машинного обучения.
Большие международные
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- DagsHub dagshub.com/datasets - большая подборка наборов данных и библиотека для Python для работы с ними
- Papers With Code paperswithcode.com/datasets - наборы данных привязанные к "публикациям с кодом", чаще ссылки на другие порталы с данными
- Andaconda Datasets anaconda.org/search?q=dataset - программные пакеты для Python (Anaconda) для доступа ко многим наборам данных и включающие наборы данных
Японские
- ABCI Datasets datasets.abci.ai - научные наборы данных для ML
Корейские
- AI Hub aihub.or.kr - портал данных для ИИ в Южной Корее, большая часть данных требует регистрации и разрешения на использование
Российские
- MosMed datasets mosmed.ai/datasets - подборка наборов открытых данных для машинного обучения в области медицины
А также существуют многие другие, узкотематические и в виде подборок наборов данных.
#opendata #ml #data #ai #datacatalogs
Большие международные
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- DagsHub dagshub.com/datasets - большая подборка наборов данных и библиотека для Python для работы с ними
- Papers With Code paperswithcode.com/datasets - наборы данных привязанные к "публикациям с кодом", чаще ссылки на другие порталы с данными
- Andaconda Datasets anaconda.org/search?q=dataset - программные пакеты для Python (Anaconda) для доступа ко многим наборам данных и включающие наборы данных
Японские
- ABCI Datasets datasets.abci.ai - научные наборы данных для ML
Корейские
- AI Hub aihub.or.kr - портал данных для ИИ в Южной Корее, большая часть данных требует регистрации и разрешения на использование
Российские
- MosMed datasets mosmed.ai/datasets - подборка наборов открытых данных для машинного обучения в области медицины
А также существуют многие другие, узкотематические и в виде подборок наборов данных.
#opendata #ml #data #ai #datacatalogs