Reddit выпилился из всех поисковых систем кроме Google [1], а в гугле он до сих пор только из-за AI сделки которую они заключили. Правда мне не удалось воспроизвести это с Bing, но получилось с Яндексом. Такое ощущение что в индексе Яндекса остались только ссылки на сообщества и без описаний.
Это всё про будущее контентных проектов наглядно. Крупные контентные проекты будут банить не только AI краулеры, а все поисковые краулеры которые им не платят. В какой-то момент рекламная модель существования поисковиков может начать ломаться (а может уже ломается?)
Ссылки:
[1] https://9to5google.com/2024/07/24/reddit-search-engine-block-google-deal/
#search #ai #reddit
Это всё про будущее контентных проектов наглядно. Крупные контентные проекты будут банить не только AI краулеры, а все поисковые краулеры которые им не платят. В какой-то момент рекламная модель существования поисковиков может начать ломаться (а может уже ломается?)
Ссылки:
[1] https://9to5google.com/2024/07/24/reddit-search-engine-block-google-deal/
#search #ai #reddit
А вот и появился настоящий, а не выдуманный "убийца Google", а заодно и других поисковых систем и, возможно, Perplexity - это SearchGPT [1], продукт который OpenAI тестирует пока на 10 тысячах пользователей.
Поломает это, правда, не только бизнес модель поиска Гугла, но и Яндекса, и потенциально столкнётся с сильным раздражением владельцев контента.
Впрочем застать при этой жизни падение монополии Google на поиск - это было бы любопытно.
Ссылки:
[1] https://www.theverge.com/2024/7/25/24205701/openai-searchgpt-ai-search-engine-google-perplexity-rival
#ai #openai #searchgpt #google #search
Поломает это, правда, не только бизнес модель поиска Гугла, но и Яндекса, и потенциально столкнётся с сильным раздражением владельцев контента.
Впрочем застать при этой жизни падение монополии Google на поиск - это было бы любопытно.
Ссылки:
[1] https://www.theverge.com/2024/7/25/24205701/openai-searchgpt-ai-search-engine-google-perplexity-rival
#ai #openai #searchgpt #google #search
На HuggingFace смешное приложение по генерации "бесконечных датасетов" [1]. Нет, сами датасеты оно не создаёт, пока что, только описания и разметку как будто они созданы.
Ссылки:
[1] https://huggingface.co/spaces/infinite-dataset-hub/infinite-dataset-hub
#ai #funny #humor #datasets
Ссылки:
[1] https://huggingface.co/spaces/infinite-dataset-hub/infinite-dataset-hub
#ai #funny #humor #datasets
Ещё одна история которую бы отнести к теме юмора, но тут одновременно смешно и не смешно.
Deaddit [1] аналог Reddit'а для ИИ. Вопросы задают, на вопросы отвечают и комментируют ответы боты симулирующие людей разного социального профиля.
Для полноты эффекта нехватает только токсичности в коммуникациях которой так много в некоторых культурных средах, но и без неё разговоры выглядят достоверными. Слишком достоверными. Сколько уже таких ботов заполонило классические соцсети и насколько их станет больше в самое ближайшее время?
Ссылки:
[1] https://www.deaddit.xyz
#ai #reddit #humour
Deaddit [1] аналог Reddit'а для ИИ. Вопросы задают, на вопросы отвечают и комментируют ответы боты симулирующие людей разного социального профиля.
Для полноты эффекта нехватает только токсичности в коммуникациях которой так много в некоторых культурных средах, но и без неё разговоры выглядят достоверными. Слишком достоверными. Сколько уже таких ботов заполонило классические соцсети и насколько их станет больше в самое ближайшее время?
Ссылки:
[1] https://www.deaddit.xyz
#ai #reddit #humour
Свежий симпатичный поисковик по смыслам слов semantic grep [1] использует Word2Vec для выборки связанных по смыслу слов и уже их ищет по тексту.
Выглядит просто, симпатично, удобно для простого использования и под лицензией MIT. Опубликовано совсем недавно и аналогов такого я нигде не видел.
Если подумать то такую штуку можно было бы сделать с языковой моделью внутри или более сложными алгоритмами чем просто модель Word2Vec.
Лично я большой любитель командной строки и инструментов работы в ней, хороших поисковиков по текстовым файлам всегда нехватает (и всегда много!)
Ссылки:
[1] https://github.com/arunsupe/semantic-grep
#opensource #ai #commandline #tools #data
Выглядит просто, симпатично, удобно для простого использования и под лицензией MIT. Опубликовано совсем недавно и аналогов такого я нигде не видел.
Если подумать то такую штуку можно было бы сделать с языковой моделью внутри или более сложными алгоритмами чем просто модель Word2Vec.
Лично я большой любитель командной строки и инструментов работы в ней, хороших поисковиков по текстовым файлам всегда нехватает (и всегда много!)
Ссылки:
[1] https://github.com/arunsupe/semantic-grep
#opensource #ai #commandline #tools #data
Свежий полезный ресурс про открытые данные о том как открытые данные пересекаются с генеративным ИИ, Observatory of Examples of How Open Data and Generative AI Intersect [1]
Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.
Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.
По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.
Ссылки:
[1] https://repository.opendatapolicylab.org/genai
#opendata #generativeai #genai #ai
Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.
Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.
По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.
Ссылки:
[1] https://repository.opendatapolicylab.org/genai
#opendata #generativeai #genai #ai
Полезное чтение про данные технологии и не только:
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.
Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process
#opendata #opensource #ai #tech #readings
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.
Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process
#opendata #opensource #ai #tech #readings
europepmc.org
Europe PMC
Europe PMC is an archive of life sciences journal literature.
Честно говоря не знаю по какому критерию они будут проверять что участники из одной из стран Кавказа или Средней Азии, по наличию гражданства или, может быть, сойдёт и ВНЖ. Во втором случае в хакатоне смогут принять многие приехавшие в эти страны из РФ.
В любом случае больше хакатонов интересных и разных.
#opendata #data #google #centralasia #caucasus #ai
В любом случае больше хакатонов интересных и разных.
#opendata #data #google #centralasia #caucasus #ai
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools