nn_for_science | Unsorted

Telegram-канал nn_for_science - AI для Всех

14681

Канал, в котором мы говорим про искусственный интеллект простыми словами Главный редактор и по рекламе: @crimeacs Иногда пишут в канал: @GingerSpacetail, @innovationitsme

Subscribe to a channel

AI для Всех

AlphaProteo: ИИ, который подбирает «ключи» для биологических замков

Среди авторов канала есть drug delivery & drug discovery scientist, поэтому сегодня разговор об этой сфере.

Одна из гиганских проблем разработки лекарств - побочные эффекты из-за неспецифических взаимодействий лекарства со всем подряд в нашем организме. Ее можно решить, например, инкапсулировав лекарство в наночастицу, которая распакуется, когда попадет внутрь целевой клетки из-за изменения pH. Тут возникает проблема доставки уже наночастицы в целевые клетки.

Для наглядности представьте, что вам нужно доставить посылку, только она магнитная: на нее всякое налипает, и она ко всему прилипает.
Ваша задача — создать такую посылку, чтобы она сильнее всего "прилипла" ровно к нужным дверям.
Для этого наночастицу "украшают" хитрым лигандами, которые взаимодействуют только с рецепторами, присутвующими в целевой клетке. И лиганды, и рецепторы - это белки. Мне нравится думать о них как о ключах и замках.

Анонсированная 5 сентября модель AlphaProteo от DeepMind выглядит для такой задачи очень и очень полезной. Она не просто ищет существующие ключи, но и генерирует новые, позволяя ученым разрабатывать биоструктуры с полезными функциями.

Да, функциями. Это ещё один слой проблем и возможностей drug discovery. Функция белка ведь зависит от структуры, если мы прикрепили что-то к белку, его функция может измениться. В биологии на каждом шагу нежданчик, и DeepMind очень старается помочь предсказывать возможные варианты.

В качестве теста AlphaProteo сгенерил лиганды для двух целевых вирусных белков (BHRF1 и SC2RBD домен связывания рецептора спайкового белка SARS-CoV-2), и для пяти белков, участвующих в развитии рака, воспаления и аутоиммунных заболеваний (IL-7Rɑ, PD-L1, TrkA, IL-17A и VEGF-A).
А потом проверили в настоящей лаборатории.

Под капотом все те же сверхточные нейронные сети (CNN) и трансформеры, которые обрабатывают последовательности аминокислот и предсказывают их 3D-структуру с атомарной точностью, а также потенциальные функции белков.

Тренировочные данные - Protein Data Bank белков с известными структурами и функциями и более 100 млн белков авторства AlfaFold, отполировано обучением с подкреплением (reinforcement learning) и методами оптимизации энергетических ландшафтов.

Поиграться пока нельзя, возможно, добавят функционал в 🧬alphafold server
Пока только 📝пост
И 📖whitepaper

Читать полностью…

AI для Всех

Sapiens: основа для моделей человеческого зрения

Meta Reality Labs представляет Sapiens, семейство моделей для четырех основных задач человеческого зрения: оценка 2D-позы, сегментация частей тела, оценка глубины и прогнозирование нормалей поверхности.

Модели поддерживают высокое 1К разрешение "из коробки" и легко тюнятся для отдельных задач путем простой тонкой настройки. Для обучения использовались более чем 300 миллионов изображений человека в дикой природе.

Полученные модели демонстрируют замечательное обобщение для данных в дикой природе, даже когда маркированные данные скудны или полностью синтетические.

Конструкция модели также обеспечивает масштабируемость — производительность модели в разных задачах улучшается по мере того, как мы масштабируем параметры от 0,3 до 2 миллиардов.

Sapiens постоянно превосходит существующие базовые показатели в различных бенчмарках, ориентированных на человека.

🖥️ Блог

📜 Paper

Читать полностью…

AI для Всех

🤙Чат: какая сейчас самая Крутая LLM без интернета на айфон? Хочу установить и в пустыне без интернета пользоваться

Читать полностью…

AI для Всех

Кто едет на Burning Man 2024?

Друзья, this time of year again! На плаю потихонечку съезжаются люди. Строится храм и человек!

Я уверен что нас тут больше одного человека, которые едут на Берн. У меня уже есть билет, но вот с Кэмпом пока не определился. Кто еще едет?

Давайте сорганизуемся!

Читать полностью…

AI для Всех

AGI для настольного тенниса

Google DeepMind разработали робота, который может играть в настольный теннис на высоком уровне, бросая вызов опытным игрокам.

Эти роботы используют:

- Компьютерное зрение для отслеживания мяча и движений противника

- Роботизированные руки/суставы для быстрых и точных ударов

- ИИ для предугадывания движений противника и разработки стратегии

Хотя это в первую очередь исследовательский проект, возможно в недалеком будущем матчи человек-робот могут стать реальностью.

Сыграли бы вы в настольный теннис с роботом? 🏓🤖

💻 Блог

Читать полностью…

AI для Всех

RLHF: не совсем то, чем кажется

Привет, друзья! Сегодня поговорим о RLHF (обучение с подкреплением на основе обратной связи от людей). Это важный этап в создании языковых моделей, но давайте разберемся, почему он не так крут, как кажется на первый взгляд.

🎮 Представьте, что мы учим ИИ играть в шахматы или Go. Настоящее обучение с подкреплением (RL) - это когда ИИ играет тысячи партий сам с собой и учится выигрывать. А RLHF? Это как если бы мы показывали 2 доски с ходами ИИ и спрашивали людей: "Какая из этих позиций вам нравится больше?".

📊 В RLHF мы создаем "модель наград" на основе человеческих оценок. ИИ потом пытается "понравиться" этой модели. Но это не то же самое, что научиться реально побеждать!

🤔 Почему же RLHF все-таки работает для языковых моделей?
1. Людям проще выбрать лучший ответ из нескольких, чем самим написать идеальный.
2. RLHf помогает уменьшить "галлюцинации" ИИ.

🚀 Но представьте, если бы мы могли применить настоящее RL к языковым моделям! Это был бы огромный прорыв. Пока что это сложно, потому что трудно определить четкие "правила игры" и "победу" для разговора или написания текста.

💡 Итог: RLHF - полезный инструмент, но это не то волшебное RL, которое привело к победе AlphaGo над чемпионами мира. Будущее за тем, кто сможет применить настоящее RL к языковым моделям!

Пост Андрея

Читать полностью…

AI для Всех

Apple идёт в Open-Source!

Apple выпустила и полностью открыла DCLM, 7B LLM, включая веса, код обучения и датасет.

DCLM превосходит Mistral/Qwen2/Gemma по разным бенчмаркам. Основные данные на английском языке, окно контекста 2048, лицензия Apple Sample Code License.

Модель обучена на 2.5 трлн токенов с использованием DataComp-LM (DCLM) и данных из Common Crawl. DCLM - тестовая платформа для контролируемых экспериментов с данными

AI Стратегия Apple кардинально изменилась в сторону Open-Source, что может означать большие планы для AI на их устройствах.

🤗HuggingFace

Читать полностью…

AI для Всех

Синтетическая реальность. Громкое обновление в проекте GR00T: метод аугментации данных для обучения роботов

Огромные корпусы данных позволили создать очень смышлёные LLM. Время сделать то же в робототехнике. Инженеры NVIDIA разработали решение, позволяющую в тысячу раз умножать собранные человеком-специалистом тренировочные данные для обучения роботов.
Речь идет о многообещающем проекте GR00T (да, как Грут из вселенной Марвел) и методике масштабирования обучающих данных, применяемых в робототехнике.

Как это работает:
1. Сбор реальных данных в Apple Vision Pro
NVIDIA применяет виар очки, чтобы предоставить оператору возможность полного погружения в тело робота. Vision Pro анализирует позы рук человека и перенаправляет эти движения на робота в реальном времени. С точки зрения оператора, он буквально становится роботом-аватаром, реально как в фильме "Аватар". Хотя сбор данных таким образом медленный и трудоемкий, этого вполне достаточно для создания начальной базы.
2. Генеративная симуляция в RoboCasa
Фреймворк, созданный Yuke Zhu берет небольшое количество собранных данных и умножает их, изменяя визуальный облик и планировку окружающей среды. На видео показано, как робот ставит чашку в сотнях различных кухонь с разнообразными текстурами, мебелью и расположением предметов. У компании есть только одна физическая кухня в лаборатории GEAR в NVIDIA HQ, но в симуляциях их может быть бесконечное количество.
3. Вариативность движений с помощью MimicGen
MimicGen позволяет ещё больше увеличить количество данных, варьируя движения робота. Этот метод генерирует множество новых траекторий действий на основе оригинальных данных человека и отбраковывает неудачные попытки, например, те, где чашка падает.

Take-away формула: человеческий сэмпл с использованием Vision Pro -> RoboCasa создает N визуальных вариаций -> MimicGen умножает это количество до NxM.

NVIDIA придумала способ конвертировать вычислительные ресурсы в дорогостоящие данные, собранные человеком, благодаря качественной симуляции. Данные от первого лица больше не являются ограничением из-за 24 часов/день/робот в физическом мире. Теперь ограничения только цифровые, и это очень sci-fi футуристично.

Набор для создания своей синтетической реальности (понадобится робот и много GPU):
• RoboCasa: открытый код RoboCasa
• MimicGen: открытый код для роботизированных рук, и скоро обещают версию для гуманоидов и пяти-палых рук MimicGen
• Apple Vision Pro -> гуманоидный робот "Аватар": в открытом доступе Xiaolong Wang libraries
• вдохновляющая презентация: Jensen's keynote

И бонус: лаборатория GEAR набирает лучших робототехников мира для сопоставимого по масштабам с "лунным" ппроекта по решению физического AGI. Как апликнуться к ним в посте Jim Fan (LinkedIn): GEAR lab hiring

Читать полностью…

AI для Всех

📢 Тихая ИИ революция в прогнозировании погоды: NeuralGCM

Прогнозирование погоды всегда представляло собой непростую задачу. Последние годы, для решения этой задачи все чаще предлагаются нейронные сети. Исследователи из Гугла, делают следующий шаг в моделировании климата и представляют NeuralGCM — инновационную систему на основе искусственного интеллекта и физического моделирования.

Вот как она устроена:

🌐 Гибридный подход:
NeuralGCM состоит из двух ключевых компонентов:
1. "Динамическое ядро", основанное на физических законах, моделирующее крупномасштабные атмосферные движения.
2. Нейронные сети, моделирующие мелкомасштабные процессы, такие как образование облаков.

🧠 Принцип работы:
1. Модель делит атмосферу Земли на трёхмерную сетку.
2. Для каждой ячейки этой сетки нейронные сети анализируют:
- Температуру,
- Давление,
- Влажность,
- Данные о ветре.
3. Эти сети предсказывают изменения условий в краткосрочной перспективе.
4. Физическая модель использует эти предсказания для обновления глобального состояния погоды.
5. Этот процесс повторяется, создавая прогнозы на дни вперед.

🔬 Секрет успеха: дифференцируемый дизайн
- Вся система разработана так, чтобы быть дифференцируемой.
- Это позволяет оптимизировать её с помощью методов машинного обучения.
- В результате ИИ учится взаимодействовать с предсказаниями физической модели.

🏋️ Процесс обучения:
- Использованы 40 лет исторических данных о погоде.
- Начинали с предсказаний на 6 часов, постепенно увеличивая период до 5 дней.
- Такой подход помогает модели понимать долгосрочные эффекты своих предсказаний.

🏆 Впечатляющие результаты:
- Соответствует точности традиционных методов.
- Работает значительно быстрее (до 1000 раз в некоторых сравнениях).
- Способна моделировать климатические паттерны на десятилетия вперёд (ну это еще надо валидировать).

💡 Почему это важно:
1. Возможность более точного и эффективного прогнозирования погоды.
2. Помощь в лучшем понимании изменения климата.
3. Демонстрация того, как ИИ может не только заменить, но и улучшить традиционные научные методы.

Этот гибридный подход к моделированию погоды показывает, как глубокие научные знания могут сочетаться с передовыми технологиями ИИ. Это важный шаг вперёд, который может изменить не только метеорологию, но и многие другие области, зависящие от сложных симуляций.

⛈️ Статья

Читать полностью…

AI для Всех

Инфраструктура для ML и AI задач

Кластеры Kubernetes отлично подходят для запуска ML-проектов в продакшене. С их помощью можно изолировать проведение разных экспериментов, автоматизировать их запуск и управление, а также быстро масштабировать ресурсы под нагрузкой. Добавление нод с GPU в такие кластеры ускорит обучение ML-моделей и повысит их производительность в продакшене.

В сервисе Managed Kubernetes от Selectel, как раз есть все необходимое для работы с ML-проектами:

▪️ Большой запас видеокарт под любую задачу в наличии: NVIDIA А2, А30, А100, А2000, А5000, Tesla Т4, GTX 1080, GTX 2080
▪️ Отказоустойчивость и автомасштабирование нод c GPU. В зависимости от нагрузки Kubernetes автоматически создаст или удалит ноды в группе.
▪️ Простая настройка драйверов на GPU-нодах кластера. Используйте предустановленные драйверы или самостоятельно установите нужные с помощью GPU Operator

А сейчас новые клиенты Managed Kubernetes c GPU могут получить 100% кешбэк за первый месяц использования сервиса.

Развернуть свой ML-проект в кластерах Kubernetes c GPU и получить кешбэк можно по ссылке: https://slc.tl/7304r

#Реклама АО «Селектел». ИНН: 7810962785
Erid: 2Vtzqwx12nn

Читать полностью…

AI для Всех

А вот и официальный релиз Llama 3.1: https://llama.meta.com/

В том числе, стала доступна 405B 🤯

Читать полностью…

AI для Всех

Слили бенчмарки для Llama 3.1 405B

Похоже, что это новая партия моделей Llama 3.

Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.

Модель 405B обеспечивает немного лучшую производительность, но не выглядит новаторской.

Ждём скорого подтверждения или облома

👨‍💻Рэддит

Читать полностью…

AI для Всех

📢 OpenAI представляет GPT-4o mini! 🚀

Друзья, мы стоим на пороге новой эры в развитии искусственного интеллекта! OpenAI только что анонсировала GPT-4o mini – свою самую экономичную маленькую модель, которая обещает перевернуть наше представление о доступности передовых ИИ-технологий.

До сих пор высокая стоимость использования мощных языковых моделей была серьезным барьером для их широкого применения. Но GPT-4o mini меняет правила игры. Представьте себе: всего 15 центов за миллион входных токенов – это на 60% дешевле, чем GPT-3.5 Turbo!

Может ли "малая" модель конкурировать с более крупными собратьями? Результаты тестирования и отзывы первых пользователей говорят, что очень даже может! GPT-4o mini не просто конкурирует – она превосходит GPT-3.5 Turbo по многим параметрам!

Разработчики уже начинают интегрировать GPT-4o mini в свои приложения, и вот что их ждет:

* Поддержка мультимодального ввода (текст + изображения)
* Впечатляющее контекстное окно в 128K токенов
* 82% точности на MMLU (тест на рассуждение и интеллект)

Главный вопрос теперь: сможет ли GPT-4o mini действительно демократизировать ИИ? Я думаю, что да. Эта модель открывает двери для нового поколения ИИ-приложений, делая передовые технологии доступными как для разработчиков, так и для конечных пользователей.

По ценам: разработчики платят 15 центов за 1 млн входных токенов и 60 центов за 1 млн выходных токенов (примерно эквивалент 2500 страниц в стандартной книге).

GPT-4o mini – это не просто новая модель. Это шаг к будущему, где мощный ИИ доступен каждому. Это баланс между доступностью и производительностью, о котором мы так долго мечтали.

Новость

Читать полностью…

AI для Всех

Сегодня хочу обратить ваше внимание на пост из канала Машин Лернинг. Автор(ка) делится инсайтами из лекции Яна ЛеКуна, одного из пионеров глубокого обучения и лауреата премии Тьюринга.

В посте затрагиваются действительно важные темы:
- Почему нам необходимы мультимодальные нейросети
- Ограничения современных языковых моделей
- Будущее AGI
- А также немного философии о том, что действительно важно в научной карьере

Особенно интересны расчёты, показывающие, насколько человеческий опыт богаче, чем данные, на которых обучаются современные ИИ-модели.

Рекомендую прочитать этот пост всем, кто интересуется будущим ИИ и хочет понять, какие вызовы стоят перед исследователями в этой области.

А если интересно почитать что думают другие авторы каналов - то вот вам

ИИ папка 📂

Читать полностью…

AI для Всех

ИИ выходит из под контроля

Читать полностью…

AI для Всех

Обмани астрономию, если сможешь

У меня есть новости для тех, кто как и я думал, что школьные уроки астрономим им нигде и никогда не пригодятся. Если заинтриговал, то читаем далее 😊

Одним из побочных эффектов повсеместного распространения ИИ является рост deep-fake изображений и видео.

Задача распознавания дипфейков становится все сложнее, так как их качество растет с каждым днём пропорционально развитию ИИ моделей.

Как быть? Помощь пришла с совсем неожиданной стороны: астрономия 🌌

Британские учёные придумали новый метод обнаружения изображений, сгенерированных ИИ.

Метод использует анализ отражений в глазных яблоках человека. Реальные изображения показывают постоянные отражения в обоих глазах, а дипфейки в большинстве случаев - нет.

Метод заимствует инструменты из астрономии, такие как коэффициент Джини, обычно используемый для изучения изображений галактик.

Хотя этот метод не является 100% надежным, он предлагает новый подход к решению проблемы обнаружения дипфейков и их быстрой предварительной фильтрации.

Хотите определить дипфэйк, ищите звёзды в их глазах 👀

Блог

Читать полностью…

AI для Всех

Flux Pro + Claude.

Использовал Claude для того что бы улучшать промт для Flux.

1. Генерируем промпт по вашему описанию (кошка в пустыне)
2. Генерируем 4 изображения
3. Подаем эти изображения обратно в Claude и просим улучшить
4. Получаем промпт для генерации
5. Повторять 2-3 раза

https://fal.ai/models

А еще приходите нас навестить в кэмпе Blue CATerpillar на 9&I

Читать полностью…

AI для Всех

The AI Scientist: Автоматизация научных исследований

Японская исследовательская лаборатория Sakana.ai представила миру своего ИИ ученого - систему, предназначенную для автоматизации всего цикла научных исследований. Он создан, чтобы снизить трудозатраты на проведение научных экспериментов и написание статей, особенно в области машинного обучения.

Плюсы:
1. Автоматизация процессов: AI Scientist способен самостоятельно генерировать исследовательские идеи, писать код, проводить {computational} эксперименты и анализировать результаты. Это позволяет значительно ускорить исследовательский процесс.

2. End-to-end: Система охватывает весь цикл научного исследования от формулирования гипотез до написания и рецензирования научных статей. Это делает возможным проведение исследований без необходимости в ручной работе со стороны человека.

3. Open-source: Код проекта и его подробное описание открыты для всех. Это позволяет другим исследователям и разработчикам изучать, модифицировать и применять технологию в своих проектах.

Ограничения:
1. Сфера применения: Сейчас AI Scientist натренин и может использоваться в области машинного обучения. Расширение на другие научные дисциплины потребует дополнительных усилий.

2. Креативность исследований: Хотя система способна генерировать научные идеи и критически их оценивать, текущая версия системы работает в основном с уже существующими данными и моделями, это, конечно, ограничивает инновационность создаваемых результатов.

3. Human-in-the-loop: Контроль со стороны человека безусловно необходимым. Это особенно важно на этапах проверки гипотез и интерпретации результатов, где необходимы экспертные знания.

The AI Scientist задуман, чтобы снизить рутинные задачи исследователей. И кажется, это новый рубеж, в котором машина становится не просто ассистентом, а полноценным аспирантом ученым.

💻Код
😤Статья об AI Scientist, написанная людьми
💻Статья авторства самого AI Scientist (их в repo много)

Читать полностью…

AI для Всех

🚀 Друзья, мы нашли крутую визуализацию для понимания архитектуры Transformer!

🧠 Transformer - это основа современных языковых моделей, таких как GPT и BERT.

🔍 "Transformer Explainer" позволяет заглянуть внутрь этой технологии:

- Embedding: преобразование текста в числа
- Self-Attention: внимание на важные части данных
- Feed-Forward Networks: обработка информации

🎮 Интерактивные возможности:
- Ввод собственного текста
- Наблюдение за работой внимания
- Эксперименты с температурой генерации

🔗 Потрогать трансформер
📽️ Посмотреть видео

Отличный инструмент для всех, кто интересуется ИИ!

Читать полностью…

AI для Всех

Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске

Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.

А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства 🖼️🔎

Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.

Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.

В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)

Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0

MET map
📃Пост
🌐Repo
🤗v1.5

Читать полностью…

AI для Всех

Новый трек Sber500 и GigaChat: открыт прием заявок для AI-стартапов 🔥

Акселератор Sber500 вместе с GigaChat запустили отдельный трек для стартаперов, готовых интегрировать AI-сервис GigaChat в свои решения — уже готовые или новые.

Подавай заявку до 10 августа по ссылке. Лучшие кейсы представим на международной конференции AI Journey 2024.

✔️Кого ждем среди участников:
- команды действующих стартапов стадии MVP и выше,
- впервые для Sber500 — индивидуальных участников с идеей.

✔️Что ты получишь за 10 недель программы:
- возможность работы с международными менторами и трекерами акселератора Sber500,
- помощь от партнера трека Школы 21 с поиском IT-специалистов для реализации идеи.

Участвуйте в акселераторе, чтобы стать частью классного комьюнити российских фаундеров и создать яркое AI-решение для рынка вместе с GigaChat.

Регистрация по ссылке.

#Реклама ООО "СТАРТЕХ БАЗА" ИНН 5047276050 Erid: 2VtzqvY69to

Читать полностью…

AI для Всех

Замечена реклама Claude в аэропорту Сан-Франциско

Читать полностью…

AI для Всех

Meta представляет SAM 2: Новый этап в сегментации объектов на изображениях и видео

Компания Meta анонсировала запуск SAM 2, обновлённой версии своей модели Segment Anything (SAM), которая теперь поддерживает сегментацию объектов как на статичных изображениях, так и на видео.

SAM 2 представляет собой важное улучшение в технологии сегментации объектов. SAM 2 - универсальный инструмент для множества приложений. Помима качества сегментации, модель работает в реальном времени.

Ключевые особенности и инновации

1. Универсальная сегментация:
SAM 2 может сегментировать любые объекты как в изображениях, так и в видео, включая те, которые не были заранее известны модели. Это обеспечивает способность работы с невидимыми ранее визуальными данными без необходимости в дополнительном обучении.

2. Производительность в реальном времени:
Модель обрабатывает видео со скоростью около 44 кадров в секунду и позволяет выполнять аннотацию в 8,4 раза быстрее по сравнению с предыдущей версией SAM.

3. Новые механизмы памяти:
SAM 2 включает сложную систему памяти для управления информацией о кадрах видео. Система памяти состоит из кодировщика памяти, банка памяти и модуля внимания, которые помогают поддерживать точность сегментации объектов на протяжении всего видео.

4. Сегментация по промпту:
SAM 2 расширяет задачи сегментации изображений на видеоформат. Пользователи могут предоставлять вводные, такие как точки, боксы или маски, в любом кадре видео для определения целевого объекта. Модель создаёт пространственно-временную маску, или "маскет", которая отслеживает объект во всех кадрах.

5. Обработка окклюзий:
В SAM 2 добавлена специальная "голова окклюзии" (occlusion head), которая позволяет модели определять, когда объект не виден из-за окклюзии или других факторов, что улучшает способность модели сегментировать объекты, даже когда они временно скрыты.

Методология

Архитектура SAM 2 построена на основе SAM, но с добавлением функций для работы с видео данными. Модель рассматривает изображения как одномоментные видео и обрабатывает кадры последовательно. Такой подход позволяет SAM 2 создавать точные сегментации, используя память о предыдущих кадрах и взаимодействиях.

📚 Статья
🙈 Демо
👌 Блог-пост

Читать полностью…

AI для Всех

ИИ почти победил на Международной математической олимпиаде

Системы искусственного интеллекта AlphaProof и AlphaGeometry 2, разработанные компанией DeepMind, справились с четырьмя из шести задач Международной математической олимпиады (IMO) этого года. Это уже уровень серебряной медали! 🥈

Что такое IMO? 🏆
Для тех, кто не знает, IMO — это старейшее и наиболее престижное математическое соревнование для студентов старших классов. Здесь представлены чрезвычайно сложные задачи, которые ставят в тупик даже профессиональных математиков!

Как ИИ справился с этой задачей? 🧠💻

DeepMind разработали несколько систем. Часть задач решил AlphaProof, а часть AlphaGeometry2

* AlphaProof:
От неформального к формальному: AlphaProof начинает с преобразования около 1 миллиона неформальных математических задач в формальный математический язык.

Генерация задач: В процессе формализации 1 миллион задач превращается примерно в 100 миллионов формальных задач (что возможно благодаря созданию бесконечного количества вариаций).

Сеть решателей: Здесь происходит магия. Сеть решателей, работающая на основе алгоритма AlphaZero (да-да, того самого, который завоевал шахматный мир!), решает формальные задачи, ищет доказательства или опровержения.

Цикл обучения: Когда решатель находит доказательство, он обучается на этом опыте, а новые знания помогают ему справляться с еще более сложными задачами.

* AlphaGeometry 2: Использует аналогичный подход, но специализируется на геометрических задачах. Эта система может визуализировать и манипулировать геометрическими концепциями, что делает её исключительно эффективной в решении сложных геометрических задач.

Что дальше? 🚀
DeepMind не собирается останавливаться на достигнутом. Теперь они работают над созданием ИИ, который сможет понимать и решать математические задачи на обычном, человеческом языке.

Блог-пост

Читать полностью…

AI для Всех

Китайский генератор нейро видео теперь доступен для всех

Клинг, с помощью которого уже сгенерировали столько восхитительного нейротреша, теперь доступен для всех. Можно даже ожидать что с российскими номерами заведется.

Творить тут

Читать полностью…

AI для Всех

Новая магистерская программа «Исследования и предпринимательство в искусственном интеллекте» — это совместный проект МТС и НИУ ВШЭ.

Мы готовим исследователей искусственного интеллекта, способных создавать и внедрять технологические продукты и решения,
используя передовые методы машинного и глубинного обучения.

ЧТО ПОЛУЧАТ НАШИ СТУДЕНТЫ:

Тесное взаимодействие с индустрией
Преподавательский состав из ведущих специалистов факультета компьютерных наук ВШЭ и действующих сотрудников Цифровой экосистемы МТС: MTS AI и МТС Digital.

Глубокие знания в современных областях ИИ
Студенты с нашей помощью разовьют навыки разработки и научатся решать сложные прикладные задачи. Они поработают с современной инфраструктурой для машинного обучения и применения больших моделей ИИ.

Фундамент для исследовательской и
предпринимательской работы

Мы передадим знания, которые можно использовать при проведении исследований и запуске собственных стартапов

ХОЧЕШЬ ПОСТУПИТЬ К НАМ?

Подавай документы на программу до 25 июля.

И присоединяйся к чату для абитуриентов, чтобы не пропустить все новости.

#реклама

Читать полностью…

AI для Всех

TorchServe vs BentoML

Друзья, выбираю на чем сделать latency-critical сервис по сервированию модельки. Пока схожусь к torchServe vs BentoML.

Расскажите какие подводные камни? Какими фреймворками пользуетесь? Может быть мне вообще что-то другое надо, а я и не знаю?

Читать полностью…

AI для Всех

MathΣtral - калькулятор на стероидах

В честь 2311-летия Архимеда Mistral выпустили модель MathΣtral, и она уже доступна для использования под лицензией Apache 2.0

MathΣtral основана на модели Mistral 7B и специализируется на предметах STEM (наука, технологии, инженерия, математика).
Она имеет контекстное окно в 32k и демонстрирует выдающиеся способности в логическом мышлении, особенно в решении сложных математических задач.
Модель достигает 56,6% на MATH и 63,47% на MMLU. Особенно впечатляют результаты с majority voting — 68,37% (ответ выбирается на основе большинства предложенных решений) и 74,59% если ответ выбирает strong reward model из 64 предложений, сгенерированных Mathstral 7B.

MathΣtral была создана в рамках сотрудничества с тем самым проектом Numina, и её выпуск - часть усилий Mistral AI по поддержке академических инициатив.
По идее создателей MathΣtral должна стать помощником для студентов и исследователей в решении задач, требующих высокого уровня математических рассуждений.

Забавно, что в бухгалтерии модель не сильна.

🤗 Веса на HF
🖤 Потрогать
⭐️ Файнтьюнить (LoRa-based, рекомендуют A100 or H100 GPU)

Читать полностью…

AI для Всех

Уже представляете себе тик токи с путешествиями Барсика?

Читать полностью…

AI для Всех

«Хаб дал возможность проверить свою идею на практике: создать курс с использованием LLM и протестировать его на реальных студентах! Так я запустила стартап EduLLM — AI-помощник преподавателям»
Саша Корнеева, выпускница AI Talent Hub.

➡️ Поступить в AI-магистратуру ai.itmo.ru можешь и ты! 
 Более 200 бюджетных мест, успей подать заявку! 
▪️ Учись онлайн у лучших практиков из Яндекс, Sber AI, VK, Napoleon IT, Ozon, MTS AI, AIRI;
▪️ Самостоятельно собери программу обучения из 80+ дисциплин;
▪️ Реализуй 4 проекта с реальными бизнес-кейсами;
▪️ Участвуй в воркшопах, хакатонах, проектных семинарах;
▪️ Стань частью крупнейшего AI-комьюнити
🔘 Для участия в конкурсе на бюджет, рекомендуется подать заявку до 20 июля: ai.itmo.ru 
AI Talent Hub — магистратура, созданная университетом №1 рейтинга Альянса ИИ по подготовке AI-специалистов — ИТМО и AI-компанией Napoleon IT.

#реклама
Университет ИТМО ИНН:7813045547 

Читать полностью…
Subscribe to a channel