Меня зовут Андрей Кузнецов Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87 Linkedin: https://tinyurl.com/y96nmmdd
Мои коллеги из SberDevices приоткрыли завесу тайны и представляют Malvina — функциональное расширение GigaChat для редактирования изображений через текстовый промпт. Только промпт! Больше никаких масок, точек и танцев с бубнами😃
Проект пока в закрытой альфе, но на конференции AIJ был представлен демо-стенд и выступал с рассказом Сергей Марков. Архитектура использует сильные стороны LLM-ассистентов и генеративных моделей, фокусируясь на гибкости и качестве данных. Сейчас за генерацию изображения отвечает диффузионка, но коллеги ищут и авторегрессионные решения.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями.
Ждите релиз в GigaChat! Подробнее о технологии на ➡️ канале команды компьютерного зрения Layer в SberDevices.
Дорогие подписчики!
Поздравляю вас с наступающим Новым годом ⭐️
Хочу от всей души пожелать вам благополучия, добра, спокойствия и тихого счастья. Пусть все ваши задуманные планы осуществляются всегда и не зависят от даты на календаре 🍪
Отдельно хочу пожелать процветания российской науке! Благодаря сильным людям, вам, она тоже становится сильнее на мировой арене.
Спасибо вам за активность, за комментарии. Буду радовать вас интересным контентом и новыми релизами команды!
С Новым годом 😱
🔥 Сколтех открыл приём заявок на конкурсный отбор в магистратуру!
Отличная новость: теперь можно проходить весь процесс как на английском, так и на русском языках. Учиться и сдавать экзамены на неродном языке бывает сложно, поэтому Сколтех облегчает задачу и даёт возможность выбирать:
🟢Английский язык — всё идёт по привычному сценарию, но плюс к этому вы получаете дополнительные баллы за участие
🟢Русский язык — проходите все этапы отбора на русском, а потом приезжаете в Сколтех на месяц раньше, чтобы подтянуть английский на программе English Bootcamp. Главное условие — ваш уровень языка должен быть не ниже B1, что проверится на финальном этапе
🙂 Решайте сами: хотите получить бонусные баллы и спокойно провести лето или же сначала пройти отбор на своём языке, а затем отправиться на интенсив по английскому? Всё зависит от вас!
Не упустите шанс — начните свой путь в Сколтех уже сегодня!
Можно ли научить модель text-to-video физике?
Решили с коллегами из AI Talent Hub, что будет здорово разобрать статью из поста ранее.
25 декабря в 18:30 разберёмся, можно ли на большом объёме синтетических данных научить модели text-to-video пониманию физики мира? В частных случаях — да, но чтобы построить "модель мира", придется подружиться с дифференцируемыми законами физики.
📕 Статья: How Far is Video Generation from World Model?
Не забудьте про ➡️ регистрацию
Приходите, жду вас!
Новое интервью: Андрей Кузнецов, директор лаборатории FusionBrain в AIRI, один из создателей Kandinsky, кандидат технических наук. Смотрите на YouTube и на VK (76 минут). Помимо разговора об ИИ, обсудили самое главное: куда пойти молодому исследователю и как попасть в команду AIRI. Подписывайтесь на канал Андрея (@complete_ai) и на канал AIRI (@airi_research_institute). #наши
Читать полностью…Фанаты Вайбера, добро пожаловать в телеграм😅
Да здравствуют гифки со стразами и букетами красных роз🙈
Сейчас на AIJ выступает мой коллега — Александр Панов, рассказывает об актуальных задачах в робототехнике
Самый крутой кейс для фундаментальных моделей — применение в реальных задачах реальной жизни. У меня в лаборатории есть отдельная команда, занимающаяся развитием мультимодальных моделей для планирования и манипуляции в робототехнике — FusionBrain.Robotics. С командой Александра мы тесно сотрудничаем в исследовательских задачах по поиску новых архитектур и решений для развития технологий роботов общего назначения.
🔥GigaChat Lite ➡️ Open Source
Велкам тестировать💪
👉Детали на Хабре
🔥Представляю вашему вниманию 3 работы лаборатории FusionBrain, представляемые сейчас на конференции NeurIPS 2024 (одна из самых престижных международных конференций по ИИ) в Канаде.
Всего команды института AIRI представляют рекордные 17 работ на конференции💪
👉На N+1 можно почитать подробнее про другие работы
🅰🅰🅰
Совсем скоро начнётся главная дискуссия на конференции AIJ, которую мы вновь проводим и делимся самыми важными новостями в области ИИ.
Подключайтесь к прямой трансляции в 15.00
🏆В рамках AIJ в этом году моя команда готовила задачу Emotional FusionBrain — участники должны были разработать мультимодальную модель для понимания эмоций, подведения и социального взаимодействия людей на видео.
Не буду тратить тут буквы на рассказ — приглашаю сразу почитать подробности про сореву, победителей и некоторые инсайты их решений на Хабре👇
https://habr.com/ru/companies/airi/articles/864422/
Новый подарочек от Open AI в 21.00 тут👇
https://www.youtube.com/watch?v=2jKVx2vyZOY
@complete_ai
Уже завтра состоится финальная ИИшница этого года, где исследователи расскажут про свои статьи на NeurIPS 2024 🍳
На онлайн-митапе будут два моих сотрудника:
⚫️Инженер-исследователь Robotics Антон Антонов с RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation — методом интерактивной сегментации для реалистичной оценки скорости и робастности аннотирования. Метод основан на оригинальной модели кликабельности, которая генерирует реалистичные клики аннотаторов. Исследование показало, что не существует одновременно оптимального метода с точки зрения скорости и робастности разметки.
⚫️Младший научный сотрудник Controllable Generative AI Максим Николаев с HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach — методе для редактирования причёсок на фотографиях. Метод основан на использовании пространства StyleGAN и набора предобученных энкодеров, что обеспечивает высокую скорость работы. HairFastGAN превосходит аналоги как по качеству переноса причёсок, так и по скорости исполнения, включая самые сложные случаи.
Подробнее об ИИшнице ➡️ тут.
Математические этюды @EtudesRu рассчитали особенность числа 2025🎉
Подробнее тут
С Новым годом🎄
Интерактивная сегментация, то есть автоматическое определение границ объектов на изображении, нужна и в медицине, и в индустрии развлечений. Для корректной оценки метода интерактивной сегментации разработчикам нужно собирать информацию о взаимодействии реальных людей с ним в процессе разметки изображений.
Исследователи AIRI объединили несколько классических датасетов для оценки этих методов и собрали для них в общей сложности 475 000 пользовательских кликов и тапов через специальный веб-интерфейс. Датасет получил название RClicks и был использован, чтобы протестировать популярные сегодня методы интерактивной сегментации. Статья с результатами этой работы была представлена на NeurIPS 2024.
📎Инженер–исследователь группы «ИИ для роботов» лаборатории FusionBrain AIRI Антон Антонов поделился подробностями исследования на Хабре.
⚡️⚡️⚡️Несколько часов назад Qwen анонсировали QvQ-72B-Preview — первую open source мультимодальную модель с ризонингом (умеет итеративно «размышлять/рассуждать» и двигаться в сторону правильного ответа)
Сами авторы говорят, что модель в стадии preview и может «тупить», но так или иначе метрики очень крутые. Ключевые проблемы:
📍Модель может миксовать языки при ответах
📍Модель может зацикливаться в рассуждениях, не приближаясь к правильному выводу
📍Требуется дополнительный уровень безопасности и “любимого” alignment
📍В ходе рассуждений модель может утратить внимание на входную картинку и начать галлюцинировать
Ещё детали и примеры в блоге👇
https://qwenlm.github.io/blog/qvq-72b-preview/
P.S. Так или иначе — we made a new step to AGI💪
@complete_ai
Международный научный комитет собирает предложения по задачам для IOAI 2025 (международная олимпиада школьников по искусственному интеллекту)
Приглашаю вас, подписчики, составить техническое задание для учеников старших классов. Задание должно быть оригинальным, не слишком лёгким (без универсальных методов решения) и быстрым! В процессе работы ученики должны приобрести новые, полезные навыки. Ваша задача — вдохновить молодое поколение учиться 🙂
Лучших авторов пригласят на олимпиаду в Китай в 2025 году!
📌 Дедлайн: 31 января 2025.
Больше информации от организаторов ➡️ тут
Ваша задача может стать частью истории и мотивировать будущих AI-исследователей!
А теперь подробнее о новинках от команды GigaTeam. Помимо выхода в Open Source GigaChat Lite, разработчики также поделились моделями GigaEmbeddings и GigaAMv2.
Решил выделить ключевые моменты:
🔹 GigaChat Lite — первая по-настоящему российская open-source модель. Это не просто локализованное решение: в отличие от «натюненных» моделей из других стран. Она надежна, стабильна и не зависит от внешних ограничений. Компактная и при этом невероятно эффективная, GigaChat Lite обеспечивает тот самый баланс между производительностью и затратами по времени. Иными словами — одно из лучших решений для тех, кто ценит скорость и точность.
🔹 GigaEmbeddings — модель эмбеддингов для RAG, классификации и других задач. По производительности она заметно превосходит аналоги, такие как E5. На тестах RAG демонстрирует прирост до 15% в абсолютном качестве.
🔹 GigaAMv2 — новая версия модели распознавания речи, признанная лучшей в России. Эта технология представляет собой революцию в работе с аудиоданными, обеспечивая высочайшую точность. Кроме того, поддерживается дообучение и использование современных видеокарт, что значительно ускоряет обработку запросов.
Потрогать каждую из них можно по ссылке. 😉
@complete_ai
Конференция AI Journey 2024 завершилась😁
Записи докладов исследователей AIRI уже можно посмотреть по ссылке.
До встречи в следующем году! #AIRIзация
Один из мастодонтов искусственного интеллекта, Александр Николаевич Горбань, сейчас выступает на AIJ
Рекомендую послушать классика💪
⚡⚡⚡Выпустили Хабр в формате technical report про новую модель синтеза видео и аудио — Kandinsky 4.0
Приглашаю изучить и готов ответить все вопросы😉
👉 Хабр
📺 Прикольные генерации и некоторые детали можно также посмотреть тут
@complete_ai
🎧 АйЛетов - Маленькая страна (AI Cover на Н. Королёва)
• Автор
@aiaiai
Новый релиз модели синтеза и обработки видео — Sora🎥
Читать полностью…Я тут иногда на канале буду размещать интересные вакансии от наших партнёров и моих знакомых коллег.
Компания EKSLi, специализирующаяся на автоматизации промышленности, в поисках разработчика и team lead С++. Вакансия для тех, кому хочется участвовать в создании социально/экономически важных проектов и стать частью наукоёмкого, взлетающего стартапа.
Обязанности:
🔹Выстроить стратегию развития стека, разработать внутренние алгоритмы и бизнес логику всей системы
🔹Сформировать команду, руководить группой разработки системы сепаратора и периферийных микросервисов
🔹Поддерживать и модернизировать уже существующее ПО
🔹Прорабатывать функциональные спецификации, формировать и согласовывать техническую документацию
🔹Управлять развитием команды, формировать пул HiPo
Важно:
🔹Управленческий опыт
🔹Опыт работы от 3-х лет на позиции Senior/ Team Lead C++, базовое знание Python
🔹Опыт разработки архитектуры высоконагруженных систем на C++ и построения сложных программных продуктов
🔹Уверенное знание принципов работы ОС Linux
Преимуществом будет:
🔹Опыт в области робототехники или создания оптических сепараторов
🔹Опыт работы с Jetson, Cuda, Docker, Gitlab CI/CD, OpenTelemetry, gRPC, REST API
Пишите в личку или на почту HRD:
l.kuznetsova@eksli.com
@Liubov_ku
Подробнее о вакансии тут.
Награда в виде SberBoom Mini 2 сегодня нашла своего нового владельца — победителя конкурса! С чем я его ещё раз поздравляю и желаю приятного пользования💪
В следующем году будем чаще практиковать конкурсы🏆
Сегодня закончили трехдневную научную отчетную сессию AIRI, на которой исследователи, от младших научных сотрудников до директоров лабораторий, поделились итогами работы за этот год и планами на следующий. За 3 дня мы прослушали 45 докладов и обсудили 159 постеров.
Всем участникам — большое спасибо за интересные выступления, активные обсуждения и вовлеченность! Вместе мы делаем науку сильнее.
☝️Метрики и детали в большом техническом отчете
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅