@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🖼 VideoGuide — метод для улучшения временной согласованности видео в моделях диффузии, не требующий дополнительного обучения
🌟 VideoGuide использует предварительно обученные видео-диффузионные модели в качестве руководящих агентов на ранних стадиях интерференции, чтобы улучшить качество и согласованность видео. Это решение снижает вычислительную нагрузку и сохраняет высокое качество изображений, решая проблемы временных артефактов в генерации видео
🔗 Arxiv: *клик*
@bigdatai
Qwen2.5-72B теперь доступен для пользователей бесплатного уровня на HF Serverless Inference API (с щедрой квотой)!
Начать работу можно здесь: https://huggingface.co/playground?modelId=Qwen/Qwen2.5-72B-Instruct
@bigdatai
Нейросетевая модель Сбера GigaChat обрела новую модальность
Сервис научился обрабатывать изображения и получать из них необходимую информацию. Искусственный интеллект распознает печатный текст, таблицы и формулы. Пользователю нужно лишь загрузить свою картинку и объяснить задачу: сделать описание содержимого или придумать подпись.
Эта фича особенно актуальна для бизнеса, ведь появится ещё больше сценариев применения искусственного интеллекта. Например, компании смогут модерировать и классифицировать отзывы, автоматизировать линию поддержки и многое другое.
Есть и второй важный апдейт: объём запроса увеличился в четыре раза — с 8 до 32 тысяч токенов. Раньше действовало ограничение, равное 12 страницам А4. Теперь же лимит расширили до 48 страниц, что позволит поддерживать более длинные диалоги.
Обновлённый GigaChat уже доступен бесплатно в веб-версии и Telegram-боте.
🖥 Fireducks: Ускорь Pandas в 20 раз, изменив всего одну строчку кода!
https://www.youtube.com/watch?v=3mcs_MDiLwY
@bigdatai
📊 Обработка больших данных с использованием Apache Flink
Apache Flink предлагает расширенные возможности для потоковой и пакетной обработки данных.
💼 Эта мощная платформа призвана помочь вам поработать с миллионами записей в реальном времени.
Поддерживает сложные события и состояние в реальном времени.
🔗 Ознакомьтесь с ресурсами: Apache Flink Documentation
💡 Откройте для себя новые горизонты обработки данных!
@bigdatai
🔥 Starry AI — бесплатное приложение-генератор картинок на базе искусственного интеллекта, преобразующее текст в потрясающие изображения
🌟 Создавайте до пяти произведений искусства ежедневно, без водяных знаков. Настраивайте свои творения с помощью различных моделей, стилей, соотношений сторон и начальных фотографий
🔗 Ссылка: *клик*
@bigdatai
🎓 Качественный Dataset сгенерированный, с помощью Claude Opus.
Он содержит более 20 тысяч технических вопросов и ответов для LLM. В нем содержатся системные промыты в стиле Orca для получения различных ответов.
https://huggingface.co/datasets/migtissera/Synthia-v1.5-I
@bigdatai
‼️Тест по ИИ в медицине от OTUS
Задача на решение с помощью ИИ:
Что получится в результате выполнения кода?
import numpy as np
arr = np.arange(0, 20).reshape((5, 4))
— Ответьте на 8 вопросов и проверьте, насколько хорошо вы знаете тему ИИ в медицине. Сможете сдать — получите полезный файл со статьями о ИИ в медицине, его развитии и перспективах, а так же спец цену на курс и возможность окунуться в мир ИИ в медицине.
👉ПРОЙТИ ТЕСТ - https://otus.pw/bIwF/
Курс доступен в рассрочку.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.erid: LjN8KUYYF
🖥 AimRT — современный фреймворк для робототехники!
🌟 Легковесный и простой в развертывании: разработан на C++ и предлагает современные подходы к управлению ресурсами, асинхронному программированию и конфигурации.
🌟 Поддержка разных сценариев: подходит для работы на устройствах роботов, периферийных и облачных платформах.
🌟 Интеграция с ROS2, HTTP, Grpc и другими экосистемами, а также гибкий интерфейс для создания плагинов.
🔐 Лицензия: самописная (не имеет широкого названия)
▪️Github
@bigdatai
🌟 Emu3: набор MMLM, основанный на методе предсказании следующего токена.
Модели Emu3 разработаны для задач мультимодальной генерации и восприятия: генерации изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео.
Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования.
Процесс генерации в Emu3 начинается с обработки моделью начальной последовательности токенов (например, текстовое описание для генерации изображения).
Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео).
▶️ Представлены 3 модели:
🟢Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы;
🟢Emu3-Gen – модель для генерации изображений по текстовому описанию;
🟢Emu3-VisionTokenizer – токенизатор изображений для преобразования изображений и видео в дискретные токены.
Для обучения использовались наборы данных Aquila, LAION-High-Resolution, InternVid, MSCOCO-30K, GenEval, T2I-CompBench, DPG-Bench, SEED-Bench, RealWorldQA, OCRBench и VBench.
Результаты тестирования показывают превосходство Emu3 над SDXL в генерации и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений.
Инференс моделей пока доступен только в СLI на Transformers, примеры для генерации или описания входного изображения можно найти в репозитории проекта.
⚠️ Информации о технических требованиях по GPU разработчиками Emu3 не предоставлено.
▶️Локальная установка:
# Clone the repository
git clone https://github.com/baaivision/Emu3
cd Emu3
# Install requirements
pip install -r requirements.txt
🖥 Энтузиаст сделал "альтернативу ChatGPT-o1" (По его заявлениям).
🌟 Модель успешно проходит тесты вроде количества "r" в "strawberry"
🌟 Автор отмечает, что она также хорошо справляется с логическими задачами, с которыми не могут справиться даже модели вроде o1, 4o или Claude
🌟 Модель разбивает комплексные задачи на более мелкие, что способствует более точному решению
🔐 Лицензия: не указана
👩💻 Написана на Python с использованием React для фронтенда
▪️Github
@bigdatai
🖥 10 малоизвестных библиотек Python для работы с данными
• PyGWalker: PyGWalker упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas (или фрейм данных polars) в пользовательский интерфейс в стиле Tableau для визуального исследования.
• SciencePlots: Создаёт профессиональные графики matplotlib для презентаций, исследовательских работ и т.д.
• CleverCSV: Устраняет ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas.
•
• Fastparquet: Ускоряет ввод-вывод pandas в 5 раз.
• Bottleneck: ускоряет работу методов NumPy в 25 раз. Особенно, если массив имеет значения NaN.
• Multipledispatch: предоставляет методы для перегрузку функций в Python.
• Aquarel: дополнительные стили графиков matplotlib.
• Modelstore: библиотека моделей машинного обучения для лучшего отслеживания работы моделей.
• Pigeon: помогает анотировать данные щелчками мышки в Jupyter notebook.
• Nbcommands: помогает легко выполнять поиск кода в Jupyter notebooks, а не выполнять это вручную.
📌Подробнее с примерами кода
@pythonl
Большинство моделей от Mistral теперь доступны бесплатно по API 😱
Что за аттракцион невиданной щедрости? Вероятно, ваши запросы будут использованы для обучения новых моделей (хотя это не точно).
VPN не требуется, карта не нужна. Пользуйтесь!
@data_analysis_ml
Освойте аналитику данных, обучаясь на кейсах из реального бизнеса *️⃣
Вы будете не просто изучать аналитику — вы будете решать рабочие задачи, что равноценно прохождению стажировки начинающим аналитиком.
👆Подбираем персональный трек обучения под ваши задачи — устроиться в крупную IT-компанию или релоцироваться. А также помогаем с прохождением собеседований.
👆87% учеников за 2 месяца находят работу. Наши выпускники работают в Тинькофф, Авито, Яндекс, Skyeng, Магнит, Сбер, Ozon, Альфабанк и др. компаниях.
По итогам курса вы сформируете собственное портфолио. Такого не будет ни у кого больше. Уникальное оформление, максимально прикладные задачи из разных сфер бизнеса. Их невозможно сгуглить или найти разбор на Хабре.
Обучайтесь в комфортном темпе: доступ к материалам останется у вас навсегда.
Вы еще успеваете начать обучение с текущим потоком🔥
Оставляйте заявку на сайте и получите 10% скидку по промокоду BIG
✔️ "Электронный язык" с ИИ распознает вкусовые характеристики.
Ученые из Penn State разработали электронный язык, способный различать жидкости - молоко с разным содержанием воды, различные виды соды и кофе, а также определять свежесть соков и потенциальные проблемы с безопасностью пищевых продуктов.
Язык использует графеновый ионно-чувствительный транзистор, подключенный к нейронной сети. ИИ сначала оценивал жидкости по 20 заданным параметрам, достигнув точности более 80%. Однако, когда ИИ самостоятельно определял параметры оценки, точность возросла до 95%.
Исследователи использовали метод Shapley Additive Explanations, чтобы понять, как ИИ принимает решения, и обнаружили, что он учитывает более тонкие характеристики данных. По словам исследователей, возможности языка ограничены только данными, на которых он был обучен.
psu.edu
✔️ Google представляет Tx-LLM: Модель ИИ для ускорения разработки лекарств.
Google представила новую большую языковую модель Tx-LLM, разработанную для прогнозирования свойств биологических объектов на всех этапах разработки лекарств. Tx-LLM обучена на 66 наборах данных, охватывающих задачи от ранней идентификации целевых генов до утверждения клинических испытаний на поздних стадиях.
Модель Tx-LLM, построенная на базе PaLM-2, достигла конкурентоспособных результатов по сравнению с современными моделями, превзойдя их в 22 из 66 задач. Tx-LLM продемонстрировала способность эффективно объединять молекулярную информацию с текстовой и переносить знания между задачами с различными типами терапии.
Google планирует предоставить доступ к Tx-LLM внешним исследователям для ускорения процесса разработки лекарств.
research.google
✔️ Tesla готовится к презентации роботакси.
Tesla проводит мероприятие под названием «Мы, роботы», 10 октября в 19.00 EPT (2:00 11 октября GMT) на котором, как ожидается, будет представлен дизайн роботакси - автомобиля Tesla, предназначенного исключительно для перевозки пассажиров без водителя.
На мероприятии также может быть представлен гуманоидный робот Optimus.
npr.org
✔️ Liftoff запускает Cortex, модель машинного обучения для улучшения мобильной рекламы.
Liftoff, занимающаяся консалтингом мобильных приложений, запустила новую платформу машинного обучения под названием Cortex. Эта платформа использует специализированные модели нейронных сетей для повышения эффективности мобильных рекламных кампаний.
Cortex позволяет достичь более высокой рентабельности инвестиций в рекламу, определяя наилучшие каналы и аудитории для рекламных кампаний. По данным Liftoff, Cortex уже показал положительные результаты: снижение стоимости установки (CPI) на 23%, стоимости привлечения клиента (CPA) на 21% и увеличение рентабельности рекламных расходов (ROAS) на 16%.
venturebeat.com
✔️ Выпущен релиз Gradio 5.
Gradio выпустила стабильную версию Gradio 5, он получил ряд улучшений, направленных на решение проблем, с которыми сталкивались разработчики ранее.
Среди ключевых обновлений: улучшенная производительность за счет рендеринга на стороне сервера (SSR), обновленный дизайн основных компонентов и новые темы, поддержка потоковой передачи с низкой задержкой, включая WebRTC, экспериментальная AI-площадка для генерации и модификации приложений с помощью ИИ.
В ближайшее время планируется добавить поддержку многостраничных приложений, мобильных устройств и новые компоненты для работы с изображениями и видео.
huggingface.co
✔️ NVIDIA поставила долгожданные чипы Blackwell AI в OpenAI и Microsoft.
OpenAI объявила, что получила первые инженерные образцы DGX B200 от Nvidia. Они обещают трехкратное увеличение скорости обучения и 15-кратное увеличение производительности инференса по сравнению с предыдущими моделями.
Microsoft также сообщила, что ее платформа Azure первой использует систему Blackwell от Nvidia с AI-серверами на базе GB200.
analyticsindiamag.com
@ai_machinelearning_big_data
#news #ai #ml
🖥 Whisper — созданная OpenAI универсальная модель распознавания речи, обученная на большом объеме данных. Она способна выполнять мультиязычное распознавание речи, перевод речи и идентификацию языка. Whisper поддерживает несколько размеров моделей, оптимизированных для различных сценариев (разных размеров, с разной точностью и производительностью)
🌟 Модель можно использовать через командную строку или в Python
🔐 Лицензия: MIT
▪️Github
@bigdatai
🌟 UnSAM — метод сегментирования любых изображений полностью без ручного аннотирования
UnSAM (Unsupervised SAM) — это метод для сегментации сложных изображений, которая не требует аннотаций человека.
На графиках можно увидеть, как эффективно справляется UnSAM с изображениями разных датасетов
🔐 Лицензия: не указана
▪️Github
@bigdatai
🤗 Приложение Depth Pro теперь доступно huggingface
https://huggingface.co/spaces/akhaliq/depth-pro
@bigdatai
⚡️ Apple Depth Pro: Карта глубина с расчетом фокусного расстояния менее чем за секунду.
Depth Pro - базовая модель для метрической монокулярной оценки глубины по по одному изображению в режиме zero-shot. Она позволяет синтезировать Hi-Res карты глубины с высокой точностью определения границ объектов, воспроизводя их форму, расположение и абсолютный масштаб без использования метаданных камеры.
Архитектура модели основана на применении энкодеров ViT к фрагментам изображения, извлеченным в нескольких масштабах.
Используются два кодировщика ViT: фрагментный энкодер, обрабатывающий блоки изображения для изучения масштабно-инвариантных представлений и энкодер изображения, фиксирующий предсказания в глобальном контексте.
Модель работает с фиксированным разрешением 1536x1536 пикселей, а каждый из модулей ViT - 384x384 пикселей.
Для обучения используются 5 целевых функций (LMAE, LMSE, LMAGE, LMALE и LMSGE ) на основе канонической обратной глубины и применяется двухэтапный план обучения. Набор данных состоит из 43 датасетов.
Первый этап учит обобщающим признакам, основанным на смеси реальных и синтетических данных, а второй — повышению резкости границ на синтетических данных с точной информацией о глубине.
Модель показала высокую точность на различных наборах данных (Booster, ETH3D, Middlebury, nuScenes, Sintel и Sun-RGBD91011) .
Depth Pro превзошла другие методы по точности оценки фокусного расстояния на наборах данных DDDP, FiveK, PPR10K, RAISE, SPAQ и ZOOM.
Скорость инференса, замеренная в тестировании - 0,3 секунды на генерацию карты глубины 2,25-мегапиксельного изображения.
▶️ Локальная установка и инференс в CLI или Python:
# setting up a venv:
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .
# Download pretrained checkpoints:
source get_pretrained_models.sh
# Run the inference from CLI on a single image:
depth-pro-run -i ./data/example.jpg
# Running from python
from PIL import Image
import depth_pro
model, transform = depth_pro.create_model_and_transforms()
model.eval()
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"] # Depth in [m].
focallength_px = prediction["focallength_px"] # Focal length in pixels.
🤖 Готовы ли вы стать специалистом по персонализации и рекомендациям?
Мы разработали профессиональный онлайн-курс «Рекомендательные системы», для специалистов в области ML и DS, которые хотят расширить свои компетенции в области рекомендательных систем.
Приходите на открытый урок курса 17 октября в 20:00 мск.
Тема: «Методы сегментации в рекомендациях».
На уроке разберем:
➡️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
➡️ как применять аналитические и машинные методы для сегментации клиентов;
➡️ примеры практического применения этих методов в реальных задачах.
🔗 Ссылка для регистрации на урок: https://otus.pw/rhSN/
#реклама
О рекламодателе
🎓 Daily Research Bot
Бот Discord на базе ИИ, который поможет вам быть в курсе последних исследований, связанных с ИИ, требующие мало ресурсов.
В нем собраны последние статьи из таких источников, как Hugging Face, блог Элвиса Саравиа и другие с краткой информацией.git clone https://github.com/yourusername/daily-research-bot.git
cd daily-research-bot
🔗 Github
@bigdatai
🖥 Nvidia представила MaskedMimic — единый унифицированный контроллер для физически смоделированных гуманоидов. Эта система способна генерировать широкий спектр движений на различных ландшафтах из интуитивно определенных пользователем прометав. Модель позволяет создавать естественные и универсальные анимации для виртуальных персонажей.
🔗 Подробнее: *клик*
▪️Github
@bigdatai
🖥 Lotus — визуальная фундаментальная модель, основанная на диффузии, для задач dense prediction
. В отличие от традиционных методов, она напрямую предсказывает аннотации вместо шума и использует одношаговую процедуру, что упрощает оптимизацию и повышает скорость.
🌟 Модель достигает SoTA уровня, предлагая более точные и детализированные прогнозы, чем у моделей конкурентов.
🔗 Ссылка: *клик*
🔗 Huggingface: *клик*
@bigdatai
🔥SFR-Judge 🔥 семейство LLM, специализирующееся на критике и оценке модельных ответов от других языковых моделей.
SFR-Judge выпущен в трех размерах (8B, 12B и 70B) и отлично справляются с тремя задачами оценки: парные сравнения («Ответ A лучше ответа B?»), одиночные оценки («Оцените ответ по шкале Лайкерта от 1 до 5») и классификация («Отвечает ли ответ модели желаемым критериям?»).
SFR-Judge прошел оценку на различных задачах, соответствующих различным сценариям, таким как моделирование вознаграждения, качество рассуждений и безопасность ответов. В среднем SFR-Judge демонстрирует высокую общую производительность, проявляя меньшую предвзятость суждений, чем другие модели.
📘 Статья: https://arxiv.org/abs/2409.14664
🧠 Блог: https://blog.salesforceairesearch.com/sfr-judge/
@bigdatai
🖥 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница?
💡В этой статье автор затрагивает историю появления баз данных, сравнивает концепции архитектур данных, их преимущества и недостатки
🔗 Ссылка: *клик*
@bigdatai
🚀 Как распределить и оптимизировать нагрузку для моделей, использующих как GPU, так и CPU.
Руководитель группы автоматической генерации рекламы из Яндекса поделилась опытом генерации миллиардов рекламных объявлений с использованием YandexGPT и BERT-модели.
https://habr.com/ru/companies/yandex/articles/842024/
@bigdatai
⚡️ Шпаргалка по техникам регуляризации в машинном обучении
@bigdatai
✅ 3DTopia-XL GenAI Foundation✅
"3DTopia-XL", мощный трансформер создания 3D-PBR-объектов.
- Проект: https://3dtopia.github.io/3DTopia-XL/
- Код: https://github.com/3DTopia/3DTopia-XL
- Демо : https://huggingface.co/spaces/FrozenBurning/3DTopia-
@bigdatai
Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.
Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.
Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀
Пробуем здесь.
#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt
@bigdatai