ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27345

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

✔️ Gemini 2.0 Flash Thinking - модель "рассуждения" от Google.

Google выпустила новую экспериментальную модель Gemini 2.0 Flash Thinking Experimental, предназначенную для "рассуждений". Модель доступна в AI Studio. Согласно описанию, модель лучше всего подходит для мультимодального понимания и способна "рассуждать над самыми сложными задачами" в программировании, математике и физике.

Gemini 2.0 Flash Thinking Experimental основана на модели Gemini 2.0 Flash. Модель делает паузу перед ответом, рассматривая несколько связанных запросов и объясняя свои рассуждения, после чего формирует наиболее точный ответ. Тем не менее, как показывает пользовательское тестирование, модель иногда испытывает трудности, например, при подсчете букв в словах.
techcrunch.com

✔️ Judge-модель Glider от Patronus AI превосходит GPT-4 в оценке ИИ.

Стартап Patronus AI, представил открытую модель Glider с 3.8 млрд. параметров, которая превосходит GPT-4o-mini. Glider разработана для автоматической оценки ответов ИИ по сотням критериев, предоставляя подробные объяснения своих решений. Glider может работать в реальном времени, с задержкой менее секунды, и оценивает точность, безопасность и тон одновременно.

Glider была обучена на 183 различных бенчмарках из 685 доменов. Демо уже работает на HF Space, технический отчет Glider опубликован на arxiv.org, веса модели - на Huggingface.
patronus.ai

✔️ Cineverse запускает Matchpoint Reel Visuals AI для монетизации контента в сфере ИИ.

Cineverse объявила о запуске новой службы управления правами в ИИ - Matchpoint Reel Visuals AI. Этот сервис позволяет владельцам библиотек фильмов, телешоу и подкастов извлекать выгоду из растущего спроса со стороны ИИ-компаний на аудио/видео контент для обучения моделей ИИ.

Используя технологию Matchpoint, партнеры Cineverse получают возможность быстро загружать, нормализовать и хранить большие объемы видеоконтента с интегрированными возможностями управления правами. На сегодняшний день компания представляет права на обучение ИИ для более чем 350,000 часов видео и аудио контента
investor.cineverse.com

✔️ Apptronik и Google DeepMind объединяют усилия для развития человекоподобных роботов c ИИ.

Apptronik объявила о стратегическом партнерстве с командой робототехники Google DeepMind для объединения ИИ с роботизированным оборудованием. Цель сотрудничества - создание более эффективных человекоподобных роботов для работы в динамичных средах. Ключевым продуктом партнерства является робот Apollo, разработанный Apptronik, высотой 172.2 см и весом 72.5 кг, предназначенный для выполнения физически сложных задач в промышленных условиях.

Mercedes-Benz уже тестирует Apollo в автомобильном производстве, а GXO Logistics проводит испытания робота на складах. Команда Google DeepMind привнесет в партнерство свой опыт в машинном обучении, инженерии и физическом моделировании, используя Gemini для робототехники.
therobotreport.com

✔️ OpenAI показала новые возможности ChatGPT для Mac.

На предпоследнем стриме цикла 12 Days, OpenAI представила новые функции для приложения ChatGPT на Mac: улучшенную интеграцию с другими приложениями и расширенный голосовой режим. Теперь пользователи могут предоставлять ChatGPT доступ к контенту в других приложениях для получения контекста и помощи.

ChatGPT для Mac OS также получил возможность работы с Apple Notes, Quip и Notion. Новые возможности "Работа с приложениями" и "Расширенный голосовой режим" уже доступны для пользователей приложения ChatGPT на Mac, а для пользователей Windows они появятся в скором времени.
openai.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🎉 18 декабря в Петровском путевом дворце состоялся Ed.Future — один из главных форумов России, посвященных будущему образования и HR!

На форуме прошла церемония награждения в рамках премии «Эффективное образование». Жюри, включающее ведущих экспертов отрасли (Плехановский университет, МГУ, Фонд социальных инвестиций, МГИМО и другие), определило лучшие проекты, ориентированные на развитие образования как внутри компаний, так и вовне.

Среди лауреатов — ИТ-чемпионат True Tech Champ от МТС, который стал победителем в номинации «Инновационный образовательный проект года»! Чемпионат был отмечен за свою важную роль в привлечении молодежи в IT-индустрию.

Кроме того, награды получили проекты от таких крупных игроков рынка, как Альфа-Банк, ВТБ, «Вкусно — и точка», Skillbox и Сбер 🏆

#EdFuture #ОбразованиеБудущего #HRФорум
 
@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Bamba-9B: эффективная Hybrid Mamba2 модель.

Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.

Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.

Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.

Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.

По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.

Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.

▶️ Планы разработчиков на дальнейшее развитие Bamba:

🟠увеличение длины контекста модели Bamba-9B (сейчас - 4096);
🟠улучшение модели путем обучения на дополнительных данных и точной настройки на наборах данных SFT.

▶️ Опубликованный набор моделей:

🟢Bamba 9B - финальная версия модели после 2-х этапов обучения
🟢Bamba 9B 2T - чекпоинт после 1 этапа трейна с датасетом Dolma v1.7
🟠Bamba 9B 1.8T - промежуточный чекпоинт 1 этапа обучения

🟢Bamba 9B FP8 - квантованная с помощью llm-compressor версия Bamba 9B
🟢Bamba 9B 2T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 2Т
🟠Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 1.8Т

▶️Пример инференса на Transformers с Bamba-9B:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")

message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Bamba #IBM

Читать полностью…

Machinelearning

✔️ ChatGPT через телефонный звонок и в WhatsApp.

OpenAI представила еще один способ доступа к ChatGPT - через обычный телефонный звонок. Теперь пользователи в США могут просто набрать бесплатный номер 1-800-ChatGPT для доступа к AI-ассистенту. Сервис предоставляет 15 бесплатных минут разговора в месяц и работает на любом телефоне - от современных смартфонов до классических дисковых аппаратов.

Для пользователей за пределами США компания предлагает ChatGPT через WhatsApp, где общение происходит в формате текстовых сообщений. Нововведение является частью праздничной серии стримов "12 дней OpenAI".
openai.com

✔️ Microsoft приобрела почти полмиллиона чипов Nvidia Hopper в 2024 году.

В 2024 году Microsoft купила 485 000 чипов Nvidia Hopper, что более чем в 2 раза превышает закупки любого из ее конкурентов. Для сравнения, компания Марка Цукерберга купила 224 000 штук. Закупки Microsoft чипов Nvidia в 2024 году более чем втрое превысили количество, приобретенное компанией в 2023 году.

Помимо закупки ускорителей NVIDIA, Microsoft разрабатывает собственные специализированные AI - Maia, о которых было объявлено на конференции Ignite в конце 2023 года.
techcrunch.com

✔️ AI-стартап Odyssey разрабатывает инструмент Explorer для создания фотореалистичных 3D-миров.

Odyssey, основанный пионерами в области беспилотных автомобилей Оливером Кэмероном и Джеффом Хоком, разрабатывает инструмент на основе ИИ, способный преобразовывать текст или изображение в 3D-рендеринг.

Инструмент, под названием Explorer, может генерировать интерактивные сцены в реальном времени на основе текстового описания. Explorer обучен на реальных ландшафтах, снятых с помощью 360-градусной камерной системы компании. Odyssey утверждает, что их инструмент "особенно настроен" для создания фотореалистичных сцен. Сцены, сгенерированные Explorer, могут быть загружены в Unreal Engine, Blender и Adobe After Effects для редактирования.
odyssey.systems

✔️ Microsoft представляет SPARROW: AI-инструмент для измерения и защиты биоразнообразия в самых отдаленных уголках планеты.

SPARROW (Solar-Powered Acoustic and Remote Recording Observation Watch) - ИИ-комплекс для автономного сбора данных о биоразнообразии в удаленных регионах. Устройство на солнечной энергии оснащено датчиками, которые собирают данные с камерных ловушек, акустических мониторов и других детекторов. Эти данные обрабатываются с использованием моделей ИИ на энергоэффективных GPU.

Затем SPARROW передает информацию через низкоорбитальные спутники в облако, обеспечивая исследователям доступ к данным в реальном времени. Все компоненты SPARROW, включая программное обеспечение, аппаратное обеспечение и 3D-печатные чертежи, будут иметь открытый исходный код. В ближайшие три месяца SPARROW будет развернут в Северной и Южной Америке, а к концу 2025 года планируется внедрить SPARROW на всех континентах.
blogs.microsoft.com

✔️ Исследование выявило тревожные тенденции в данных для обучения ИИ.

Аудиторская группа Data Provenance опубликовала отчет, в котором констатировала, что более 90% наборов данных для ИИ поступают из Европы и Северной Америки и лишь 10% - из других регионов.

Источники данных для обучения ИИ существенно изменились за последнее десятилетие. Если раньше данные поступали из разных источников, то после 2018 года интернет-контент стал доминирующим для всех типов медиа. Синтетические данные также показывают стремительный рост: если в 2020 году их доля составляла менее 0.1% от веб-энциклопедических данных, то к 2024 году она достигла 10%. Основными генераторами синтетических данных стали модели OpenAI.

Это приводит к концентрации власти в руках крупных технологических компаний и затрудняет доступность данных для небольших организаций и исследователей. Недостаточное представление других культур и языков может искажать модели ИИ, отражая преимущественно западный взгляд на мир.
technologyreview.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

Магистратура по искусственному интеллекту ИТМО × Napoleon IT запустила курс по практической ML-инженерии

Студенты курса изучат основы MLOps и разработку ML-сервисов на Python, а затем разработают собственный сервис на основе машинного обучения и упакуют его в MVP с поддержкой экспертов из Ozon, Skyeng, Газпромбанка.

В основе обучения — баланс между хард- и софт-навыками. За 5 месяцев предстоит освоить технологический стек ML-инженера уровня Middle — Apache Airflow, FastAPI, git, PostgreSQL, LightGBM, PyTorch, scikit-learn, CI/CD. А еще прокачать софты — от презентации продукта до понимания бизнес-задач, которые можно решать при помощи ML-инструментов.

На старте важно уметь программировать на Python, разбираться в основах машинного обучения и знать основы веб-разработки.

Узнать подробности о курсе и условиях оплаты можно по ссылке.

Реклама. Университет ИТМО ИНН:7813045547. erid:2VtzqwP6uGd

Читать полностью…

Machinelearning

⚡️ Релиз Falcon 3

Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.

▶️В семейство входят 5 базовых моделей:

🟢Falcon3-1B-Base
🟢Falcon3-3B-Base
🟢Falcon3-Mamba-7B-Base
🟢Falcon3-7B-Base
🟢Falcon3-10B-Base

Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).

Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.

Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.

Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.

▶️ Семейство продемонстрировало высокую производительность на стандартных бенчмарках:

🟠Falcon3-1B-Base превосходит SmolLM2-1.7B и сопоставима с gemma-2-2b;
🟠Falcon3-3B-Base опережает Llama-3.1-8B и Minitron-4B-Base;
🟠Falcon3-7B-Base показывает результаты, сравнимые с Qwen2.5-7B;
🟠Falcon3-10B-Base - лучшие результаты в категории до 13 млрд. параметров.

В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.

Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.

▶️В репозитории на HuggingFace опубликованы базовые, Instruct, GPTQ-INT8, GPTO-INT4, AWQ и GGUF версии моделей Falcon3.


⚠️ В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.


📌Лицензирование: Falcon 3 TII Falcon License.


🟡Статья
🟡Набор моделей
🟡Demo Falcon3
🟡Demo Falcon3-Mamba-7B-Instruct
🟡Сообщество в Discord

@ai_machinelearning_big_data

#AI #ML #LLM #Falcon3

Читать полностью…

Machinelearning

🌟 Apollo: семейство мультимодальных моделей для понимания медиаконтента.

Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.

Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.

Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.

▶️ Семейство состоит из трех моделей:

🟢Apollo 7B
🟢Apollo 3B
🟢Apollo 1.5B

⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.


📌Лицензирование кода : Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo Apollo-3B
🖥GitHub



@ai_machinelearning_big_data

#AI #ML #MMLM #Apollo

Читать полностью…

Machinelearning

🌟 OLA-VLM: метод повышения визуального восприятия в MLLM с помощью вспомогательной дистилляции эмбедингов.

OLA-VLM - метод, который предлагает дистиллировать знания от визуальных энкодеров в противовес традиционному способу обучения MLLM.

В качестве целевых визуальных энкодеров были выбраны модели сегментации, оценки глубины и генерации изображений. На каждом слое LLM обучался проб, который должен прогнозировать выход соответствующего целевого энкодера.

Так архитектура OLA-VLM получила предикторы встраивания, которые получают токены из LLM и генерируют предсказания для вычисления потери встраивания. Эта потеря минимизируется вместе с потерей предсказания следующего токена.

Для улучшения восприятия целевой информации OLA-VLM использует специальные токены ⟨t⟩, которые добавляются к токенам изображения на входе LLM. Во время фазы настройки MLLM обучается только с использованием потери предсказания следующего токена. При этом специальные токены ⟨t⟩ остаются в входной последовательности, формируя неявную визуальную цепь рассуждений.

Эксперименты показали, что OLA-VLM превосходит модели семейства LLaVA-1.5 как по качеству визуальных представлений, так и по эффективности на различных тестах.

Методом OLA-VLM были обучены 12 моделей на LLMs Phi3-4K-mini и Llama3-8b с разными базовыми (ViT, CLIP-ConvNeXT) и целевыми (depth, segmentation, generation) энкодерами. Доступны версии PT (Pre-Training) и IFT (Instruction Fine-Tuning).

▶️ Локальная установка и запуск web demo c GrarioUI:

# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM

# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm

# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1

# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%


📌Лицензирование моделей: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub



@ai_machinelearning_big_data

#AI #ML #MMLM #OLA-VLM

Читать полностью…

Machinelearning

🌟 POINTS1.5: VLM от WeChat.

POINTS1.5 - усовершенствованная версия VLM POINTS1.0, построенная по принципу LLaVA (визуальный энкодер+LLM) на базе Qwen2.5-7B-Instruct.

В отличие от предыдущей версии, где использовался энкодер изображений CLIP, POINTS1.5 использует энкодер NaViT, который позволяет модели обрабатывать изображения различного разрешения без необходимости их разделения.

Для повышения качества модели были применены методы фильтрации данных для обучения. Данные, не требующие анализа изображения для ответа на вопрос и содержащие грамматические ошибки, были удалены.

Обучение POINTS1.5 выполнялось в два этапа: предварительное обучение и настройка на выполнение визуальных инструкций. На этапе предварительного обучения проектор и LLM обучались совместно.

На этапе настройки на выполнение визуальных инструкций использовались специализированные наборы данных, которые обучают модель понимать инструкции, связанные с изображениями.

POINTS1.5 была протестирована на бенчмарках MMBench, MMMU, MathVista, HallucinationBench, OCRBench, MMVet, ChartQA, MME, LLaVA-wild, SEEDBench, ScienceQA, MATH-Vision и MathVerse и показала высокие результаты, особенно в задачах, требующих математических навыков.

Модели семейства POINTS могут быть запущены в режиме model soup (совместный запуск нескольких моделей, настроенных с разными наборами инструкций для получения итоговой "усредненной" модели) и CATTY (стратегия разбиения изображения большого разрешения на небольшие фрагменты одинакового размера).

▶️Локальная установка и пример инференса с Transformers:


# Clone repo
git clone https://github.com/WePOINTS/WePOINTS.git

# Install required packages
cd WePOINTS
pip install -e .

# Inference example
from transformers import AutoModelForCausalLM, AutoTokenizer
from wepoints.utils.images import Qwen2ImageProcessorForPOINTSV15
import torch
from PIL import Image
import requests
from io import BytesIO


model_path = 'WePOINTS/POINTS-1-5-Qwen-2-5-7B-Chat'
model = AutoModelForCausalLM.from_pretrained(model_path,
trust_remote_code=True,
torch_dtype=torch.float16,
device_map='cuda')
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
image_processor = Qwen2ImageProcessorForPOINTSV15.from_pretrained(model_path)

image_url = '%link to image%'
response = requests.get(image_url)
image_data = BytesIO(response.content)
pil_image = Image.open(image_data)
pil_image = pil_image.save('image.jpg')
prompt = 'please describe the image in detail'

content = [
dict(type='image', image='image.jpg'),
dict(type='text', text=prompt)
]
messages = [
{
'role': 'user',
'content': content
}
]
generation_config = {
'max_new_tokens': 1024,
'temperature': 0.0,
'top_p': 0.0,
'num_beams': 1,
}
response = model.chat(
messages,
tokenizer,
image_processor,
generation_config
)
print(response)


📌Лицензирование: Apache 2.0 License.


Модель
Arxiv
GitHub
Руководство по Prompt Engineering


@ai_machinelearning_big_data

#AI #ML #VLM #WePOINTS

Читать полностью…

Machinelearning

✔️ OpenAI представила функцию «Проекты» для ChatGPT.

OpenAI анонсировала новую функцию «Проекты» для своего чат-бота ChatGPT. Эта функция позволит пользователям группировать чаты и данные, упрощая использование ChatGPT для конкретных задач.

Пользователи смогут объединять в проекты пользовательские данные, разговоры, GPT и простые чаты. Каждый чат в проекте будет иметь доступ ко всей информации внутри него. OpenAI продемонстрировала "Проекты" на седьмом по счету стриме цикла анонсов "12 Days of OpenAI"
openai.com

✔️ Anthropic разработала платформу для анализа использования больших языковых моделей.

Anthropic создала платформу Clio для изучения особенностей применения больших языковых моделей в реальных условиях. Clio использует LLM для анализа миллионов диалогов, выявляя общие закономерности использования без нарушения конфиденциальности пользователей. Платформа группирует диалоги по схожести, создаёт обобщённые описания тем и определяет возможные нарушения правил использования. В отличие от традиционных методов, Clio не предполагает просмотра диалогов людьми.

Anthropic применяет Clio для повышения безопасности Claude. Clio помогает выявлять скоординированные злоупотребления и отслеживать неизвестные угрозы, особенно в важные периоды запуска новых функций. Компания планирует сделать Clio доступной для общественности с целью формирования культуры прозрачности в сфере ИИ.
anthropic.com

✔️ NVIDIA QUEEN: алгоритм потоковой передачи видео с произвольной точкой обзора.

QUEEN (QUantized Efficient ENcoding) - это новый алгоритм, разработанный NVIDIA для эффективного кодирования и потоковой передачи видео с произвольной точкой обзора. QUEEN использует динамические гауссианы для представления сцены, что позволяет достичь высокого качества изображения при минимальном размере модели.

Алгоритм способен сократить размер модели до 0,7 МБ на кадр, обеспечивая при этом быстрое обучение (менее 5 секунд) и высокую скорость рендеринга (около 350 кадров в секунду). QUEEN основан на квантовании и разрежении атрибутов гауссиан и использует адаптивную маскирующую технику для разделения статического и динамического контента.
research.nvidia.com

✔️ Microsoft представила новую модель Phi-4.

Новая языковая модель Phi-4 от Microsoft Research демонстрирует производительность, сравнимую с гораздо более крупными моделями, используя всего 14 миллиардов параметров. Phi-4 превосходит свою обучающую модель, GPT-4, в ответах на вопросы по науке и технике и демонстрирует особую эффективность в математике: 56,1% правильных ответов на вопросы университетского уровня и 80,4% на задачи из математических олимпиад.

Phi-4 уже доступна в рамках ограниченного превью на платформе Azure AI Foundry для исследовательских целей. В открытый доступ Phi-4 будет опубликована на следующей неделе.
techcommunity.microsoft.com

✔️ Cadbury борется с искусственным интеллектом, засоряя обучающие данные бессмыслицей.

Индийский филиал кондитерской компании Cadbury начал рекламную кампанию под названием «Сделаем ИИ посредственным снова», целью которой является замедлить развитие искусственного интеллекта путем внесения искажений в обучающие данные.

Компания создала «первую в мире серверную ферму», генерирующую тысячи синтетических веб-сайтов, заполненных бессмысленным текстом. Цель состоит в том, чтобы «загрязнить» данные, которые модели искусственного интеллекта собирают из Интернета, вызывая ошибки, требующие постоянного вмешательства человека.
techspot.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ OpenAI расширяет возможности голосового режима ChatGPT.

OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается.

Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu.
openai.com

✔️ Midjourney представила Patchwork, инструмент для создания миров.

Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста.

В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма.
updates.midjourney.com

✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных.

Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC.

Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году.
tomshardware.com

✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ.

Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток.

Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез.
news.stanford.edu

✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ.

База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении.

База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования.
institutionaldatainitiative.org

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

В сфере развития AI-технологий должна быть сформирована коллективная ответственность

Об этом заявил в ходе выступления на конференции AI Journey Хаммам Риза, президент Ассоциации промышленных исследований в области искусственного интеллекта в Индонезии (KORIKA).

«Искусственный интеллект должен развиваться ответственно. Нужно обеспечить коллективную ответственность, сформулировать цели инноваций и постоянно адаптировать наши решения. Я призываю всех в рамках сотрудничества стран БРИКС сформировать будущее развития искусственного интеллекта. Вместе мы можем достигнуть цели — когда искусственный интеллект служит человеку с уважением к этнокультурному разнообразию и нашему наследию», — объяснил свою позицию Риза.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Google открыла доступ к Gemini 2.0 Flash.

Gemini 2.0 Flash демонстрирует двукратное увеличение скорости по сравнению с предыдущей версией 1.5 Pro и обладает улучшенными характеристиками в обработке текста, кода, видео и пространственных данных. Модель также поддерживает новые функции: мультимодальный вывод (текст, аудио и изображения) и встроенное использование Google Search.
Разработчики могут получить доступ к Gemini 2.0 Flash через API в Google AI Studio и Vertex AI. Обновленная версия Gemini также предоставляет возможность создавать приложения с использованием потоковой передачи аудио и видео в режиме реального времени.
developers.googleblog.com

✔️ Apple разрабатывает собственный ИИ-чип.

Apple в сотрудничестве с Broadcom разрабатывает собственный серверный чип, оптимизированный для задач искусственного интеллекта. Чип под кодовым названием Baltra, планируется запустить в массовое производство к 2026 году, а для его производства Apple намерена использовать передовой техпроцесс TSMC с обозначением N3P.
theinformation.com

✔️ Microsoft запускает Copilot Vision.

Microsoft запускает предварительную версию Copilot Vision, инструмента, который позволяет пользователям взаимодействовать с веб-страницами с помощью ИИ. Copilot Vision доступен в браузере Microsoft Edge, сканирует и анализирует содержимое веб-страницы, предоставляя расширенную информацию и помогая в принятии решений.

Например, Copilot Vision может помочь спланировать посещение музея, выделив информацию о выставках и экспонатах или упростить онлайн-шопинг, подбирая товары в соответствии с заданными критериями.

Copilot Vision активируется только с разрешения пользователя, а данные сеанса удаляются после его завершения. Предварительная версия Copilot Vision доступна ограниченному числу подписчиков Copilot Pro в США и будет работать только с определенным набором веб-сайтов.
microsoft.com

✔️ Hugging Face и Entalpic представляют LeMaterial: открытую инициативу для исследований в области материаловедения.

Первым этапом проекта стал выпуск набора данных LeMat-Bulk, который объединяет, очищает и стандартизирует данные из авторитетных источников: Materials Project, Alexandria и OQMD. В результате сформирован единый формат данных, включающий 6,7 млн. записей и 7 свойств материалов.

LeMat-Bulk содержит древовидную карту элементного состава, расширяющую охват существующих наборов данных, которые фокусируются на конкретных типах материалов. LeMat-Bulk предоставляет пользователям инструменты для изучения и визуализации. В последующих версиях LeMaterial планируется добавление новых наборов данных, инструментов и приложений.
huggingface.co

✔️ Google тестирует "универсального агента" ИИ.

Google DeepMind расширяет программу тестирования Project Astra и Project Mariner, которые входят в прототип "универсального агента" ИИ.

Astra - виртуальный помощник, способный обрабатывать текст, изображения, видео и аудио в режиме реального времени и отвечать на вопросы, касающиеся этих данных. Он "запоминает" предыдущие взаимодействия и может ссылаться на них. Project Mariner - ИИ, способный управлять браузером пользователя и выполнять задачи с помощью расширения Chrome.

В настоящее время оба проекта находятся на ранней стадии разработки и доступны ограниченному числу тестировщиков. Astra интегрируется в продукты Google: Search, Lens и Maps. Пока неизвестно, когда эти системы станут доступны широкой публике.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

Завершился Yandex Cup 2024 — финал международного чемпионата по программированию прошел в Ташкенте.

Подобные соревнования компания проводит с 2011 года. Главные изменения в этом году — рекордный призовой фонд в размере 16 млн рублей и разделение участников на три стрима. Среди треков: опытные специалисты, юниоры от 14 до 18 лет и сотрудники Яндекса, которые сражались за титул чемпиона компании.

Победу одержали разработчики из России, Беларуси, Японии, США, Великобритании и Португалии. Отдельное внимание компания уделила поддержке ML-направления: количество участников-финалистов увеличилось с 6 до 22, а к изначальной сумме призового фонда добавилось 3,5 млн рублей. Вполне действенный способ замотивировать молодых ребят в сфере.

Главной фишкой соревнования стала тематика, вдохновленная культурой и бытом древних цивилизаций. Все задачи чемпионата были посвящены древним изобретениям и историческим личностям: например, на этапе квалификации с помощью кода нужно было настроить систему разгрузки драккаров в порту викингов.

Для офлайн-финала также создали отдельное пространство, посвященное трудам Аль-Хорезми — основателя алгебры, который проживал на территории современного Узбекистана.

Читать полностью…

Machinelearning

🌟 Лучшие открытые LLM на русском языке в мире

“Т-Технологии”(в состав входит Т-Банк) представили свои большие языковые модели T-Pro и обновленную T-Lite на платформе Hugging Face:

🟠32 млрд. параметров — у T-Pro;
🟢7 млрд. параметров – у T-Lite.

Им удалось обогнать все открытые модели в мире по качеству ответов на русском языке в своих категориях, в том числе проприетарные — T-Pro уступает лишь GPT4-o. Это показали разные бенчмарки, в том числе ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval.

⚠️Модели создаются с использованием технологии продолженного предобучения (Continual Pretraining). Это значит, что уже обученную на больших объемах информации модель достаточно дообучить под конкретные задачи. Также модели T-Lite и T-Pro основаны на базе моделей семейства Qwen-2.5, но показывают более высокое качество на задачах русского языка, чем оригинальные модели.

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG

Читать полностью…

Machinelearning

📌Топ 10 статей NVIDIA Developer Technical Blog за 2024 год.

NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.

🟢NVIDIA NIM - оптимизированные микросервисы инференса для мастшабного развертывания моделей ИИ

🟢Открытие бесплатного доступа к NVIDIA NIM для участников Developer Program

🟢NVIDIA GB200 NVL72 - обучение LLM с триллионами параметров и инференсом в реальном времени

🟢NVIDIA полностью переходит на GPU Kernel Modules с открытым исходным кодом

🟠Введение в мультимодальный RAG
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.

🟠Создание агента для анализа данных на основе LLM
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.

🟠StarCoder2 - раскройте свой потенциал в программировании
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.

🟠Как обрезать и дистиллировать Llama 3.1 8B в модель NVIDIA MiniTron 4B
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.

🟠Как за 4 шага перевести приложение RAG из пилотной версии в продакшен
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.

🟠RAPIDS cuDF ускоряет pandas почти в 150 раз без изменения кода
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.


🔜 Блогпост на developers.nvidia.com


@ai_machinelearning_big_data

#AI #ML #NVIDIA #Digest

Читать полностью…

Machinelearning

⚡️ Релиз IBM Granite 3.1.

IBM представила Granite 3.1, обновление семейства открытых и высокопроизводительных LLM, оптимизированных для корпоративного использования. Обновление принесло семейству повышение производительности, точности в критически важных корпоративных сценариях: использование инструментов, RAG и рабочие процессы на основе AI агентов.

В этом релизе особое внимание уделялось улучшению обработки длинных текстов благодаря расширенному контекстному окну и детекту галлюцинаций. Все модели семейства Granite 3 получили длину контекстного окна в 128 тысяч токенов. Для сравнения, это примерно 300-страничная книга.

Набор LLM Granite 3.1 8B и 2B, базовые и инструктивные версии. Флагманская Granite 3.1 8B достигает одних из самых высоких средних баллов среди открытых моделей своего класса на Hugging Face OpenLLM Leaderboard.

MoE-модели Granite 3.1 3B и 1B c 800M и 400M активных параметров соответственно и их инструктивные версии.

Granite Embedding в 4 размерах (125M и 30M для английского языка и 278M и 107М - мультиязычные), которые поддерживают 12 языков: английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский.

Granite Guardian 3.1 8B и 2B - специализированные модели обнаружения галлюцинаций при вызовах функций. Они отслеживают каждый вызов функции на предмет синтаксических и семантических отклонений, повышая достоверность и управляемость в рабочих процессах.

▶️Вместе с моделями, IBM представила инструменты и фреймворки с открытым исходным кодом:

🟠Docling - инструмент для подготовки документов к RAG, предобучению и тонкой настройке ( извлечение информации из форматов PDF, DOCX, изображения, PPTX, XLSX, HTML и AsciiDoc).

🟠Bee - фреймфорк создания масштабируемых приложений на основе AI агентов.

⚠️ Все модели Granite 3.1, Granite Guardian 3.1 и Granite Embedding доступны в средах: IBM watsonx.ai, Hugging Face, LM Studio, Ollama и Replicate.


📌Лицензирование: Apache 2.0 license.


🟡Статья
🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #LLM #Embeddings #IBM #Granite

Читать полностью…

Machinelearning

🔹 Cтроим графики для анализа финансовых данных на открытом уроке «Визуализация данных. Основные "финансовые" графики, работа с mplfinance»

Рассмотрим свечные графики, научимся строить дополнительные линии на графиках и доверительные интервалы.

Практика: свечные графики с помощью библиотеки mplfinance

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/8X6H/?erid=LjN8Jx3TC

#реклама
О рекламодателе

Читать полностью…

Machinelearning

⚡️ Новые разработки команды FAIR в области ИИ.

Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:

🟢Motivo - базовая модель для управления виртуальными воплощенными агентами.

Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
🟡Paper 🟡Demo 🟡Github

🟢Video Seal - система для нанесения водяных знаков на видео.

Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
🟡Paper 🟡Demo 🟡Github

🟢Flow Matching - генеративная парадигма для множества модальностей.

Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
🟡Paper 🟡Github

🟢Explore Theory-of-Mind - техника генерации данных для обучения моделей теории разума.

Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
🟡Paper 🟡Github 🟡Dataset

🟢Large Concept Model (LCM) - метод обучения языковых моделей, который предсказывает не следующий токен, а следующую концепцию.

Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
🟡Paper 🟡Github

🟢Dynamic Byte Latent Transformer - иерархическая модель, работающая с байтами напрямую без токенизации.

DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
🟡Paper 🟡Github

🟢Memory Layers – метод масштабирования слоев памяти, повышающий фактологичность моделей.

Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
🟡Paper 🟡Github

🟢EvalGym - библиотека для оценки text-to-image моделей.

Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
🟡Paper 🟡Github

🟢CLIP 1.2 - улучшенная версия vision-language энкодера.
🟡Paper 🟡Github 🟡Dataset 🟡Model


@ai_machinelearning_big_data

#AI #ML #FAIR #Digest

Читать полностью…

Machinelearning

✔️ NVIDIA представила доступный "суперкомпьютер" для GenAI.

NVIDIA анонсировала Jetson Orin Nano Super Developer Kit, который предлагает повышенную производительность по сниженной цене. Цена устройства была снижена с 499 до 249 долларов США. Комплект предоставляет возможности в области генеративного ИИ и повышения производительности как коммерческим разработчикам ИИ, так и энтузиастам.

Jetson Orin Nano Super обещает 1,7-кратное увеличение производительности, достигая 67 INT8 TOPS, и 50-процентное увеличение пропускной способности памяти до 102 ГБ/с. Комплект разработчика состоит из системного модуля Jetson Orin Nano 8GB (SoM) и эталонной несущей платы. SoM включает в себя GPU на архитектуре NVIDIA Ampere с тензорными ядрами и 6-ядерный процессор Arm.
blogs.nvidia.com

✔️ Google DeepMind FACTS Grounding: бенчмарк для оценки фактологичности LLM.

FACTS Grounding создан для оценки способности LLM генерировать ответы, которые являются фактически точными и основаны на предоставленном исходном материале. Бенчмарк включает в себя 1719 примеров, требующих развернутых ответов, основанных на предоставленном контекстном документе.

Примеры включают различные области: финансы, технологии, розничную торговлю, медицину и право, и документы объемом до 32 000 токенов. Для оценки используются три LLM-судьи: Gemini 1.5 Pro, GPT-4o и Claude 3.5 Sonnet, которые оценивают ответы на соответствие пользовательскому запросу и фактическую точность. Датасет и лидерборд доступны на Kaggle.
deepmind.google

✔️ Grammarly приобретает Coda и назначает нового CEO для создания платформы продуктивности c ИИ.

Компания Grammarly объявила о намерении приобрести платформу Coda, специализирующуюся на инструментах для повышения продуктивности. Генеральный директор и соучредитель Coda, Шишир Мехротра, станет новым CEO Grammarly. Это приобретение направлено на трансформацию Grammarly из простого ассистента в полноценную ИИ-платформу продуктивности для приложений и агентов.

Интеграция Coda Brain позволит Grammarly сделать своего ИИ-помощника более умным, контекстуально осведомленным и способным подключаться к различным системам и приложениям. Grammarly планирует объединить своего ассистента с Coda Docs, чтобы обеспечить пользователям платформу для работы с ИИ от начала и до конца.
businesswire.com

✔️ OpenAI анонсировала API o1, но для избранных разработчиков.

OpenAI начала предоставлять модель o1, способную к "рассуждению", через API, но пока только для разработчиков, входящих в категорию использования "tier 5". Для квалификации в эту категорию, разработчики должны потратить не менее 1000 долларов с OpenAI и иметь аккаунт старше 30 дней с момента первого успешного платежа. Модель o1 заменяет предыдущую модель o1-preview и способна проверять факты.

Использование o1 стоит значительно дороже — 15 долларов за ~750 000 input-токенов и 60 долларов за ~750 000 output, что в 6 раз дороже, чем GPT-4o. O1 в API более настраиваемая благодаря новым функциям^ вызов функций, сообщения разработчика и анализ изображений. OpenAI также выпустила новые версии моделей GPT-4o и GPT-4o mini в рамках Realtime API, предназначенного для приложений с низкой задержкой голосового ответа, с улучшенной эффективностью данных и надежностью.
openai.com

✔️ Предполагается выпуск 24 ГБ версии видеокарты Intel Arc B580 для профессиональных задач.

Согласно транспортной накладной, обнаруженной пользователем X Томашем Гавронским, Intel, возможно, готовит к выпуску версию своей видеокарты Arc B580 с 24 ГБ видеопамяти. Эта карта, известная как Battlemage G21, может быть оснащена памятью GDDR6, подключенной в "раскладном" режиме (clamshell), который позволяет удвоить объем видеопамяти. Возможно, 24 ГБ версия B580 будет предназначена для партнеров Intel, занимающихся ИИ и центрами обработки данных.
pcgamer.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Microsoft выпустила в опенсорс библиотеку MarkItDown на Python для преобразования файлов в Markdown

MarkItDown представляет собой эффективное средство для конвертации различных типов файлов и документов в формат Markdown. Эта библиотека идеально подходит для анализа, индексирования и систематизации данных.

Вот перечень поддерживаемых форматов:
— PDF, PowerPoint, Word, Excel.
— Изображения (в том числе EXIF-данные и распознавание текста с помощью OCR).
— Аудио (метаданные и расшифровка речи).
— HTML (включая специализированную обработку контента из Wikipedia).
— Текстовые форматы: CSV, JSON, XML и другие.
MarkItDownGithub

✔️ Не только математика и алгоритмы: что еще важно для ML и DS. Руководитель ШАДа Алексей Толстиков рассказал, какие ML-специалисты нужны рынку, можно ли освоить Data Science самостоятельно и почему технических навыков бывает недостаточно. Эти и многие другие вопросы он затронул в новом выпуске подкаста MLinside школы Виктора Кантора.
Смотреть выпуск

✔️Whisk: Google представил новую технологию создания изображений

Принцип работы прост: пользователь загружает три изображения — одно для объекта, другое для фона и третье для стиля. Модель Gemini анализирует каждое изображение и формирует подробное описание, после чего новая система генерации изображений Imagen 3 использует эти данные для создания уникального результата.

Главное преимущество Whisk перед другими генераторами заключается в том, что он не копирует исходные изображения полностью, а выделяет из них ключевые элементы.
blog.google

✔️ Google анонсировала обновленный генератор видео Veo 2 и начала формировать список ожидания для его тестирования.

Внутренние тесты компании показали, что пользователи предпочитают генерации Veo генерациям SORA в 58,8% случаев.

Подать заявку на тестирование модели можно через сервис VideoFX в Google Labs, однако доступ к нему закрыт для пользователей с российскими IP-адресами. Планируется, что в 2025 году Veo 2 будет интегрирован в YouTube Shorts и другие сервисы Google.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 Megrez-3B-Omni: модель обработки 3-х модальностей: изображений, речи и аудио.

Megrez-3B-Omni - это мультимодальная модель для использования устройствах, разработанная Infinigence AI. Она является расширением модели Megrez-3B-Instruct и поддерживает анализ изображений, текста и аудио.

Модель демонстрирует высокие результаты во всех трех целевых областях знаний:

🟢Понимание изображений: благодаря использованию SigLip-400M для создания токенов изображений, Megrez-3B-Omni превосходит модели с большим количеством параметров, например, LLaVA-NeXT-Yi-34B.
Согласно тестам MME, MMMU и OCRBench, Megrez-3B-Omni является одной из лучших моделей понимания изображений и показывает отличные результаты в задачах понимания сцен и оптического распознавания текста.

🟢Понимание языка: по сравнению с одномодальным аналогом (Megrez-3B-Instruct), разница в точности составляет менее 2%, при этом сохраняются лидирующие показатели на тестах C-EVAL, MMLU/MMLU Pro и AlignBench. Модель также превосходит предыдущие поколения моделей с 14 млрд. параметров.

🟢Понимание речи: Megrez-3B-Omni оснащена энкодерами Qwen2-Audio(для китайского)/whisper-large-v3(для английского) и речевой ввод, многоходовые диалоги и голосовые вопросы по входным изображениям. Она может реагировать на голосовые команды текстом и показывает лидирующие результаты на различных контрольных тестах.

Инференс модели возможен с Transformers , в vLLM и в webUI Gradio.


▶️Локальная установка и запуск web demo c GrarioUI:

# Clone repo
git clone https://github.com/infinigence/Infini-Megrez-Omni.git
cd Infini-Megrez-Omni

# Create conda env
conda create -n Megrez-Omni -y
conda activate Megrez-Omni

# Install dependencies
pip install -r requirements.txt

# Run webUI
python gradio_app.py --model_path {model_path} --port {port}


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #Megrez3BOmni

Читать полностью…

Machinelearning

📎 ML в медицине: дайджест за 8 - 15 декабря 2024 г.


▶️Модели, бенчмарки и датасеты

🔘Модель диагностики хронического заболевания почек.
Модель глубокого обучения, которая с высокой точностью диагностирует болезни почек по данным КТ-снимков.

🔘RNAgrail: графовая нейронная сеть и диффузионная модель для предсказания 3D-структуры РНК.
Опенсорсный инструмент моделирования и прогнозирования структуры РНК.

🔘LLaSA: Анализ активности пациента по инерционным датчикам с помощью MLLM.
Mодель, которая может анализировать данные с датчиков движения и отвечать на вопросы о действиях и активности человека.

▶️Фреймворки и методологии

🔘TOP-Training: целенаправленный метод обучения LLM для извлечения ответов на вопросы в медицинской области.
Метод обучения на синтетических данных, адаптированных под конкретную медицинскую задачу.

🔘Hybrid RAG: гибридная архитектура RAG для управления данными.
Концепт системы, которая использует MLLM и взаимодействие между клиниками для обмена медицинскими данными, улучшении диагностики и теорию контрактов, которые мотивируют клиники делиться актуальной информацией.

🔘MMedPO: метод повышения точности медицинских VLM.
Метод, который учитывает важность медицинской информации при обучении VLM и улучшает точность моделей в медицинских задачах.

🔘GMNA: анализ геномных данных с использованием сети ошибочной классификации.
Метод, который сравнивает геномы вирусов SARS-CoV-2 на основе ошибок в их классификации нейронными сетями. Чем чаще модель путает геномы из разных регионов, тем больше у них общего. Этот подход помог увязать генетические различия вирусов с географией и потоками авиаперелетов.

🔘Цифровые отпечатки для обучения ИИ в медицинской визуализации.
Способ хранить и передавать знания о том, как обучать ИИ анализировать медицинские изображения, не раскрывая данные.

🔘Прогнозирование посещений отделения неотложной помощи пациентами с диабетом 2 типа с помощью машинного обучения.
Применение разных ML-алгоритмов, чтобы спрогнозировать, когда пациенты будут ходить в отделение неотложной помощи. Лучше всего справлялись случайный лес, XGBoost и ансамблевая модель.


▶️Медицинские LLM-приложения

🔘BRAD: цифровой помощник для биоинформатики на основе LLM.
Цифровой помощник, который умеет искать и подтягивать информацию из разных источников - статей, баз данных, программных инструментов.

🔘BioResearcher: система автоматизации медицинских исследований.
Система с LLM, которая помогает ученым быстро находить нужные статьи, обрабатывать их, планировать эксперименты и даже писать отчеты.


▶️Исследования и обзоры

*️⃣T5-модели: преимущества и ограничения в обработке медицинских текстов.
Исследование, в котором сравнили разные модели Т5, обученные на медицинских данных, и выяснили, что специализированные клинические модели показывают лучшие результаты на некоторых задачах, но им не хватает гибкости. А модели общего назначения, адаптированные под медицинские задачи, оказываются эффективнее, особенно когда данных мало.

*️⃣Автоматизация классификации препаратов для клинических назначений с помощью LLMs.
Концепт системы, которая использует LLM для автоматической классификации лекарств по Анатомо-терапевтическо-химической системе. Это упрощает работу медиков и повышает точность распределения препаратов.

*️⃣Обзор медицинских наборов данных.
Обзор мед. датасетов - текстов, картинок, разговоров врачей и пациентов, которые используются для обучения ИИ-моделей решать медицинские задачи. Есть много интересных и полезных баз данных, но в основном на английском и китайском языках.


🔜 Читать полный дайджест


@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📌Онлайн курс "Преобразование Фурье и его приложения"

Преобразование Фурье – это математический метод, который широко применяется в науке и технике для анализа сигналов. Этот метод основан на представлении сигнала в виде суммы синусоидальных и косинусоидальных функций разных частот.

Анализ Фурье оказал значительное влияние на развитие математики, стимулируя развитие теории обобщенных функций. Применение преобразования Фурье основано на принципе линейности, который позволяет анализировать сложные сигналы путем разложения их на более простые составляющие.

Курс «EE 261 Преобразование Фурье и его приложения», предлагаемый онлайн-платформой Stanford Engineering Everywhere Университета Стэнфорда, посвящен изучению преобразования Фурье и его практическому применению.

Цель курса – научить студентов применять преобразование Фурье для решения практических задач в различных областях науки и техники. В рамках курса рассматриваются темы:

🟢Ряды Фурье;
🟢Основные свойства преобразования Фурье;
🟢Свертка;
🟢Обобщенные функции;
🟢Дискретизация;
🟢Линейные системы;
🟢Дискретное преобразование Фурье;
🟢Алгоритм быстрого преобразования Фурье;
🟢Двумерное преобразование Фурье.

Курс состоит из 30 лекций, дополнительных материалов к ним и предназначен для студентов с разным уровнем подготовки, для тех, кто впервые знакомится с преобразованием Фурье, так и для тех, кто уже изучал его в других курсах.

@ai_machinelearning_big_data

#AI #ML #FourierTransform #Stanford #Course

Читать полностью…

Machinelearning

⚡️ DeepSeek-VL2: релиз набор VL-MoE моделей нового поколения.

DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
 
Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.


📌Лицензирование: DeepSeek License.


🟡Набор моделей
🟡Техотчет
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #DeepSeek

Читать полностью…

Machinelearning

🌟 MD4: Маскированная диффузия для дискретных данных.

Маскированная (или абсорбирующая) диффузия - перспективный подход в генеративном моделировании дискретных данных, предлагающий альтернативу авторегрессионным моделям.

MD4 (Masked Discrete Diffusion for Discrete Data) - метод, разработанный в Google DeepMind предлагает упрощенный и обобщенный подход к маскированной диффузии. Структура метода позволяет обучать обобщенные модели маскированной диффузии с гибкими схемами маскировки, зависящими от состояния данных.

В основе MD4 лежит «маскирующий» процесс, превращающий исходные данные в состояние «маски» в случайный момент времени. Обращение этого процесса позволяет синтезировать новые данные, сохраняющие распределение обучающей выборки.

Математически прямой процесс описывается как марковская последовательность дискретных случайных величин, индексируемых временным параметром от 0 до 1.

MD4 продемонстрировал превосходство над диффузионными языковыми моделями по показателю перплексии на наборе данных OpenWebText и значительно обошел существующие дискретные диффузионные модели по качеству пиксельного моделирования изображений, достигая 2,75 бит на измерение для CIFAR-10 и 3,40 бит на измерение для ImageNet 64 × 64.

Эти результаты выше, чем показатели авторегрессионных моделей сопоставимого размера (GPT-2, PixelRNN, Gated PixelCNN, PixelCNN++, PixelSNAIL, Image Transformer, Sparse Transformer).

Несмотря на все преимущества метода, MD4 склонен к переобучению, что снижает его эффективность для задач с нулевой выборкой по сравнению с более простыми моделями.

Прикладная реализация MD4 опубликована в репозитории Google Deepmind, в котором представлена возможность повторить экспериментальное обучение на тексте или изображениях.

⚠️ Batch size зависит от вычислительных ресурсов. Для обучения модели MD4-S с длиной последовательности 1024, 8 GPU A100 могут поддерживать максимальный batch size=128. При запуске на TPU, 8 чипов v5litepod, batch size=32.

▶️Локальная установка и пример обучения на тексте и изображениях:

# Create & activate env
python -m venv md4_venv
source md4_venv/bin/activate

# Install required packages
pip install -r requirements_gpu.txt

# Include a path dir in the Python path
export PYTHONPATH="$PYTHONPATH:~/path/to/md4"

# Prepare openwebtext for training
mkdir data_dir
python prepare_openwebtext_data.py

# Train a MD4-S model over text data
python md4/main.py --config=md4/configs/md4/openwebtext.py --sharded=false --workdir=./expt

# Train a MD4-S model over image data via cifar10
python md4/main.py --config=md4/configs/md4/cifar10.py --sharded=false --workdir=./expt


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #MD4 #GoogleDeepMind

Читать полностью…

Machinelearning

🌟 Torchcodec: библиотека для декодирования видео в PyTorch.

PyTorch представила torchcodec – библиотеку, предназначенную для декодирования видео в тензоры PyTorch. Библиотека разработана для специалистов, работающих с моделями машинного обучения PyTorch, которым требуется обработка видеоданных. Torchcodec обеспечивает декодирование видео в тензоры PyTorch на CPU и GPU CUDA.

Библиотека рассматривает видеофайл как последовательность кадров в Python и поддерживает два метода их извлечения: на основе индекса и на основе времени презентации. Декодированные кадры представляют собой тензоры PyTorch, готовые для подачи в модели машинного обучения.

Torchcodec поддерживает все кодеки, доступные в FFmpeg и может обрабатывать видео как с постоянной, так и с переменной частотой кадров .

Подробная инструкция по установке, использованию классов библиотеки и примеры декодирования доступны в документации Torchcodec.


📌Лицензирование: BSD-3-Clause License.


🟡Статья
🟡Документация
🖥Github


@ai_machinelearning_big_data

#AI #ML #Pytorch #Torchcodec

Читать полностью…

Machinelearning

🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств.

NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов.

Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU.

Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям.

Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит:

▶️Предобученные модели:

🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B;

🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках.


▶️Датасеты:

🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток;


🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Framework #NVIDIA

Читать полностью…

Machinelearning

📌 Пятидневный интенсивный курс по GenAI от Google и Kaggle.

Google совместно с Kaggle представили пятидневный интенсивный курс по генеративному искусственному интеллекту, который доступен в формате самостоятельного обучения.

Курс, который проходил в прямом эфире с 11 по 15 ноября 2024 года, охватывает базовые технологии и методы генеративного ИИ. Программа включает изучение базовых моделей, инженерии промптов, векторных баз данных и эмбедингов, ИИ-агентов, специализированных моделей для конкретных областей и MLOps для GenAi.

Каждый день курса посвящен определенной теме и включает теоретические материалы, практические задания и возможность взаимодействия с экспертами Google.

Участники изучат развитие LLM, начиная с трансформеров и заканчивая техниками тонкой настройки и ускорения инференса. Познакомятся с методами инженерии промптов для оптимизации взаимодействия с LLM.

В рамках курса будут рассмотрены концепции эмбедингов и векторных баз данных, алгоритмы векторного поиска и научатся создавать ИИ-агентов, понимая их основные компоненты и итеративный процесс разработки.

Курс включает создание и применение специализированных LLM: SecLM и Med-PaLM, с комментариями разработчиков. Участники узнают, как адаптировать практики MLOps для генеративного ИИ и использовать инструменты Vertex AI для базовых моделей и приложений генеративного ИИ.

В рамках практических занятий на платформе Kaggle участники смогут применить полученные знания, создавая системы вопросов и ответов на основе извлечения информации, нейронные сети классификации и агентные системы заказа.

Курс разработан экспертами Google: Анантой Навалгарией, Марком Макдональдом, Пейдж Бейли и другими.

⚠️ Для доступа к коду курса необходимы аккаунты на Kaggle (c верификацией номера телефона), Google Ai Studio (для создания API KEY).


🟡Страница курса
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #GenAI #Course

Читать полностью…

Machinelearning

🌟 TGI v3: Новая архитектура ускоренного инференса LLMs.

TGI v3 — новая версия архитектуры для обработки естественного языка, разработанная Hugging Face. TGI v3 демонстрирует значительный прирост производительности, особенно при работе с длинными запросами.

Улучшения v3:

🟢оптимизированные ядра;
🟢эффективная структура кэширования префиксов;
🟢улучшенное управление вычислительными ресурсами.

Flashinfer и flashdecoding — новые ядра быстрой обработки текста. Оптимизированная структура кэширования позволяет быстро находить совпадения даже для очень длинных запросов.

TGI v3 оценивалась в реалистичных сценариях на коротких и длинные запросах. Результаты тестов показали, что TGI v3 обрабатывает в 3 раза больше токенов, чем vLLM, а скорость обработки увеличилась в 13 раз для запросов длиной 200K+ токенов.

Хотя результаты работы TGI v3 впечатляют, следует учитывать некоторые ограничения:

⚠️ Если в среде не хватает места в kv-кэше, это может привести к конфликту. Чтобы избежать этого эффекта, следует установить ограничение --max-total-tokens.

⚠️ В сценариях, где несколько реплик находятся за одним эндпоинтом рекомендуется использовать балансировку нагрузки на зависимые сеансы, чтобы заставить каждого пользователя отправлять свои запросы на одну и ту же реплику.

🔜 Полная статья с описанием TGI v3 доступна на HF.


🖥 GIthub


@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #TGI

Читать полностью…
Subscribe to a channel