🐫Tülu 3 (ну и название) 405B - еще один релиз!
Модель с открытым исходным кодом (и нет, это не китайская модель), которая превосходит по производительности DeepSeek-V3! на нескольких бенчмарках
Масштабируется до 405B - с производительностью на уровне GPT-4o и превосходит предыдущие модели того же класса.
▪Блог: https://allenai.org/blog/tulu-3-405B
▪Потестить можно тут: https://playground.allenai.org/?model=tulu3-405b
▪Technical report: https://allenai.org/blog/tulu-3-technical
▪Hugging Face: https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5
@ai_machinelearning_big_data
#llm #ml #ai #opensource
⭐️ Яндекс выпустил в опенсорс Perforator — первую в России открытую систему непрерывного профилирования с подобным широким функционалом.
Perforator анализирует производительность сервисов и помогает компаниям существенно оптимизировать затраты на серверную инфраструктуру. Система уже помогла Яндексу сократить нагрузку на серверах крупных сервисов — Поиска и Рекламы.
Ключевые преимущества:
1️⃣ Аналитика от Perforator помогает снизить затраты на серверы до 20% без потери производительности.
2️⃣ Инструмент работает без необходимости модификации исходного кода и использует возможности eBPF для сбора данных прямо в ядре Linux.
3️⃣ Решение позволяет проводить глубокую аналитику и визуализировать полученные данные с помощью flamegraph.
4️⃣ Поддерживает C++, C, Go, Rust (скоро Python и Java).
🏅 Perforator может применяться в 95% российских компаний, у которых есть свои или арендованные серверы. Инструмент поможет значительно сократить расходы на инфраструктуру без потери производительности.
📄 Статья: https://habr.com/ru/companies/yandex/articles/875070/
📕 Paper
@ai_machinelearning_big_data
#news #opensource
🖥 Vanna
Это Python-фреймворк с открытым исходным кодом, в котором используется LLM для создания SQL-запросов на основе естественного языка.
✔️ Всё просто: сначала обучаете модель на своих данных, а потом можно задать вопросы на обычном языке.
В ответ модель выдает готовые SQL-запросы, которые можно сразу запускать в своей базе данных.
⚡️ Установка: pip install vanna
▪GitHub: https://github.com/vanna-ai/vanna
@ai_machinelearning_big_data
#python #sql #opensource #vanna #llm
⚡️ Hailuo AI выпустили новую версию своего генератора видео T2V 01 Director, в которой упор сделан на контроль камеры!
✨ Что нового:
- Уменьшена хаотичность движений генераций.
- Повышена точность управления.
- Улучшена эстетика движения камеры.
Модель управления и движения камеры работает просто великолепно.
📌 Попробовать
@ai_machinelearning_big_data
#video #ai #videogenerator #Hailuo
Базы данных для задач любой сложности
Безопасность, масштабируемость и отказоустойчивость баз данных — ключевые требования для любых современных веб-сервисов и приложений. А наличие этих требований по умолчанию, без дополнительной головной боли — мечта для любого бизнеса. Или не мечта, а реальность? Selectel предлагает одни из лучших облачных баз данных на рынке и берет эти на заботы на себя:
● предоставляет высокую производительность за счет оптимальной настройки ПО, подбора мощного железа и локальных NVMe-дисков;
● обеспечивает резервное копирование. Бесплатные бэкапы создаются автоматически, а восстановление данных происходит вплоть до секунды;
● гарантирует отказоустойчивость. Создать отказоустойчивый кластер можно всего от двух нод, что позволяет сэкономить до 33% стоимости ресурсов;
● дает возможности для быстрого масштабирования. При росте нагрузки можно поменять конфигурацию облачного сервера и количество реплик без простоя.
● заботится о безопасности: сервис соответствует российским и международным стандартам — закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018 и ГОСТ Р 57580.
Развернуть готовые к работе кластеры облачных баз данных в несколько кликов: https://slc.tl/895qj
Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzqvPNLZJ
🧠 Oh sh**, here we go again.
Alibaba релизнули еще одну модель: Qwen2.5-Max
- MoE
- предварительно обученная на масштабных датасетах и пост-обученная с помощью SFT и RLHF
- превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench, GPQA-Diamond
📖 Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
💬 Chat: https://chat.qwenlm.ai (choose Qwen2.5-Max as the model)
⚙️ API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
🤗 HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
@ai_machinelearning_big_data
#Qwen #ml #llm #Alibaba
🌟 Обучение нейросети поиску локаций по самым непонятным запросам: опыт API Яндекс Карт
Команда API Яндекс Карт поделилась тем, как модернизировала Геокодер. Это инструмент, который способен найти точную локацию по запросу "Мяснитская 8" или вообще "Келес ауданы Сыртав 2".
Инженеры построили весь Геокодер с помощью deep learning, который:
- Работает даже с опечатками и народными названиями
- Понимает адреса на разных языках
- Запускается в новой стране за пару недель
- Использует под капотом контрастивное обучение, active learning, аугментацию и LLM-генерацию
- Показывает результат на 14% точнее предыдущей версии
По заверениям разработчиков, чтобы поддерживать такой Геокодер, достаточно всего пять ML-инженеров.
⭐️ Как это работает и что под капотом — читайте на Хабре.
▪️Статья
@ai_machinelearning_big_data
#ai #ml #machinelearning #deeplearning
⚡️NVIDIA выпустили Eagle 2 — 1B, 2B и 9B VLM.
Eagle 2 - это обновление семейство мощных vision language моделей.
Модель 9B превосходит GPT4o ChartQA, OCRBench и MathVista, а также Llama 3.2 Vision 90B и llava 70B 🔥
Может работать с длинным контекстом, поддерживает 4K, HD.
> Eagle2-9B превосходит InternVL2-8B и MiniCPM-v2.6 по всем 14 тестам
> Он превосходит Qwen2-VL-7B в 9 из 14 тестов и превосходит его в OpenCompass
> Конкурирует с более крупными моделями, такими как InternVL2-26B, LLaVa-OneVision-72B и LLaMa-3.2-90B-Vision
> Eagle2-9B превосходит GPT-4o на ChartQA, OCRBench и MathVista и близок к GPT-4o на DocVQA, MMStar, AI2D и OpenCompass
> В открытом доступе выложены модель и чекпоинты
🤗Hf: https://huggingface.co/collections/nvidia/eagle-2-6764ba887fa1ef387f7df067
@ai_machinelearning_big_data
#eagle #nvidia #vision #ml #ai
⭐️ The Illustrated DeepSeek-R1
Одно из лучших иллюстрированных объяснение внутренностей DeepSeek-R1.
▪ Читать
⭐️ Видео генератор Pika 2.1 официально выпущен — поддерживает разрешение 1080p и генерирует более согласованные и детализированные на видео.
▪ Попробовать
⭐️ DeepSeek-R1 теперь может работать в 1.58-битном режиме, оставаясь при этом полностью функциональным. Умельцы из Unsloth AI уменьшили размер модели 671B с 720 ГБ до 131 ГБ - это на 80 % меньше.
Наивное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе. Их динамические кванты решают эту проблему.
1,58-битный квант помещается в 160 ГБ VRAM (2x H100 80 ГБ) для быстрого вывода со скоростью ~140 токенов/сек.
Изучив архитектуру DeepSeek-R1, разработчики выборочно квантовали определенные слои в более высокие биты (например, в 4-битные), а большинство слоев MoE оставили в 1,5 бита.
▪Бенчмарки + блог
▪GGUF (131-212 ГБ) на Hugging Face:
⭐️ YuE (乐) - новая мощная модель генерации музыки с открытым исходным кодом! 🎵 Поддерживает преобразования текста в песню (как Suno.ai) с поддержкой различных жанров, вокала и множества языков. Модель совместима с Hugging Face и LLAMA.
▪Код
▪Демо
⭐️ Qwen 2.5-VL – обновленная визуальная модель, доступная в трех размерах: 3B, 7B и 72B параметров.
▪Qwen-2.5-VL
▪Qwen-2.5-1M
⭐️Netflix выпустили Go-with-the-Flow
Netflix выпустили новый алгоритм искажения шума для генерации видео, достаточно быстрый, чтобы работать в реальном времени, который заменяет случайную временную гауссиану на коррелированный искаженный шум, полученный из полей оптического потока, который сохраняет при этом пространственную гауссиану. Эффективность алгоритма позволяет тонко настраивать современные модели диффузии видео с минимальными расходами и предоставляет универсальное решение для широкого спектра управления движением на видео. Обширные эксперименты и исследования демонстрируют преимущества метода, делая его надежным и масштабируемым подходом для управления движением в диффузионных моделях видео.
▪HF
▪Github
⭐️ «Awesome DL-Based MRI Reconstruction» - новый Awesome репозиторий, содержащий ресурсы, инструменты и научные статьи, посвященные использованию глубокого обучения для ускорения получения магнитно-резонансных изображений. Созданный для обмена знаниями и сотрудничества, он служит важным руководством для исследователей и медиков со всего мира.
▪ Github
@ai_machinelearning_big_data
#ai #ml #news #llm #deepseek #Netflix #Qwen #Pika #news #ainews
⚡️ Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
@ai_machinelearning_big_data
#ai #ml #digest #china #deepseek #Alibaba
💥Релиз Qwen2.5-1M!
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Модель 14B-1M выигрывает у гораздо более крупной модели Qwen 2.5 Turbo (предположительно MoE с тем же количеством активных параметров).
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@ai_machinelearning_big_data
#qwen #opensource #ml #llm
🌍 WebRover – это автономный ИИ-агент , предназначенный для взаимодействия с элементами веб-страниц и выполнения пользовательских запросов.
Агент построен на базе LangChain и LangGraph и в первую очередь создан, чтобы освободить пользователей от рутины, связанной с поиском и сбором информации.
Благодаря глубокому пониманию контекста и способности автоматически определять нужные элементы, WebRover эффективно справляется даже со сложными задачами.
Основные возможности WebRover включают:
- самостоятельную навигацию по сайтам, управление состоянием через LangGraph и автоматизированное взаимодействие с браузером посредством Playwright.
- агент способен анализировать содержимое страниц, делать скриншоты и формировать структурированные ответы и парить информацию.
Особенности
🤖 Навигация на основе GPT-4 для понимания контекста и интеллектуальной навигации по веб-сайтам
🎯 Интеллектуальное обнаружение элементов: Автоматически идентифицирует и взаимодействует с любыми элементами сайтов
📸 Визуальная обратная связь: Визуализация процесса навигации в реальном времени
🔄 Автономная работа: Самокорректирующаяся навигация со стратегиями обратного ходаgit clone https://github.com/hrithikkoduri18/webrover.git
cd webrover
cd backend
▪ Github
@ai_machinelearning_big_data
#aiagents #ai #ml #opensource
⚡️ Китай продолжает выпускать новые МОЩНЫЕ и ДЕШЕВЫЕ модели искусственного интеллекта!
Материнская компания Tik-Tok, ByteDance, выпустила Doubao-1.5-pro.:
🔸На бенчмарках с GPT-4o они идут рука об руку
🔸Экономичная цена:
- 0,022 доллара за миллион кэшированных токенов
- 0,11 доллара за миллион токенов
- 0,275 доллара за миллион выходных токенов
🔸Преимущество в стоимости:
- в 5 раз дешевле, чем DeepSeek
- Более чем в 200 раз доступнее, чем OpenAI o1
🔸Особенности:
- контекстное окно размером 32k + 256k
✅Архитектура: Для повышения эффективности используется MoE
✅ Влияние на рынок: Этот шаг является частью широкой китайской инициативы в области искусственного интеллекта от ByteDance и DeepSeek для доминировали на ИИ рынке
https://team.doubao.com/zh/special/doubao_1_5_pro
#Doubao #llm #ml #ai #release
🖥 Cuda-120-Days-Challenge
Гайд 120-дневной программы обучения CUDA для всех, кто хочет углубиться в программирование на GPU.
Это структурированный, ежедневный план, охватывающий потоки, управление памятью, параллелизм и отладку и многое другое.
Урок на каждый день включает в себя:
- Разбор основной темы занятии
- Практическое упражнение / мини-проект
Разбор ошибок при отладке кода
- Рекомендованные ресурсы
▪Github
▪CUDA C Programming Guide
▪CUDA Toolkit Reference
▪CUDA Best Practices Guide
▪ Бесплатный 12-ти часовой курс по CUDA от freeCodeCamp
@machinelearning_interview - материалы для мл собеса
#cuda #nvidia #freecourse #opensource #tutorial
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
Data Science: t.me/data_analysis_ml
Python: t.me/pythonl
МАШИННОЕ ОБУЧЕНИЕ: t.me/machinelearning_interview
C++ t.me/cpluspluc
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_ru
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
⭐️ Mistral AI только что дропнули Small 3!
Вот все, что вам нужно знать:
- 24B параметров
- 81% точности на MMLU и задержка 150 токенов/с
- Позиционируется как замена GPT-40-mini
- Конкурирует с Llama 3.3 70B и Qwen 32B
- в 3 раза быстрее, чем Llama 3.3 70B
- Лицензия Apache 2.0
- Доступны как предварительно обученные, так и настроенные контрольные точки
- без RL и без синтетических данных
- Доступно на la Plateforme, HF и других провайдерах
Великолепная маленькая модель, которая дополняет другие более крупные модели, такие как DeepSeek-R1.
▪HF: https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
▪Blog: https://mistral.ai/news/mistral-small-3/
@ai_machinelearning_big_data
#mistral #llm #ml #ai
⭐️ Вышел PyTorch 2.6 !
В релиз добавлено много улучшений:
🔥 torch.compile теперь поддерживает Python 3.13
🔥 Новый torch.compiler.set_stance
🔥 Улучшения в AOTInductor
🔥 Поддержка FP16 на процессорах X86.
🟢 Релиз
⭐️ OpenAi поделились результатами раннего тестирования o3. Они превосходят практически всех экспертов-людей.
Сегодня утром был опубликован Международный отчет о безопасности искусственного интеллекта, и OpenAI поделилась предварительными результатами тестов o3.
«значительно более высокие показатели, чем у любой предыдущей модели, в ряде самых сложных тестов в области программирования, абстрактного мышления и научного мышления»
🟢International AI Safety Report
⭐️ Цукерберг хайлатит основные моменты из отчета о финансовых результатах:
- LLama 4 и LLama 4 mini (на претренинге)
- Подтверждает ризонинг в LLaMa!
- Llama 4 будет изначально мультимодальной
- это омни-модель
- она будет иметь агентские возможности.
- 👓 — идеальный форм-фактор для ИИ
- строительство центра обработки данных размером с Манхэттен
⭐️ DeepSeek был взломан — все данные, чаты, секретные ключи и бэкенд-системы оказались слиты.
Компания Wiz Research обнаружила «DeepLeak» — общедоступную базу данных ClickHouse, принадлежащую DeepSeek, которая раскрывает крайне конфиденциальную информацию, включая секретные ключи, текстовые сообщения чата, сведения о бэкэнде и журналы.
⭐️ Codegen - новая открытая библиотека Python для работы с кодом.
Codegen - это новый SDK к мощному многоязычному языковому серверу,
Который позволяет делать рефакторинг, применение паттернов, анализ целых проектов и т. д.
🟢Docs: 🟢 Github: 🟢 Community:
⭐️ Microsoft сделали модель R1 от DeepSeek доступной на Azure AI и GitHub. Microsoft на удивление быстро предоставила R1 своим клиентам Azure и планирует выпустить ее уменьшенную версию для Copilot+.
🟢Новость
🍪 Luma LabsAI обновили свой генератор видео Ray2. Теперь он поддерживает вывод 1080p и апскейлинг до 4k!
🟢Dream machine
❄ Трамп предложил ввести 100%-ные пошлины на микросхемы, произведенные на Тайване. Эти меры направлены на то, чтобы вернуть производство полупроводников в США.
Несмотря на открытие завода в Аризоне, TSMC по-прежнему производит большую часть своих чипов на Тайване.
А поскольку чипы TSMC обычно отправляются в Китай и другие азиатские страны для сборки, прежде чем попасть в США, эти пошлины в случае их введения могут привести к росту стоимости такой электроники, как iPhone, игровые графические процессоры и ноутбуки.
⭐️ Atla Selene Mini - новая мощная маленькая модель 8B (SLMJ).
- превосходит лучшие малые модели в задачах оценки на 11 бенчмарках
- превосходит GPT-4o в RewardBench и EvalBiasBench
- отлично работает в реальных приложениях
🟢Ссылка
⭐️Выпущены гайды по работе с Qwen2.5-VL!
Коллекция записных книжек, демонстрирующих варианты использования Qwen2.5-VL, включая локальную модель и API. Примеры включают в себя использование вычислений, пространственное понимание, разбор документов, мобильный агент, распознавание текста, Универсальное распознавание, понимание видео.
🟢Cookbook
@ai_machinelearning_big_data
#pytorch #pytorchrelease #opensource #LLama #LLama4 #openai #chatgpt #ai #news #ml #llm #ainews #LumaLabsAI #Microsoft #DeepSeek
🔔Разработка искусственного интеллекта может принести вам не только научное признание, но и денежный приз!
Конкурс Data Fusion Awards в этом году впервые объявляет номинацию «Научный прорыв года в ИИ». Российские ученые, которые публикуют статьи по вопросам ИИ или науки о данных в 2024 году, могут претендовать на один из трех призов по 1 000 000 рублей.
Срок подачи заявок: до 31 января 2025 года.
🔥Церемония награждения состоится 16-17 апреля в Москве на конференции Data Fusion.
➡️ Узнайте подробности
💡 Distilabel
Мощный фреймворк Python для создания синтетических данных для AI и не только для этого
Помимо создания синтетических данных, Distilabel помогает организовать сложные конвейеры обработки данных;
эти конвейеры могут содержать любое количество разных шагов.
Позволяет легко синтезировать и оценивать данные с помощью встроенных инструментов. Отлчиный инструмент для улучшении данных и обучении моделей.
Процесс прост:
- Вводим запрос.
- Два LLM генерируют ответы
- LLM-судья оценивает полученные ответы
- Лучший ответ сопоставляется с изначальным вопросов.
И что самое интересное? Все это с открытым исходным кодом. Лицензия позволяет использовать результаты модели для улучшения других моделей.
▪ GitHub
▪ Доки
@ai_machinelearning_big_data
#Distilabel #python #ai #openai #python #ai #syntheticdata #ml
⭐️ Хотите повторить момент озарения (Ahah-moment) DeepSeek всего за 30 долларов ? 🔥 😳
Исследователи из Беркли воспроизвели Ahah-moment в задачах на обратный отсчет и умножение.
Благодаря RL их модель LM 3B самостоятельно развивает способности к самопроверке и поиску.ю правильного ответа.
▪ Github▪Полный лог эксперимента ▪Тред
⭐️ На HF только что появились два новых ризонинг датасета.
1. OpenThoughts: 114 тыс датасет, полученный из R1 по математике, кодингу и другим наукам
2. R1-Distill-SFT: 1.7M, полученный из R1-32B на NuminaMath и Tulu data
⭐️Early Exploration of Multimodal R1⚡️
lmmslab провели интересное исследование мультимодальной R1, используя математически-ориентированные обучающие примеры RL* и *натренированные модели GRPO*.
▪Github ▪Dataset ▪Wandb Logs
⭐️ ИИ модель искусственного интеллекта под названием ESM3 смоделировала 500 миллионов лет эволюционных процессов, чтобы открыть новый белок под названием esmGFP.
Этот новый флуоресцентный белок, похожий на белки, обнаруженные у медуз, может найти применение в медицине.
Он существует только в виде цифровой последовательности и существенно отличается от известных белков.
Исследователи из компании EvolutionaryScale опубликовали результаты, которые сейчас проходят рецензирование.
Новые методы белковой инженерии могут произвести революцию во многих областях, включая разработку новых лекарств.
Флуоресцентные белки, такие как esmGFP, уже используются в исследованиях для визуализации биологических процессов.
ИИ значительно ускоряет этот процесс и расширяет возможности модификации белков.
▪Подробнее
⭐️ Альтернативные провайдеры DeepSeek V3
Официальный API DeepSeek сбоит уже почти сутки, так что многие пользователи ищут варианты.
▪Вот список открытых и не очень альтернатив.
⭐️ Stable Flow: Vital Layers for Training-Free Image Editing
Релиз кода для Stable Flow - метода, не требующего обучения, который позволяет выполняет различные типы операций по редактированию изображений (например, редактирование, добавление, замена объектов) с помощью моделей потока.
▪Github ▪Paper ▪Video
⭐️ Основатель Twitter Джек Дорси представил ИИ-агента Goose, который способен автоматизировать множество рутинных задач разработчика. Goose может: писать и запускать скрипты, делать скриншоты, редактировать файлы и тексты, исправлять ошибки в коде, генерировать целые проекты с нуля и тд. Агент доступен для бесплатного использования на локалке🪿
▪Установить ▪Github
@ai_machinelearning_big_data
#rl #ml #experiment #deepseek #reasoning #education #llm #news #ainews #ai
🤗 Inference Providers on the Hub!
С сегодняшнего дня вы можете получить доступ к тысячам моделей, таким как DeepSeek R1, Llama, Flux, Whisper и прямо из Hugging Face!
https://huggingface.co/blog/inference-providers
#huggingface #ml #providers
🖥 Manim — это мощная библиотека на Python для создания анимаций математических и научных концепций!
💡 Она позволяет визуализировать сложные идеи с высокой точностью и гибкостью, используя код для определения сцен, объектов и их взаимодействия. Manim широко используется в образовательных целях и для создания объясняющих видео. Библиотека поддерживает анимацию графиков, формул, геометрических фигур и других визуальных элементов.
🔐 Лицензия: MIT
🖥 Github
@pythonl
🖤 80 Open Source инструментов для ИИ от российских разработчиков
ICT.Moscow выпустили подборку отечественных Open Source проектов для разработки ИИ: здесь библиотеки и фреймворки для ML, готовые нейросети, датасеты для обучения и методы оптимизации.
Какие решения популярные вошли в подборку:
- YaFSDP позволяет ускорить обучение моделей ИИ за счет оптимизации хранения промежуточных весов и вычисления их градиентов.
- Yandex Cloud ML SDK помогает в использовании платформы AI Studio, в частности взаимодействовать с моделями и эмбеддингами — векторными представлениями текста.
- ReBased позволяет создавать большие языковые модели, быстро обрабатывающие длинные тексты.
- Платформа YTsaurus позволяет управлять кластерами графических процессоров, на которых проводится обучение моделей.
▪️ Статья
@ai_machinelearning_big_data
#opensource #ml #ai
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.
Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.
https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
@ai_machinelearning_big_data
#ai #deepseek #opensource #Janus
💰 Банк Китая выделит 1 триллион юаней (137 миллиардов долларов) в течение 5 лет для противостояния США в гонке искусственного интеллекта.
Это прямой ответ на проект «Звездные врата».
Евросоюз: максимум, что мы можем сделать, — это выделить 10 миллиардов на ИИ регулирование.
#ai #news #stargate #llm
📕 Think Stats: Бесплатная книга по статистике.
Think Stats - это введение в теорию вероятностей и статистику для Python программистов и датасаентистов.
Каждая глава доступна в виде блокнота Jupyter ноутбука, в котором можно запускать код и решать упражнения ✔
⭐️ Книга доступна по лицензии Creative Commons, что означает, что вы можете свободно читать, копировать и распространять при условии указания ссылки на источник и не использования в коммерческих целях.
▪ Книга
▪Github
@ai_machinelearning_big_data
#freebook #ml #probability #book #opensource #practice #книганедели
🖤 Open R1
Разработчики с Hugging Face решили повторить полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥
Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.
Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.
▪ Github
@ai_machinelearning_big_data
#opensource #DeepSeekR1 #huggingface #OpenR1
На фоне роста ипотечной ставки и изменения курса $ россияне по рассрочке скупают объекты в ОАЭ.
Рассрочка беспроцентная, дается на срок от 2 до 8 лет с первым взносом в 10% от стоимости.
Например, можно взять квартиру у моря с террасой и бассейном, чтобы жить или сдавать в аренду. Доход здесь в валюте и не облагается налогом.
Подписывайтесь на самый большой канал о рынке недвижимости Эмиратов от аналитика Андрея Негинского (он на фото) и скачивайте в закрепе каталог из 20 таких проектов с описанием и ценами.
🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.
Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.
Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.
Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.
Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.
Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.
Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.
Тестовые GatedDeltaNet-H1 и GatedDeltaNet-H2
дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.
Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.
🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github
📌Лицензирование:
🟢Некоммерческое использование: Nvidia Source Code License-NC
🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing
🟡Arxiv
🟡GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #GatedDeltaNet
🤖 Quantum Swarm
Quantum Swarm (QUARM) - это мощная мультиагентная система, которая обрабатывает запросы с помощью скоординированного роя специализированных ИИ-агентов.
Каждый агент играет уникальную роль в анализе и ответе на запросы пользователей, предоставляя свой вариант ответа на поставленную задачу.
✨ Особенности
Сложные запросы обрабатываются несколькими специализированными агентами:
- Система Query Triage: Определяет сложность каждого запроса
- Интерпретатор запросов: Разбирает и анализирует запросы
- Специалист по исследованиям: Определяет ключевые области для исследования
- Критический анализатор: Оценивает информацию и выявляет пробелы
- Творческий исследователь: Генерирует новые варианты решения задачи
Синтезатор информации: - Объединяет идеи в последовательные ответы
🚀 Поддерживает различные интерфейсы:
- Поддержка CLI
- Простая Интеграция с Telegram-ботми
- RESTful API с поддержкой потоковой передачи данных
- Поддержка веб-интерфейса
🚨 Расширенные возможности:
- Потоковая передача ответов в реальном времени
- Память диалогов с автоматической очисткой
- Настраиваемые параметры агента
- Поддержка нескольких LLM-провайдеров (OpenAI, Groq, Heurist)
- Поддержка CORS для веб-интеграции
Установка:git clone https://github.com/QuarmFW/Quarm.git
cd quarm
▪ Github
@ai_machinelearning_big_data
#python #ai #ml #aiagents #agents #aiswarm