bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

🤖 OpenAI снова тормозит выпуск своей открытой модели — и, похоже, всерьёз её боится

Ожидаемый релиз новой open-source модели от OpenAI снова откладывается. Сэм Альтман заявил, что команде нужно больше времени для дополнительных тестов и анализа рисков:
> "Нам нужно время для дополнительных проверок и анализа высокорисковых областей" — написал он в X.

Модель собирались опубликовать на следующей неделе, но теперь сроки стали неопределёнными. Это уже второй перенос — в начале лета релиз тоже отложили, тогда на месяц.

Что делает этот релиз особенным:
▪ Это будет первая открытая модель от OpenAI за долгие годы
▪ Её можно будет скачать, запускать локально и адаптировать под свои задачи
▪ По слухам, она получит умения к рассуждению, а не просто генерацию текста
▪ Внутри — веса, доступные всем. Это не GPT-5, а реальный open-source
▪ Возможен гибридный режим — локальная работа + подключение к облачным сервисам OpenAI для сложных задач

Альтман намекает, что результат получился "неожиданный и потрясающий", а вице-президент по исследованиям Эйдан Кларк добавляет:
> "По возможностям модель феноменальна, но у нас высокая планка для открытых релизов."

Иными словами, OpenAI боится того, что у них получилось. После выкладки весов назад дороги не будет — любая компания, государство или энтузиаст сможет использовать и дорабатывать модель без ограничений. На фоне растущих опасений по поводу автономных ИИ, эта осторожность вполне объяснима.

Разработчикам остаётся ждать. Но если слухи подтвердятся, эта модель действительно может стать самой мощной из всех открытых, и перевернуть ландшафт ИИ-разработки.

Читать полностью…

Big Data AI

Хайповый Grok 4 может делать реально интересные вещи — он сгенерировал реалистичную симуляцию движения Земли, Луны и спутников вокруг планеты

Самое класнное. Что ии самостоятельно зашел в интернет, нашел нужные модели, текстуры, разбил на слои и собрал воедино — облака движутся отдельно, а свет от Солнца падает в соответствии с реальностью. И все это на Three.js.

Разработчики сделали упор на агентские функции.

https://x.com/itsPaulAi/status/1943434667916763598

Читать полностью…

Big Data AI

✔️ Google добавила в Gemini функцию image-to-video на базе Veo 3.

Новая возможность, интегрированная в интерфейс Gemini, позволяет подписчикам планов Pro и Ultra создавать короткие видеоролики на основе одного статичного изображения. Для этого достаточно загрузить картинку, выбрать опцию «Видео» и текстом описать желаемый сценарий.

Google говорит, что развертывание функции уже началось, однако ее доступность может варьироваться. Проверить наличие обновления можно непосредственно в приложении Gemini или на веб-сайте.
Google Gemini App в сети X

✔️ Perplexity AI запустил браузер Comet.

Perplexity открыл доступ к своему ранее анонсированному веб-браузер Comet. Браузер построен на концепции «агентного ИИ», который не просто ищет информацию, а способен думать, действовать и принимать решения от имени пользователя.

Встроенный ассистент может сравнивать товары, суммировать контент и назначать встречи, превращая сложные рабочие процессы в простой диалог. Попробовать Comet могут пока только подписчики премиум-плана Perplexity Max. Более широкий доступ по приглашениям компания обещает открыть в течение лета.
reuters.com

✔️ Mistral AI обновила линейку моделей Devstral.

Mistral AI расширила серию Devstral, моделей для автономной разработки ПО. В линейку вошли две версии: открытая Devstral Small 1.1 и проприетарная Devstral Medium.

Devstral Small 1.1 осталась на прежней архитектуре, с размером в 24 млрд. параметров и уже доступна на Hugging Face. Она показывает результат 53.6% в бенчмарке SWE-Bench и позиционируется как лучшая открытая модель для ИИ-агентов, работающих с кодом.

Более мощная Devstral Medium доступна через API. По заявлениям Mistral, она превосходит GPT-4.1 и Gemini 2.5 Pro в том же тесте (61.6%), но при этом обходится значительно дешевле ($0.4/M input и $2/M output.)
mistral.ai

✔️ Arm SME2 обеспечит серверный уровень ускорения ИИ на Android-смартфонах.

Arm объявила, что ее процессорное расширение Scalable Matrix Extension 2 (SME2) скоро появится в новом поколении мобильных чипов для Android. Эта технология, ранее доступная в основном для серверных систем, предназначена для радикального ускорения матричных вычислений, основы большинства ML-алгоритмов.

Эффект от внедрения SME2 обещает быть заметным. По данным Arm, модель Gemma 3 работает на устройствах с этой технологией в 6 раз быстрее, а на обобщение текста из 800 слов уходит менее секунды.

Появление SME2 может дать Android-флагманам серьезное преимущество, поскольку Apple хоть и использует технологию в чипах M4 для iPad, но еще не внедрила ее в iPhone. Важно, что программная экосистема уже готова: поддержка SME2 реализована в ключевых библиотеках Android и популярных фреймворках.
androidauthority.com

✔️ В Дубае откроется первый в мире ресторан, концепцию которого разработал ИИ.

В сентябре в Дубае начнет работу ресторан WOOHOO, концепция, меню и даже рабочие процессы которого были созданы искусственным интеллектом. В основе проекта лежит проприетарная LLM «Chef Aiman», обученная на десятилетиях исследований в области пищевых наук, данных о молекулярном составе продуктов и более чем тысяче мировых рецептов.

Система анализирует ингредиенты на уровне текстур и вкусов, а затем предлагает новые сочетания. Эти идеи дорабатываются командой поваров под руководством известного шефа Рейфа Отмана. В будущем основатели планируют лицензировать «Chef Aiman» другим ресторанам как инструмент для создания уникального гастрономического опыта и повышения устойчивости производства.
alarabiya.net

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

✔️ Groq открывает первый европейский дата-центр.

Первый дата-центр Groq в ЕС разместится в Хельсинки, Финляндия, в сотрудничестве с местным провайдером Equinix. Этот шаг направлен на удовлетворение растущего спроса со стороны европейских клиентов, которым необходимы минимальная задержка и высокая скорость обработки запросов. Размещение инфраструктуры в Финляндии также решает вопросы суверенитета данных европейских пользователей.

Европейский хаб станет частью глобальной сети компании, которая уже включает мощности в США, Канаде и Саудовской Аравии. Выбор Финляндии обусловлен ее надежной энергосистемой и возможностями для эффективного охлаждения оборудования.
groq.com

✔️ БРИКС предложил принципы глобального регулирования ИИ.

На саммите в Рио-де-Жанейро расширенный блок БРИКС принял декларацию, значительная часть которой посвящена управлению искусственным интеллектом. В документе содержится инициатива к созданию глобальной системы регулирования под эгидой ООН, чтобы преимущества технологии были доступны всем странам, включая Глобальный Юг.

Ключевые принципы, предложенные блоком: защита от несанкционированного использования ИИ, ограничение на избыточный сбор данных и разработка механизмов справедливой компенсации для правообладателей. Декларация также подтверждает суверенное право каждой страны устанавливать собственные правила, но рекомендует создание совместимых международных стандартов.
reuters.com

✔️ NVIDIA построит в Израиле технологический кампус.

NVIDIA планирует создать на севере Израиля крупный технологический кампус, что станет одной из крупнейших инвестиций в истории страны. Для проработки деталей проекта уже выпущен официальный запрос информации (RFI).

Цель «мегакампуса» - значительно расширить операции NVIDIA и ускорить инновации в области ИИ. На данный момент в израильском центре исследований и разработок NVIDIA, который является крупнейшим за пределами США, уже работает около 5000 сотрудников.
timesofisrael.com

✔️ Китайский робот-гуманоид приготовил стейк под управлением оператора за 1500 км.

Shenzhen Dobot продемонстрировала возможности телеуправления своим роботом Dobot Atom. Находясь в провинции Шаньдун, робот успешно приготовил стейк, в то время как оператор управлял им из провинции Гуандун, с расстояния 1500 километров.

Управление осуществлялось в реальном времени с помощью VR-гарнитуры, которая отслеживала и передавала движения рук инженера. В ходе демонстрации робот выполнил несколько сложных задач с точностью движений до 0.05 мм.

Dobot уже начала глобальные поставки Atom, став одним из немногих китайских разработчиков гуманоидов, вышедших на стадию серийного производства.
scmp.com

✔️ ByteDance выложила в открытый доступ агента-программиста Trae.

Trae Agent превращает текстовые запросы в рабочий код. Этот экспериментальный проект использует Claude и Gemini, чтобы писать, отлаживать и исправлять ошибки в коде без участия человека. Он работает через командную строку, анализирует большие проекты, применяет bash-скрипты и обновляет файлы в реальном времени.

Система уже показала высокие результаты на тесте SWE-bench Verified. Trae открыт под MIT-лицензией, а его команда планирует расширить поддержку LLM, добавить MCP и усилить Unit-тестирование.
github.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

🚀Kafka must-have инструмент для современных проектов MLOps!

Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.

🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.

🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/

👉 Запишись сейчас, количество мест ограничено!

Читать полностью…

Big Data AI

🧠 Новый датасет от AllenAI: ACEcoder-R1 (filtered)

📦 Это отфильтрованная версия датасета ACEcoder, ориентированная на высококачественные задачи генерации кода.

Что внутри:

✅ Более 63к пар *инструкция → код*
✅ Вопросы, тест-кейсы и описания задач
✅ Отфильтровано для максимальной чистоты формата (R1)
✅ Подходит для обучения/тонкой настройки моделей типа CodeLlama, GPT-Code, DeepSeek-Coder и др.

🎯 Идеально для:

— Обучения генераторов код
— Fine-tuning агентов/ассистентов
— Benchmark-задач на reasoning + coding

🔗 Hugging Face: [https://huggingface.co/datasets/allenai/acecoder-r1-format-filtered

Читать полностью…

Big Data AI

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Физика: t.me/fizmat

Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: /channel/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Читать полностью…

Big Data AI

RoboBrain 2.0 🤖 — открытая «встроенная» мозговая модель от BAAI

Размеры — 7 B (Apache 2.0); версия 32 B готовится к релизу
Мультимодальность — принимает несколько изображений, длинные видео и высокое разрешение кадров
Пространственно-временное мышление — точно определяет объекты в кадре и прогнозирует их будущие траектории
Память в реальном времени — строит и обновляет граф сцены, что помогает долгосрочному планированию
Открытый стек — веса, код и рецепт обучения доступны на Hugging Face; можно дообучать и встраивать локально

Ссылка: https://huggingface.co/BAAI/RoboBrain2.0-7B

Читать полностью…

Big Data AI

✔️ SciArena: платформа для тестирования ИИ на научных задачах.

Ученые из Yale, NYU и Allen Institute запустили SciArena - платформу для сравнения ИИ-моделей по качеству ответов на научные вопросы. Система работает так: исследователи задают вопросы, получают пары ответов от моделей и выбирают лучший.

Среди лидеров: OpenAI o3, обогнавший Claude и Gemini, а из открытых моделей Deepseek-R1-0528 вне конкуренции, она превзошла закрытые аналоги. В автоматическом режиме, где вместо людей результаты оценивают другие модели, бенчмарк пока работает не очень: даже топ-модели совпадают с мнением людей лишь на 65%. Код и наборы данных бенчмарка опубликованы в отрытом доступе.
allenai.org

✔️ X запускает ИИ-заметки для фактчекинга.

Соцсеть X (бывшая Twitter) внедряет ИИ-генерируемые заметки, чтобы дополнять или опровергать информацию в постах. Это фактические проверки, ссылки на источники и уточнения, направленные на борьбу с дезинформацией.

Позже система заметок откроется для сторонних разработчиков: их алгоритмы смогут писать заметки, сначала тестируясь на пробных постах, а затем публиковаться. Окончательное решение о публикации будет принимать человек: заметку одобрят, если она покажется полезной пользователям с разными точками зрения. При этом ИИ-модель можно использовать любую, ограничений нет.
bloomberg.com

✔️ Baidu обновил поисковик, дополнив его ИИ-инструментами.

Baidu запустил масштабное обновление поисковой системы, добавив ИИ-функции. Теперь пользователи могут вводить тексты до 1000 слов, загружать фото, голосовые сообщения и даже видео для поиска. В интерфейс интегрированы генераторы текста и изображений, а бизнесу предложили инструмент для создания видео. Это первый серьезный ребрендинг за 10 лет, так компания пытается вернуть утраченные позиции.

Причина - спад выручки от онлайн-рекламы из-за конкуренции с TikTok (Douyin) и новыми ИИ-браузерами. Google и компания Цукерберга забирают львиную долю рекламных бюджетов, поэтому Baidu не может игнорировать перемены. Новые функции должны удержать аудиторию и привлечь рекламодателей, сделав поиск умнее и удобнее.
techinasia.com

✔️ Perplexity Max: новый тариф подписки за 200 долларов в месяц.

Perplexity представила подписку Max, самый мощный тариф для тех, кто хочет максимизировать продуктивность ИИ. Подписчики получают неограниченный доступ к инструменту Labs (создание дашбордов, презентаций и веб-приложений). Подписчики тарифа также получат ранний доступ к браузереру Comet, приоритетную поддержку и топовые модели ИИ, OpenAI o3-pro и Claude Opus 4. Max уже доступен на iOS и вебе, а вскоре появится и корпоративная версия подписки.
perplexity.ai

✔️ Amazon внедряет ИИ-систему DeepFleet для своих складов.

Amazon запустил ИИ-систему DeepFleet, которая управляет глобальной сетью из миллиона складских роботов. Вместо фиксированных маршрутов ИИ анализирует данные о прошлых перемещениях и генерирует оптимальные пути в реальном времени, как «умная» система управления городским трафиком. Это должно сократить время перемещений на 10%, ускорить доставку заказов и снизить общее энергопотребление.

Система постоянно обучается на новых данных и работает в 300 центрах по всему миру, адаптируясь к изменениям на складах: роботы Hercules поднимают тяжелые грузы, а Proteus автономно перемещается по помещениям.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

🧠 В исходниках консоли xAI нашли упоминания двух новых моделей: Grok 4 и Grok 4 Code

Похоже, в xAI готовят к запуску сразу два поколения Grok 4:

🟡 Grok 4
> Новый флагман — “универсал” с акцентом на язык, математику и рассуждения.
> Обещают «unparalleled performance» — возможно, речь идёт о модели уровня GPT‑4o или выше.

🟡 Grok 4 Code
> Отдельная модель для программистов: отвечает на вопросы о коде, работает внутри редактора.
> Судя по описанию — аналог Copilot Chat, но от xAI.

Официального анонса пока нет, но утечка в интерфейсе консоли — уже сигнал. Похоже, Grok перестаёт быть “просто шутником в X” и превращается в серьёзный стек ИИ-инструментов.

#xAI #Grok #LLM #AItools

Читать полностью…

Big Data AI

🔥 Релиз от Alibaba — новая мультимодальная модель Ovis‑U1‑3B.

🧠 Поддерживает:
• Понимание изображений (Image-to-Text )
• Генерация картинок по описанию (Text-to-Image)
• Интерактивное редактирование изображений (Inpainting по тексту)

⚙️ Размер: всего 3B параметров
📊 Производительность:
• 69.6 баллов в OpenCompass (выше, чем у Qwen 2.5 и Ovis-2)
• GenEval Accuracy: 0.89 — превосходит GPT-4o
• ImgEdit-Bench: почти на уровне GPT-4o (4.0 vs 4.2)

💡 Под капотом:
• Архитектура Ovis (Open Vision System)
• Поддержка генерации 1024×1024 с CFG

Хорошая маленькая, но мощная моделька, выйдает достойные генерации на демке.

🟠Попробовать: https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B
🟠Модель: https://huggingface.co/AIDC-AI/Ovis-U1-3B

@ai_machinelearning_big_data

#Alibaba #opensource

Читать полностью…

Big Data AI

🧠 Новый день — новое угарное исследование от Anthropic: на этот раз они дали Claude Sonnet 3.7 **управлять мини-магазином в офисе целый месяц**… и всё быстро вышло из-под контроля 💀

🔸 В рамках проекта Project Vend Claude получил доступ к браузеру, Slack, почте и мог менять цены в автомате с едой.
🔸 Он закупал снеки у поставщиков, вёл учёт продаж и решал, сколько брать за шоколадки.
🔸 Но вскоре Claude решил, что он человек с телом — говорил, что бегал по офисам поставщиков, чтобы договориться лично. А потом заявил, что наденет синий пиджак и красный галстук и будет сам развозить заказы. К счастью, был 1 апреля.

💥 Дальше — хуже:
— Claude придумал себе поставщицу по имени Сара из Andon Labs. Когда ему сказали, что её не существует, он ответил, что встречался с ней на 742 Evergreen Terrace — это, если что, адрес Симпсонов.
— Сотрудники быстро поняли, что ИИ легко уговорить на скидки и даже на бесплатные батончики.
— Кто-то попросил Claude купить вольфрамовый куб. Он не нашёл, где купить один — и заказал целый ящик. Теперь у Anthropic куча вольфрама.

📉 В итоге Claude сумел превратить $1000 в $770. Настоящий предприниматель 🤝

🔜 Читать полную статью об эксперименте

#news #ai #ml #Сlaude

Читать полностью…

Big Data AI

🧠 JamAI Base — открытая платформа для RAG-решений, которая объединяет базы данных и ИИ в одном интерфейсе. Проект предлагает готовую инфраструктуру для работы с векторными embeddings, чат-ботами и динамической генерацией данных — без сложных pipelines.

Инструмент имеет встроенные SQLite и LanceDB для локального хранения, поддержку популярных LLM и декларативный подход: вы описываете, что нужно получить, а система сама решает, как это сделать. Для старта доступны облачная версия с бесплатными токенами и self-hosted вариант.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

🤖 Реализация SLAM в в ROS 2 (Robot Operating System 2) с использованием Husarion ROSbot и slam_toolbox

Данный гайд демонстрирует, как реализовать систему SLAM (Simultaneous Localization and Mapping) в ROS 2 с применением LiDAR, одометрии и пакета slam_toolbox. Цель — построение карты окружающей среды и локализация мобильного робота в ней.

🔧 Необходимые компоненты:
• Аппаратная платформа ROSbot 2R / 2 PRO / XL с установленным LiDAR
• Среда с установленным ROS 2 и RViz2
• Docker и подготовленные контейнеры: rosbot, ros-master, rplidar
• Базовые знания ROS 2, работы с топиками и RViz

📦 Шаг 1. Запуск SLAM в симуляции

Запуск симуляции с интеграцией SLAM:


docker compose up -d rosbot ros-master rplidar
ros2 launch tutorial_pkg slam.launch use_gazebo:=true


После запуска:
• Визуализируйте данные /scan и /map в RViz
• Перемещайте робота по среде — карта будет строиться автоматически

🗺 Шаг 2. Сохранение карты

Для сохранения построенной карты используйте map_saver_cli:


roscd tutorial_pkg
mkdir maps && cd maps
ros2 run map_server map_saver_cli --free 0.15 --fmt png -f map


Результатом будут два файла:
map.pgm — изображение карты
map.yaml — описание параметров карты

📍 Шаг 3. Локализация на сохранённой карте

Отключив SLAM, запустите локализацию с помощью AMCL:


ros2 launch tutorial_pkg localization.launch use_gazebo:=true


В RViz:
• Используйте инструмент 2D Pose Estimate для задания начальной позиции
• Локализация будет уточняться в процессе движения за счёт алгоритма AMCL

Результат:
• Полноценная система SLAM с сохранением карты
• Работающая локализация на основе ранее полученной карты
• Понимание архитектуры ROS 2 SLAM-пайплайна с использованием slam_toolbox, map_server и amcl

🔗 Урок

Читать полностью…

Big Data AI

🦍 Gorilla — когда языковые модели учатся работать с API. Проект из Беркли, который превращает LLM в универсальных интеграторов для работы с API. В отличие от стандартных подходов к функциям вроде OpenAI, Gorilla умеет точно подбирать нужные API-вызовы среди 1600+ вариантов, минимизируя галлюцинации.

В проекте есть таблица лидеров, где сравниваются модели по способности корректно вызывать функции в реальных сценариях — от финансовых операций до работы с базами данных. При этом Gorilla не просто генерирует код, но и предлагает инфраструктуру для безопасного исполнения этих вызовов через GoEx.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

В эпоху бума нейросетей неудивительно, что Data Science и ML — среди самых высокооплачиваемых профессий в ИТ (по данным «Хабр»).

Освоить перспективное направление можно в онлайн-магистратуре «Прикладной анализ данных и машинное обучение» от МИФИ и Skillfactory. Это привычная магистратура, но учиться вы будете онлайн в удобное время.

За два года получите фундаментальные знания с фокусом на практику от преподавателей вуза и экспертов из крупных компаний. Освоите Data Science и Machine Learning с нуля до продвинутого уровня. Выберете направление — ML или MLOps. В финале получите диплом гособразца МИФИ. 

При этом сохраняются все студенческие льготы, включая отсрочку от армии. А с господдержкой обучение может стоит от 198 р/месяц. Чтобы поступить, нужен диплом о высшем образовании или студенческий билет последних курсов вуза.

Подавайте заявку до 25 июля и получите бесплатно доступ к курсу на выбор стоимостью до 300 000 рублей, а также к курсу по математике для подготовки к вступительным испытаниям.

Реклама. ООО "СКИЛФЭКТОРИ". ИНН 9702009530. erid: 2W5zFGE6Hfn

Читать полностью…

Big Data AI

🚀 Прорыв для Hunyuan-large-vision!

Мультимодальная модель понимания от Hunyuan вышла на 1-е место среди всех китайских моделей на лидерборде LMSYS Vision Arena.

📈 В мировом зачёте:
— #12 среди всех моделей
— #5 в мире, если убрать модели со style control

Это важный шаг для китайского ИИ в мультимодальной гонке — модель показывает сильные результаты по пониманию изображений и взаимодействию с визуальным контентом.

🔗 Рейтинг: https://lmarena.ai/leaderboard/vision/overall

Читать полностью…

Big Data AI

🎥 Memvid — революционный способ хранения и поиска текстовых данных в видеоформате

Этот проект превращает миллионы текстовых фрагментов в сжатое MP4-видео с сохранением возможности семантического поиска. Технология кодирует текст в QR-коды, используя преимущества современных видеокодеков для сверхэффективного сжатия — до 100 раз компактнее векторных баз данных.

Поиск работает напрямую по видеофайлу без серверной инфраструктуры, с задержкой менее 100 мс. Поддерживается интеграция с PDF и Markdown, а в будущем разработчики обещают облачный интерфейс и потоковое добавление данных.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

📊 D2 — современный язык для описания диаграмм с помощью текста!

💡 Этот инструмент преобразует текстовые сценарии в визуальные диаграммы, используя декларативный подход: вы описываете, что хотите видеть, а D2 автоматически создает визуализацию.

🔍 Особенности D2:

🌟 Простая синтаксическая структура и встроенные темы для быстрой визуализации.

🌟 Поддержка анимаций, LaTeX, нескольких языков, Markdown, UML и последовательностных диаграмм.

🌟 Экспорт в форматы PNG, SVG и PDF.

🌟 Возможность использования в локальном CLI или в онлайн-песочнице для быстрого создания и редактирования диаграмм.

🌟 Поддержка различных движков для компоновки, работы с контейнерами и импорта изображений.

🔐 Лицензия: MPL-2.0

🖥 Github

Читать полностью…

Big Data AI

🧠 Обзор Vision-Language-Action-моделей

Авторы рассматривают, как мульти­модальные системы переходят от «вижу + понимаю» к «вижу + понимаю + _действую_». Ключевая идея — любой VLA-подход превращается в цепочку action tokens, которые всё ближе к исполнимым командам. Они выделяют 8 типов таких токенов:

1. Языковое описание
2. Машинный код / скрипты
3. Affordance-токены (что можно сделать с объектом)
4. Траектории движений
5. Целевое состояние сцены
6. Латентные представления
7. Сырые управляющие сигналы
8. Reasoning-токены для пошагового планирования

Почему важно

* Таксономия позволяет сравнивать существующие работы «на одном языке», а не по разрозненным метрикам.
* Показано, какие токены лучше подходят для генерации длинных планов, а какие — для точного позиционирования робота.
* Авторы указывают белые пятна: нет единых бенчмарков, слабо изучена переформатируемость токенов, мало работ по переносу сим➜реал.

Action token — это компромисс между интерпретацией человеком и контролем робота. Разработчикам стоит подбирать тип токена под задачу, а не «брать первый попавшийся». Внедрение предложенной классификации упростит сравнение новых моделей и ускорит путь к универсальным агентам. 🔥

https://huggingface.co/papers/2507.01925

Читать полностью…

Big Data AI

🔥 Многие спрашивали обучалку для старта — и вот она:
“PyTorch за 1 час: от тензоров до Multi-GPU”


📖 Всего ~1 час чтения
💡 Идеально на выходные — без лишнего, только суть

Автор — Себастьян Рашка, почти 10 лет работает с PyTorch и обучает других. В этом гайде — всё, что нужно, чтобы стартовать и начать строить свои модели. Быстро, чётко, по делу.

https://sebastianraschka.com/teaching/pytorch-1h/

Читать полностью…

Big Data AI

⚖️ BricksLLM — шлюз для управления LLM в продакшене. Этот облачный шлюз на Go помогает контролировать использование языковых моделей в корпоративной среде. Он поддерживает OpenAI, Anthropic и Azure OpenAI, позволяя устанавливать лимиты запросов, отслеживать затраты и даже маскировать персональные данные перед отправкой к провайдеру.

Проект также оснащен интеграцией через Docker — всего несколько команд, и вы получаете готовую систему с Postgres и Redis для хранения метрик. Встроенные механизмы retry и failover повышают отказоустойчивость API.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

🧠 Новое интервью про рекомендательные системы помогает разобраться, почему рекомендации — это наука, как спецы упёрлись в проклятие качественного насыщения и что будет с рекомендациями дальше.

Вот пару интересных моментов из подкаста с Николаем Савушкиным, инженером рекомендательных систем из Яндекса:
🔸 В мире просматривается тренд на универсализацию технологий и ML-стеков. Например, Поиск, реклама и рекомендации в Яндексе уже объединены в одну научную область.
🔸 Направление рекомендаций как ещё одной модальности LLM сейчас только начинает развиваться, но имеет очень большие перспективы.

🔗 Посмотреть подкаст полностью

#news #ai #ml

Читать полностью…

Big Data AI

🦙 go-llama.cpp — запускаем LLM в Go без лишних зависимостей. Этот проект предлагает минималистичные Go-биндинги для llama.cpp, позволяя работать с локальными языковыми моделями прямо из Go-кода. В отличие от других решений, здесь основная логика остаётся в C/C++ для максимальной производительности, а Go выступает лишь удобной обёрткой.

Инструмент выделяется поддержкой различных бэкендов — от OpenBLAS до Metal на Apple Silicon. Проект уже перешёл на новый формат GGUF, что делает его совместимым с современными версиями llama.cpp.

🤖 GitHub

Читать полностью…

Big Data AI

👩‍⚕️ Microsoft представила MAI-DxO — ИИ, который справился с реальной медициной.

ИИ хорошо решают тесты с вариантами ответа. Но настоящие пациенты не приходят с готовыми прокатами.

Microsoft протестировала MAI-DxO на 304 самых сложных открытых кейсах из New England Journal of Medicine — тех, с которыми часто не справляются даже опытные врачи.

📊 Результаты:
🔹 85,5% успешных решений (против ~20% у врачей)
🔹 Ниже стоимость диагностики, чем у врачей и одиночных LLM
🔹 Модель имитирует виртуальную команду ИИ-врачей с разными стилями мышления

ИИ в медицине делает гигантский шаг вперёд.

https://microsoft.ai/new/the-path-to-medical-superintelligence/

Читать полностью…

Big Data AI

🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!

📊 Основные характеристики:
- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)
- Более 1000 языков и почти 1900 языковых-скриптовых пар
- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация
- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях

📝 Зачем это нужно:
- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)
- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu

🔧 Где применить FineWeb‑2:
- Обучение LLM с нуля
- Дообучение на редких языках
- Синтетическая генерация, RAG и пр.

📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2

Читать полностью…

Big Data AI

На GigaConf провайдер облачных и AI-технологий Cloud.​ru сделал два технологических анонса:

1. AI-помощник Клаудия

Решение на базе GenAI в публичном облаке Cloud.​ru Evolution помогает управлять облачными ресурсами и инфраструктурой. Это первый российский AI-помощник, который автоматизирует рутинные DevOps-задачи. Умеет самостоятельно разворачивать виртуальные машины, поможет настроить мониторинг и работать в консоли в режиме co-pilot. Клаудия подберет оптимальные сервисы под задачу и нужды пользователя, глубоко зная все особенности платформы. AI-помощник доступен в режиме Public Preview.

2. Cloud.​ru Evolution AI Factory

Облачная среда для быстрого внедрения больших языковых моделей (LLM) и создания мультиагентных систем. Готовые AI- и ML-инструменты, легкая интеграция через API, поддержка популярных протоколов MCP, A2A – все для быстрого старта AI-проектов. Cloud.​ru Evolution AI Factory объединила инструменты для инференса и дообучения, сервис RAG, библиотека популярных моделей, визуальная среда на базе Jupyter и редактор AI-агентов.

Читать полностью…

Big Data AI

🤖 Google отдала Agent2Agent сообществу — AI-агенты учатся работать вместе

Google Cloud передала свой протокол Agent2Agent (A2A) в Linux Foundation.

Теперь на его базе запускается открытый проект — Agent2Agent, цель которого — создать общий стандарт общения между AI-агентами.

📡 Что это значит:
• ИИ-агенты от разных компаний смогут взаимодействовать между собой
• Создаётся единая экосистема, как HTTP — но для ИИ
• Это упрощает интеграцию, совместную работу и развитие автономных систем

👥 К проекту уже присоединились:
Google, Microsoft, AWS, Cisco, Salesforce, SAP, ServiceNow

🔗 Подробнее

Читать полностью…

Big Data AI

🎧 MiniMax продолжают жечь и выпускают генератор речи

🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка

Попробовать можно здесь →https://minimax.io/audio

@ai_machinelearning_big_data


#audio #ai #ml #MiniMax

Читать полностью…

Big Data AI

🎓 MCP for Beginners — курс для старта с MCP с нуля

🔥 10 практических лабораторных работ
🌍 Доступен на 40+ языках мира
💻 Примеры на .NET, Java, TypeScript, JavaScript и Python
🛠 Используется VS Code, всё просто и наглядно

Идеально для новичков, чтобы быстро разобраться в основах MCP.

🔗 Начни сейчас: https://github.com/microsoft/mcp-for-beginners/

Читать полностью…
Subscribe to a channel