@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🧪 Ragas — инструмент для объективной оценки LLM-приложений.
Платформа предлагает data-driven подход к тестированию языковых моделей, заменяя субъективные оценки точными метриками. С помощью Ragas можно не только анализировать качество ответов, но и автоматически генерировать тестовые датасеты, приближенные к реальным сценариям использования.
Проект выделяется глубокой интеграцией с популярными фреймворками — от LangChain до инструментов мониторинга. Особенно полезен при построении RAG-систем, где важен постоянный контроль качества на основе production-данных.
🤖 GitHub
@bigdatai
👾 Griptape — фреймворк для создания AI-приложений без головной боли. В отличие от популярных решений вроде LangChain, акцент сделан на модульность: можно легко менять провайдеров LLM, векторных БД или инструментов поиска, не переписывая бизнес-логику.
В инструменте есть встроенные механизмы для работы с памятью и готовые движки для частых задач: суммаризации, извлечения структурированных данных и даже оценки качества ответов моделей.
🤖 GitHub
@bigdata_ai
📌 Kor — прототип для извлечения структуры из текста через LLM
Проект имеет интеграцию с LangChain, но предлагает свой подход: вместо JSON-режима или function calling он полагается на шаблонизацию промптов. Это позволяет работать даже с моделями, не поддерживающими новые режимы вроде GPT-4-turbo.
Новая версия 1.0.0 принесла совместимость с Pydantic v2, хотя разработчики предупреждают, что работа может заметно замедлиться
🤖 GitHub
@bigdatai
📦 ML Crate — структурированная песочница для ML-экспериментов. Проект предлагает начинающим чёткий шаблон для своих работ: от датасетов и Jupyter-ноутбуков до готовых веб-приложений на Flask/Streamlit.
Проект предлагает начинающим чёткий шаблон для своих работ: от датасетов и Jupyter-ноутбуков до готовых веб-приложений на Flask/Streamlit.
Важно, что репозиторий не просто хранит код, а учит правильному workflow:
▪️отдельные папки для данных, визуализаций и моделей
◾️обязательные requirements.txt и README-файлы
🔗 GitHub
@bigdatai
✔️ Google представила новые геопространственные модели для анализа данных.
Google анонсировала запуск тестовой программы новых геопространственных и Population Dynamics моделей.
Эти инструменты объединяют генеративный ИИ (под капотом - Gemini), с данными спутниковых снимков и социальными индексами, чтобы ускорить анализ в сферах урбанистики, экологии и кризисного управления.
Модели позволяют находить объекты по описанию («дороги с заторами»), сегментировать ландшафты и предсказывать динамику населения. Интеграция с Google Cloud и Earth Engine дает разработчикам возможность для создания собственных решений — от медиапланирования до мониторинга сельхозугодий.
Первыми тестерами стали Airbus, Maxar и Planet Labs: они используют модели для анализа спутниковых данных в реальном времени. Сейчас доступ к моделям открыт через программу Trusted Tester, а детали Google обещает раскрыть в ближайшие месяцы.
🔗 research.google
@ai_machinelearning_big_data
#google #geospatialreasoning
📒 TabNet — революционный подход к работе с табличными данными. Этот проект предлагает уникальную реализацию нейросетевой архитектуры TabNet на PyTorch, специально разработанной для эффективного анализа табличных данных.
Проект поддерживает все основные типы ML-задач: от бинарной классификации до мультитаргетной регрессии, а его интеграция с scikit-learn делает работу интуитивно понятной даже для новичков.
📌 GitHub
@bigdatai
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
✔️ Google добавила мультимодальный поиск в AI Mode.
Свежее обновление AI Mode в Google Поиске добавило мультимодальные функции — система анализирует изображения, понимая контекст и связи между объектами. Загрузите фото или сделайте снимок через Lens, задайте вопрос — нейросеть на основе Gemini выдаст развёрнутый ответ с рекомендациями и ссылками.
Раньше эта функция была доступна подписчикам Google One AI Premium, но теперь она доступна через Google Labs.
blog.google
✔️ Samsung представила обновление Gemini Live для Galaxy S25 с визуальным ИИ в реальном времени.
С 7 апреля владельцы Galaxy S25 получат бесплатное обновление Gemini Live. Теперь можно обсуждать увиденное через камеру или экран, удерживая боковую кнопку. Например, ИИ подскажет, как организовать шкаф или выбрать одежду, анализируя изображение в реальном времени. Функция доступна бесплатно, но требует подключения к интернету и активации в поддерживаемых странах.
news.samsung.com
✔️ Cloudflare упрощает создание AI-агентов с MCP и бесплатным доступом к Durable Objects.
Cloudflare представила серию обновлений, ускоряющих разработку AI-агентов. Теперь в Agents SDK добавлена поддержка MCP, позволяющая агентам подключаться к внешним сервисам с автоматической аутентификацией и управлением соединениями. Для безопасного доступа интегрированы провайдеры Stytch, Auth0 и WorkOS — это упрощает настройку прав доступа через OAuth 2.1 и гибкие сценарии разрешений.
Новинка в SDK — гибернация для MСРAgent: серверы автоматически «засыпают» при простое, экономя ресурсы, и мгновенно активируются при новых запросах. Для хранения состояния агентов теперь доступны Durable Objects даже на бесплатном тарифе — с поддержкой SQLite и 5 ГБ памяти.
Обновления дополнены примерами готовых MCP-серверов — от управления задачами до анализа кода. Разработчики могут развернуть их через кнопку Deploy и настроить под свои нужды.
blog.cloudflare.com
✔️ Google Sec-Gemini v1: ИИ для кибербезопасности.
Google анонсировал экспериментальную модель Sec-Gemini v1, которая создана для помощи специалистам по кибербезопасности через интеграцию ИИ и актуальных данных об угрозах.
Система объединяет OSV, Mandiant Threat Intelligence и Google Threat Intelligence, обеспечивая анализ в реальном времени. По внутренним тестам Google, модель на 11% эффективнее аналогов в CTI-MCQ (оценка знаний об угрозах) и на 10,5% — в CTI-RCM (поиск первопричин инцидентов). Она ускоряет обнаружение атак, оценку уязвимостей и даже идентификацию хакерских групп.
Sec-Gemini v1 уже доступна бесплатно для НКО, исследователей и компаний — это часть стратегии Google по совместной борьбе с угрозами. Модель не только предупреждает о рисках, но и объясняет контекст уязвимостей, помогая командам быстрее реагировать.
cybermagazine.com
✔️ LLM в биомедицине: GPT-4 лидирует, но тонкая настройка все еще важна.
Исследование, опубликованное в Nature, показало, что LLM дают неоднозначные результаты в биомедицинских задачах. Закрытые модели (GPT-4) превзошли конкурентов в задачх, требующих логики — например, отвечая на медицинские тесты с точностью до 75%. Однако в извлечении данных (распознавание болезней, связей между белками) лидируют традиционные подходы с файнтюном BERT-моделей, опережая LLM на 30–40%.
Открытые решения без дообучения справляются хуже: в 22% случаев генерируют недостоверную информацию. Эксперты отмечают, что даже добавление одного примера в промпт снижает число ошибок. Все данные и выводы исследования доступны в репозитории для независимой проверки.
nature.com
@ai_machinelearning_big_data
#news #ai #ml
🧮 Модели решают математику… но не совсем
Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?
📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:
MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).
MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).
🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.
📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.
MATH-Perturb — отличный способ отделить память от мышления.
🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/
🖥 DeepGit: Repo Discovery — это открытый AI-инструмент, который помогает находить полезные репозитории на GitHub с помощью семантического поиска.
Он основан на системе LangGraph, использует анализ кода, документации и сигналов из сообщества, чтобы отфильтровывать малоизвестные, но перспективные проекты.
Ключевые возможности:
▪ Семантическая проверка: ищет не просто по ключевым словам, а «понимает» содержание.
▪ Многогранный анализ: учитывает не только код, но и документацию, активность и отзывы сообщества.
▪ GitHub-интеграция: фокусируется на данном экосистемном источнике, упрощая отбор качественных проектов.
🖥 GitHub
@pythonl
👾 ReasonReact — проект, предлагающий писать React-компоненты на ReasonML — типизированном языке c безупречным выводом типов и синтаксисом, вдохновлённым OCaml.
Это не новый фреймворк, а скорее "обёртка" над обычным React, которая добавляет автоматическую проверку типов и минимальный рантайм. Вы по-прежнему можете использовать существующие JavaScript-библиотеки, но с гарантией, что пропсы и состояния компонентов будут корректны на этапе компиляции.
🤖 GitHub
@bigdatai
🧑💻 AIDE — проект, предлагающий целый набор умных инструментов прямо в VSCode. Это не просто ещё один ChatGPT-плагин, а продуманный набор функций, который действительно помогает в повседневной работе с кодом.
Расширение умеет не только комментировать и оптимизировать код, но и преобразовывать его между языками, предлагать осмысленные имена переменных, а также обрабатывать сразу несколько файлов по заданным правилам. При этом все действия выполняются контекстно, с учётом конкретного участка кода.
🤖 GitHub
@bigdatai
✔️ ИИ-терапевт Therabot сократил симптомы депрессии и тревоги в первом клиническом испытании.
Исследователи Дартмутского университета провели первое клиническое испытание чат-бота Therabot на основе генеративного ИИ, который показал значительные улучшения у пациентов с депрессией, тревогой и расстройствами пищевого поведения. Участники, взаимодействуя с ботом через приложение, в среднем на 51% снизили симптомы депрессии, на 31% — тревоги, а в группе с риском расстройств питания прогресс превысил контрольные показатели на 19%, что соответствует результатам, полученным от лучших терапевтов.
Therabot, обученный на методах когнитивно-поведенческой терапии, адаптировал диалоги под пользователей, предлагая стратегии в реальном времени. За 8 недель участники провели с ботом около 6 часов — эквивалент 8 сеансов терапии.
dartmouth.edu
✔️ В честь своего 50-летия Microsoft опубликовала исходный код Altair BASIC.
Microsoft празднует 50-летие своей деятельности, отмечая путь от небольшого стартапа в Альбукерке, основанного Биллом Гейтсом и Полом Алленом в 1975 году, до мирового технологического лидера со штаб-квартирой в Редмонде, штат Вашингтон.
В честь этого знаменательного события соучредитель компании Билл Гейтс опубликовал исходный код Altair BASIC, первого продукта компании, который сыграл решающую роль в запуске революции персональных компьютеров. Гейтс назвал код "самым крутым из всего, что я когда-либо писал".
news.microsoft.com
✔️ Google запускает функцию 'Discover Sources' в NotebookLM.
Google представила новую функцию "Discover Sources" для сервиса NotebookLM, позволяющую пользователям искать в Интернете релевантную информацию по запросу. Она позволяет задать целевую тему, после чего NotebookLM формирует коллекцию из 10 релевантных источников со всего интернета.
Discover Sources доступно для всех пользователей. Оно расширяет функциональность NotebookLM, интегрируя веб-поиск непосредственно в проекты пользователя.
blog.google
✔️ Midjourney выпустила альфа-версию своего нового AI-модели генерации изображений — V7.
Эта версия представляет собой полную переработку предыдущей архитектуры, включая обновленные наборы данных и улучшенные методы обработки языка.
Улучшенное понимание текстовых запросов: Модель стала точнее интерпретировать пользовательские промпты, что приводит к более релевантным результатам.
Повышенное качество изображений: Благодаря новой архитектуре и обновленным наборам данных, изображения стали более детализированными и эстетически привлекательными.
- Режим Draft Mode: Этот новый режим позволяет создавать изображения в 10 раз быстрее и вдвое дешевле стандартного режима, что особенно полезно для быстрого прототипирования.
- Персонализация: V7 впервые вводит возможность настройки модели под индивидуальные визуальные предпочтения пользователя, что достигается путем оценки около 200 изображений для создания персонального профиля.
Midjourney
✔️ OpenAI: опубликовали статистку: 700+ млн изображений было сгенерировано за неделю в Sora
За первую неделю после запуска новой функции генерации изображений:
Функцию 130 протестировали уже человек
Создано более 700 млн изображений.
📈 Рекордный рост пользователей:
+1 млн новых юзеров в час на пике (для сравнения: такой рост при запуске ChatGPT занял 5 дней).
Индия — лидер по темпам роста интереса к ChatGPT.
✔️2027 Intelligence Explosion: Month-by-Month Model
Новый подкаста, в котором Скотт Александер и Дэниел Кокотайло обсуждают сценарий развития искусственного интеллекта вплоть до предполагаемого "интеллектуального взрыва" в 2027 году. Скотт Александер известен своими блогами Slate Star Codex и Astral Codex Ten, а Дэниел Кокотайло ранее работал в OpenAI, но ушел оттуда в 2024 году, отказавшись от соглашения о неразглашении. В подкасте они подробно рассматривают события, которые могут произойти в сфере ИИ в ближайшие годы.
Youtube
✔️Devin 2.0 вышел.
Сейчас выходит бесчисленное количество новых агентов.
Будем надеяться, что версия 2 получше. Цена от 20 долларов.
@ai_machinelearning_big_data
#news #ai #ml
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!
Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!
Что тебя ждет:
☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:
1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.
2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.
Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.
Регистрация уже открыта! Подробности и анкета по ссылкам выше.
✔️ OpenAI анонсировала открытую модель: релиз через несколько месяцев.
OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.
Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X
✔️ В Китае появились цены на медицинские услуги с использованием интерфейсов "мозг-компьютер".
Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).
ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov
✔️ Runway выпустила Gen-4.
Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml
✔️ SANA-Sprint: SOTA в реалтайм-диффузии.
MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.
SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github
✔️ Microsoft расширяет функционал Copilot+ для устройств на AMD, Intel и Snapdragon.
Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.
Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com
✔️ Apple разрабатывает ИИ-агента для здоровья.
Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.
Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts
✔️ Krea представила новый генератор 3D-моделей с использованием передовой технологии Hunyuan 3D.
Модели легко импортируются в Blender.
Krea
@ai_machinelearning_big_data
#news #ai #ml
✔️ Википедия выпустила датасет для обучения ИИ.
Википедия представила структурированный датасет на платформе Kaggle, чтобы облегчить разработчикам ИИ доступ к данным и снизить нагрузку на свою инфраструктуру. Вместо парсинга сырого текста ботамы, теперь доступны JSON-файлы на английском и французском языках с разделами статей, краткими описаниями, инфобоксами и ссылками на изображения.
Датасет оптимизирован для ML-задач: файнтюна моделей, анализа и тестирования. Это часть стратегии Викимедии, которая не только экономит ресурсы Википедии, но и упрощает работу с контентом — вместо борьбы с ботами разработчики получают готовый инструмент.
enterprise.wikimedia.com
⚡️Строим рекомендательную систему фильмов на Kaggle
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели
Вебинар будет интересен как новичкам, так и уже опытным специалистам
😶Зарегистрироваться на бесплатный вебинар
🌟 HunyuanPortrait: высокое качество анимации портретов
Новая технология от Hunyuan, превращающая статичные изображения в реалистичную анимацию с беспрецедентной чёткостью и стабильностью!
🆕 Что нового?
1⃣ Статичное изображение превращается → живое видео
2⃣ Невероятная реалистичность: Implicit Control + Stable Video Diffusion
3⃣ Плавность и сверхчёткая детализация в анимации лица и головы
Легко адаптируется под любые стили изображений.
Анимация создается по одному фото, нужен только видео-референс в качестве шаблона для генерации.
✅ Работает в один клик
✅ Синхронные мимика и движения головы
✅ Сохраняется черте даже при смене стиля
🟡 Проект
🟡 ArXiv
🟡Github (Коммент от разработчиков - проходим внутреннюю проверку перед открытым исходным релизом и загрузим код и веса сразу после её завершения.)
#Hunyuan
Присоединяйтесь к дискуссии — задавайте свои вопросы в комментариях к постуРекламодатель БАНК ВТБ (ПАО), ИНН 7702070139, Генеральная лицензия банка России №1000. Реклама, erid: 2SDnjeSPqYY. 0+
/channel/Data_fusion/152
ИИ-помощники и гибридное облако с ИИ: главные анонсы конференции GoCloud от провайдера Cloud.ru
1. Cloud.ru Evolution AI Factory, цифровая платформа для создания AI-приложений и агентов в облаке. Платформа ускоряет разработку AI-агентов, упрощает их внедрение, снижает инфраструктурные затраты и помогает быстрее выводить продукты на рынок.
2. Cloud.ru Evolution Stack AI-bundle, первое в России гибридное облако с поддержкой искусственного интеллекта. Платформа ускорит внедрение решений на основе ИИ, поможет решать AI-задачи в гибридном сценарии: например, обучать модели в публичном облаке, а инференс выполнять в частном контуре клиента.
По словам СЕО Cloud.ru Евгения Колбина, скоро в облачной платформе Cloud.ru Evolution появится бесплатный AI-помощник.
«Мы планируем, что к 2026 году AI-помощники будут выполнять большинство задач в частотных сценариях работы в облаке. Это кардинально изменит опыт пользователей при работе с облачными продуктами. С момента запуска AI-помощники будут доступны в публичных, гибридных и частных облаках Cloud.ru», — добавил Евгений Колбин.
Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип
Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и внеси вклад в продукты, которые приносят пользу разработчикам по всей России.
На хакатоне ты сможешь:
— Выбрать один из пяти треков и создать решение на базе ИТ-платформ МТС.
— Побороться за призовой фонд — 1 500 000 рублей.
— Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС.
— Повысить шансы на прохождение стажировки в МТС.
— Узнать больше о продуктах и технологиях МТС от экспертов компании.
Хакатон будет проходить с 17 по 25 апреля.
Регистрация открыта до 16 апреля. https://truetechhack.ru/
🐙 TruLens - Инструмент для глубокого анализа LLM-приложений. Проект предлагает целую экосистему для отслеживания работы всех компонентов LLM-стека — от промптов до ретриверов.
Недавно в систему добавили концепцию RAG Triad, позволяющая оценивать релевантность, groundedness и полезность ответов. В отличие от поверхностных проверок, TruLens даёт возможность выявлять системные проблемы: например, когда модель генерирует правдоподобные, но оторванные от контекста ответы.
🤖 GitHub
@bigdatai
Растите сильную команду. Топ-5 курсов Яндекс Практикума для IT
👾 Технологии меняются каждый день — проверено Яндексом.
Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.
Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.
👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:
— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации
👉Подобрать курс
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2VtzqubEfu3
🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena
Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.
В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.
И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.
Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.
@bigdatai
Неутомимый ИИ, который 24/7 помогает принимать решения, предугадывает действия и мониторит состояние процессов. Это – не фантастика, а реальный результат, которого можно достичь с помощью AI-ассистентов и AI-агентов.
В новой статье детально разбираемся, в чем сходство и отличие этих двух технологий. Вы узнаете:
🔤 Почему AI-агенты так хороши в задачах, не требующих участия человека.
🔤 Какие существуют типы агентов и на что они способны.
🔤 Как с помощью AI-ассистентов очеловечить технологию и сделать ее доступной всем пользователям.
Советы пригодятся для разработки решений на ML-соревнованиях. Читать статью: https://cnrlink.com/aiitonecupmlbigdata
Хочешь проверить рекомендации на практике? Приглашаем тебя на IT_ONE Cup. ML Challenge. Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам.
Почему стоит участвовать:
✅ Три трека и девять победителей, которые разделят призовой фонд в 1 500 000 рублей.
✅ Возможность работать соло или в команде до 5 человек.
✅ Прокачка навыков работы с LLM и генеративными моделями на практике.
✅ Знакомство с экспертами Sk FinTech Hub и IT_ONE, а также проектами компании.
Готов создать своего неутомимого ИИ-помощника? Регистрируйся до 13 апреля: https://cnrlink.com/itonecupmlbigdataai
Мы в своих ML-моделях на столько преисполнились…
Что ML-команда Купер.тех собрала новый материал для митапа!
24 апреля в 19:00 зовём на Data Science Meetup, соберёмся в Москве и онлайн!
В программе доклады и QA-сессия:
⚡️Как мы делали матчинг в Купере». Николай Чугунников, Machine Learning Engineer, Купер.тех
⚡️«Uplift Space Oddity, или как запустить ML-космолёт и не упасть». Екатерина Апраксина, Machine Learning Engineer, Купер.тех
⚡️«Как делать рекомендации не с нуля». Александр Лоскутов, Machine Learning Team Lead, Купер.тех
Регистрируйся, чтобы попасть в офлайн или не пропустить ссылку на трансляцию!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFHodKNx
Google Research повышает планку: Новый бенчмарк для оценки LLM на задачах Международных Научных Олимпиад.
Интересный материал об оценке реальных способностей LLM к научному мышлению.
Стандартные бенчмарки вроде MMLU важны, но часто не отражают глубину рассуждений, необходимую для решения сложных научных задач. Google предлагает новый подход.
Существующие метрики оценки LLM недостаточны для измерения способностей к решению нетривиальных научных проблем, требующих многошаговых рассуждений и глубокого понимания предметной области.
Новый бенчмарк "SciOlympiad": Google собрал датасет из задач Международных Научных Олимпиад (ISO) по физике, химии, биологии, математике и информатике. Это задачи экспертного уровня, разработанные для выявления лучших человеческих умов.
▪ Фокус на Reasoning (Рассуждениях): Оценка делается не только по финальному ответу, но и по качеству и корректности "цепочки мыслей" (Chain-of-Thought). Для сложных задач привлекались люди-эксперты для верификации логики рассуждений модели.
📌✔️Результаты state-of-the-art LLM (включая Gemini Ultra):
▪ Модели показывают определенный прогресс, но их производительность значительно ниже уровня победителей-людей на ISO.
▪ Наблюдается сильная вариативность по предметам: модели лучше справляются там, где больше символьных манипуляций (математика, информатика), и хуже – где требуется глубокое концептуальное понимание (физика, химия).
▪ Даже продвинутые LLM часто допускают фундаментальные концептуальные ошибки и сбои в многошаговой логике, которые не свойственны экспертам.
▪ SciOlympiad – это ценный, хоть и очень сложный, бенчмарк для стресс-тестирования реальных научных способностей LLM.
▪ Результаты подчеркивают текущие ограничения LLM в области сложного научного мышления и решения проблем.
▪ Исследование указывает на направления для будущей работы: необходимо совершенствовать не только знания моделей, но и их способности к глубоким, надежным и креативным рассуждениям.
🔗 Статья
#LLM #AI #MachineLearning #Evaluation #Benchmark #ScientificAI #Reasoning #GoogleResearch #NLP
🖥 FinMind — проект, предлагающий более 50 автоматически обновляемых датасетов, охватывающих рынки Тайваня, США и мировые активы.
Причем это не просто архив исторических котировок. Здесь собраны:
▪️Технические данные (от тиковых данных до индикаторов PER/PBR)
▪️Отчётность, дивиденды, выручка
▪️Фьючерсы, опционы
▪️Ставки ЦБ, сырьё, облигации
💯 При этом проект полностью открыт и ориентирован на образовательные цели. Данные доступны через простой Python-клиент, что делает FinMind удобной альтернативой платным Bloomberg Terminal или Quandl для учебных проектов и прототипирования.
🤖 GitHub
📌 LLM Scraper — инструмент для структурированного парсинга веб-страниц через языковые модели.
В отличие от традиционных парсеров, проект понимает контекст страницы — например, может корректно распознать список товаров даже при изменении вёрстки. Также в инструмент интегрирован Playwright для рендеринга JavaScript-страниц, есть поддержка четырёх форматов входных данных: от HTML до скриншотов.
🤖 GitHub
@bigdatai
⚡️ AI-агенты в девелопменте
Делимся интересным кейсом. red_mad_robot рассказывают на Хабре, как внедрили в бизнес-процессы девелопера ГК ФСК смарт-платформу с двумя AI-агентами.
Первый — для клиентов: встроен в чат-бот на сайте и отвечает на вопросы о квартирах. Второй — для сотрудников: ищет данные в корпоративных системах, будь то регламенты или спецификации жилых комплексов. Оба работают на RAG-технологии, которая подтягивает актуальные данные из базы.
В статье интересно описаны технические детали решения, например, проверка точности ответов с помощью RAGAS. Почитать подробнее можно по ссылке.
@bigdatai