data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

У того самого китайского агента Manus появилось iOS приложение + стали известны цены на подписку

За 39 долларов можно получить 3900 кредитов, за 199 $ – 19 900. В среднем простенькая задача стоит 100-200 кредитов, посложнее 300-500.

А что, не все китайские модели бесплатные? 🥺

Читать полностью…

Data Secrets

Tinder? Для бизнеса? Да, теперь и такое есть. Для конференции Data Fusion по работе с большими данными и искусственным интеллектом организаторы запустили Telegram-бота, который поможет найти нужные контакты.

Заполняешь анкету, свайпаешь анкеты участников, находишь DS, аналитиков и технологических пиарщиков — готовая дрим-тим для стартапа.

Тестили сами — мэтчится точнее, чем градиентный бустинг на чистых данных. Ищем админа в боте и встречаемся 16-17 апреля на конференции Data Fusion 🚀

Читать полностью…

Data Secrets

Успейте зарегистрироваться на Data Fusion. Мы ждем всех!

Data Fusion Contest 2025 это

🛑возможность прокачать скилы на практике, внести вклад в развитие сообщества DS в России, а также погрузиться в новые DS/ML-методы;
🛑шанс сразиться с лучшими представителями профессии и проявить себя;
🛑возможность получить внушительный приз.

Общий призовой фонд — 3 000 000 рублей 🔥

В этом году участников ждут 2 основные задачи:

«Label Craft» — про предсказание категории товаров.

«4 Cast» — про предсказание динамики платежей на последующие 12 недель.
И одна образовательная задача — «Distribution».

А ещё будет специальная номинация Companion за лучшие публичные решения, в которой победителей определит жюри, учитывая поддержку со стороны других конкурсантов в чате соревнования.

Даты проведения соревнования: с 13 февраля по 7 апреля 2025 года.

❗️Формат — онлайн: участвовать можно из любой точки мира.

Информация о рекламодателе

Читать полностью…

Data Secrets

Рынок text2image ожил буквально за пару дней: Midjourney планируют запускать седьмую версию своей модели на следующей неделе

Об этом сообщают инсайдеры, побывавшие на Weekly Office Hours стартапа.

Забавный факт: между выходами Midjourney v1 и v6 прошло всего 22 месяца. Между v6 и v7 прошло 16. Довольно сильная смена темпа, так что ждем что-то крутое.

P.S. Обещаем, это последняя на сегодня новость про генераторы картинок

Читать полностью…

Data Secrets

Про влияние бума ИИ на рекомендательные системы рассказал Николай Савушкин, руководитель направления рекомендательных систем в Яндексе.

Рекомендательные системы развиваются значительно медленнее, чем нашумевшие LMM. Комьюнити для разработки нужен доступ к реальным пользователям и данным об их поведении в сервисах, чего у исследователей часто нет. Но технологическая основа рекомендаций продолжает развиваться, хоть и не так активно из-за специфики направления.

Подробнее об этом и о том, что ждёт рекомендательные системы в будущем, здесь

Читать полностью…

Data Secrets

Пошел слух, что Anthropic релизит Sonnet 3.7 с контекстом 500к токенов (сейчас 200к)

Если правда, то будет имба для кодинга

Читать полностью…

Data Secrets

О, открыли регистрацию на новый ARC Prize 2025

ARC Prize идет уже несколько лет и это, пожалуй, один из главных международных ИИ-хакатонов мира. Особенно много внимания он собрал в 2024 (вот пост о соревновании и разбор решений победителей №1, №2). Но в 2025 будет еще интереснее:

Датасет заменили с ARC-AGI-1 на свежий ARC-AGI-2

В предыдущие годы многие победные решения основывались на брутфорсе. С новым датасетом это почти невозможно, а значит решения будут позанятнее. Также добавили допольнительную overfit protection на Kaggle

Grand Prize (премия победителям, которые пробьют 85%) увеличилась еще больше с $600k до $700k

Соревнование продлится до ноября. Детали и регистрация тут: arcprize.org/competition

Читать полностью…

Data Secrets

Ура, наконец-то не походка Байдена: FigureAI рассказали, как они научили своего робота ходить по-человечески

Естественная ходьба для роботов – это не так просто, как кажется, потому что так намного сложнее контролировать равновесие и перенос веса по сравнению с ходьбой с согнутыми коленями на полной стопе (а именно так сейчас предвигаются почти все гуманоиды).

Но Figure запарились и теперь походка их роботов Helix действительно похожа на человеческую. И снова в основе всего обучения – RL и симуляция, но при этом переход Sim-to-Real в стартапе умудрились сделать в zero-shot, вообще без доп. тюнинга. То есть:

1. Собрали кучу данных (годы в реальной жизни)
2. Смоделировали все в высокоточной физической симуляции буквально за несколько часов
3. Обученные политики напрямую перебросили в реальные экшены робота

Кажется, Figure первые, кому удался такой трюк, и получилось это с помощью двух вещей:

(1) в симулятор добавляли вариативность среды, чтобы модель получилась устойчивой и умела обобщать навыки на разную физику;

(2) во время инференса очень часто и точно трекаются крутящие моменты двигателей. Идея в том, что чем чаще робот получает такой фидбэк, тем быстрее он может заметить и отреагировать на любые отклонения от планового движения.

Здорово, в общем. Напоминаем, что в 2025 Figure планируют запустить целый завод по производству роботов и начать тестировать их в настоящих домах.

Читать полностью…

Data Secrets

AlphaXiv становится все прикольнее и прикольнее: теперь в него завезли анализ кодовой базы статьи

Представьте: вы читаете какую-то статью, у вас появляется вопрос и вы задаете его встроенному ассистенту. А тот, отвечая на него, анализирует не только текст статьи, но и репозиторий к ней (если такой имеется). Таким образом, ответы получаются более технически точными и без додумок, если в тексте что-то описано нечетко.

Также можно попросить бота объяснить кусочки кода или даже адаптировать его под ваш проект.

Итого, в AlphaXiv теперь есть: бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям, анализ кода и генератор конспектов 🍯

Читать полностью…

Data Secrets

Генерация изображений побеждена?

Фотошоп и нативную генерацию картинок 4o закончили раскатывать на Pro, Plus и Team (Free еще продолжают), и первые юзеры в восторге от модели. Она справляется буквально с любой задачей, примеры наверху 👆

И, самое интересное, что это не диффузия, а авторегрессия. Вот тех.отчет

Читать полностью…

Data Secrets

Итак, нативная обработка изображений от OpenAI вышла, работает супер и даже доступна бесплатным пользователям

Но... Google затмил сегодня вечером всех, выпустив Gemini 2.5 Pro. Это та самая модель, которая на арене висела на первом месте под названием Nebula.

Контекст – миллион (!) токенов, на бенчмарках почти везде обходит o3-mini, GPT-4.5, R1, Sonnet 3.7, Grok-3 и остальных. Естественно, мультимодальная + есть ризонинг.

Попробовать уже можно здесь, а вот блогпост

Читать полностью…

Data Secrets

А вот и официальный анонс нового чекпоинта DeepSeek-V3 с бенчмарками

Зацените: прирост на LiveCodeBench + 10 процентных пунктов, а на AIME 2024 аж +20. При этом цена не изменилась.

Лучшая не-ризонинг модель для математики и программирования, получается?

Читать полностью…

Data Secrets

Тест на IQ 2.0: оказывается, плюсом ко всему создатели нового ARC-AGI-2 сделали песочницу, в которой можно порешать задачки бенчмарка самому (и убедиться, что ты все еще умнее LLM)

По данным создателей, в среднем человек решает 60% без какой-либо предварительной подготовки.

И задачки, кстати, действительно интересные. Всего их 120, хватит на целую неделю: arcprize.org/play?task=1ae2feb7

Делитесь самыми сложными в комментариях

Читать полностью…

Data Secrets

⚡️ Вышел ARC-AGI-2

Это вторая версия того самого бенчмарка от ребят из Google, на котором гоняют все ризонинг модели и который считается основным тестом на AGI способности (немного больше про бенч в этом и этом постах).

Отличается он тем, что это не просто ответы на вопросы, а решение головоломок, которое требует от системы умения рассуждать, рекомпозировать и обобщаться на новые задачи.

В предыдущей версии задачи выглядели, как на картинке 2, и в целом бенчмарк был побежден моделькой o3, которая выбила > 85%.

Так что авторы пошли дальше и сегодня объявили, что выпускают вторую, еще более сложную версию бенчмарка специально для теста моделей нового поколения. Задачи в нем будут выглядеть примерно как на картинке 3, 4 и 5.

А картинка 1 – это скоры сегодняшних LLM на ARC-AGI-2. Абсолютно все модели выбивают < 5%, даже o3 и o1-pro. Не ризонинг вообще ни с чем не справляются, там рейтинг около 0.

При этом надо сказать, что люди все еще решают эти задачи легко (авторы тестировали на выборке из 400 человек). То есть это все еще не про какие-то сверхспособности, а про простое «человеческое» умение применять символьную интерпретацию, контекст и композиционное рассуждение.

Кайф youtu.be/z6cTTkVqAyg

Читать полностью…

Data Secrets

Там мощно обновился DeepSeek-v3

Вообще, это должно было быть рядовое обновление, как время от времени обновляют чекпоинты 4o или других моделей.

Но пользователи говорят, что в данном случае разница в способностях с предыдущей версией разительная, особенно на математике и программировании.

В конфигах ничего особо не поменялось, так что за деталями ждем тех.отчет.

Веса – здесь (почти 700GB 💀). В официальном чате обновления пока нет, но OpenRouter уже все раскатили, так что попробовать бесплатно можно тут

Читать полностью…

Data Secrets

Конспекты по ML в стиле Ghibli

Все соцсети заполнены генерациями новой GPT-4o в стиле японской анимационной студии Ghibli. Мы тоже решили не отставать и нагенерировали вам... ML-конспектов 🤓

Получился определено плюс вайб. Пишите в комментарии, какие еще ML-темы порисовать

Читать полностью…

Data Secrets

Микроскоп для LLM: новое исследование от Anthropic

Anthropic известны своими работами по интерпретируемости. Раньше их основным подходом, который затем переняли OpenAI и Google, были SAE (наши разборы №1, №2, №3, №4, №5). А теперь они предлагают новый метод, который позволяет строить полноценные схемы мыслей ИИ, – Circuit Tracing, то есть цепная трассировка. Технически это вот так:

1. Берем обученный трансформер и определенную задачу.

2. Создаем замещающую модель: некоторые компоненты трансформера заменяем на интерпретируемые линейные модельки, их называют Cross-Layer Transcoder.

3. На конкретной выбранной задаче обучаем транскодеры вести себя также, как оригинальный компонент, то есть решаем задачу минимизации MSE Loss между выходами оригинального слоя и замененного.

4. Теперь у нас есть линеазированная интерпретируемая аппроксимация нашего трансформера, и на ней мы можем отследить потоки активаций через все слои.

5. Используя эти потоки, строим граф атрибуции, отражающий пути влияния одних признаков на другие. Анализируя этот граф, можно выделять какие-то интерпретируемые концепты и рисовать настоящие карты "размышлений" модели.

Как выглядят такие итоговые карты для Claude – посмотрите на картинках 2, 3, 4, 5. Там много интересного, если вглядеться. Например:

Несмотря на то, что модель решает только задачу next token prediction, она думает наперед. Это видно в задаче написания стихов: Claude планирует рифму еще до того, как начинает писать новую строчку.
Claude умеет считать "в уме". Вопреки расхожему мнению, оказывается, что модель не просто запоминает ответы математических задач, а действительно использует сложные вычислительные пути для их решения.
Даже галлюцинации оказываются вполне объяснимой вещью: исследователи обнаружили конкретную фичу "ответ известен", и, если она активируется по ошибке, модель начинает выдумывать.
Из смешного: если сразу сказать модели ответ на задачу, она будет думать в обратном направлении, то есть пытаться придумать правдоподобное решение для ответа.


Статья про подход | Статья про эксперименты на Claude (советуем прочитать полностью, действительно очень интересное исследование)

Читать полностью…

Data Secrets

Вы не поверите, но GPT-4o теперь лучшая модель для кодинга

OpenAI только что обновили чекпоинт модели, и результаты на арене по сравнению с прошлой версией скакнули вот так:

- Math 14 место -> 2 место
- Hard Prompts 7 место -> 1 место
- Coding 5 место -> 1 место
- В целом 5 место -> 2 место

Сами разработчики пишут, что теперь моделька лучше следует инструкциям и воспринимает сложные промпты, лучше креативит и использует меньше эмодзи (ура)

На всех платных новый чекпоинт уже раскатили. Фри юзерам будет доступно в течение нескольких недель.

Читать полностью…

Data Secrets

На МТС True Tech Hack 2025 можно создать не только крутое решение, но и расширить свои профессиональные связи

Что тебя ждет на хакатоне?
Поддержка менторов из ИТ-команды МТС
Призовой фонд в 1 500 000 рублей для самых креативных решений
Возможность внести вклад в продукты, которые помогают разработчикам по всей России

Что надо делать?
Разработать прототип продукта на базе ИТ-платформ МТС
Кайфануть от своего результата
Забрать с собой гордое звание победителя и деньги

Регистрация, митап и вся допинформация здесь.

Читать полностью…

Data Secrets

Есть хорошая и плохая новость

👎 Плохая: нативной генерации изображений gpt-4o для бесплатной подписки пока не будет.

Альтман объявил, что они не ожидали такого ажиотажа и поэтому немного отложили ролаут на free юзеров.

👍 Хорошая: вышел Ideogram 3.0 и в нем дают несколько бесплатных генераций в неделю (для регистрации достаточно гугл аккаунта).

По Elo моделька обгоняет Imagen3 и Flux Pro. Фотореализм и работа с текстом на высоте. А еще можно загружать референсные картинки, чтобы задать генерациям стиль. Пробуйте здесь.

Читать полностью…

Data Secrets

⚡️ Qwen опенсорснули настоящую омни-мультимодальную модель на 7B

Qwen2.5-Omni-7B может принимать на вход видео, аудио, текст и картинки, и отвечать аудио или текстом. То есть с моделькой теперь можно общаться по «видеосвязи». Немного технических деталей:

В целом архитектура поделена на thinker и talker

Thinker – это трансформер, который декодит модальности и генерирует ответы и эмбеддинги для talker’а

Talker – авторегрессионка для говорения. Принимает на вход эмбеддинги от thinker’а и генерирует токены речи в стрим режиме

Надо понимать, что это не отдельные модели: оба модуля обучаются одновременно и работают end-to-end

Метрики для 7В замечательные. Обходит даже Gemini 1.5 Pro.

Веса (лицензия Apache 2.0)
Статья
Попробовать

Читать полностью…

Data Secrets

OpenAI начали встраивать MCP от Anthropic в свои продукты

Природа настолько очистилась Model Context Protocol от антропиков стал настолько популярным и так быстро оказался золотым стандартом, что даже OpenAI не устояли и объявили о том, что будут его использовать.

Сейчас они уже встроили MCP в библиотеку Agents SDK (пост о ней). То есть теперь при разработке агентов к ним можно прикручивать серверы MCP и тем самым расширять их скиллы.

Также обещают завести протокол в API и дескотопное приложение (вот это будет особенно круто).

Что такое MCP? Это открытый протокол, который стандартизирует то, как приложения/сайты/базы данных предоставляют контекст LLM. Раньше, чтобы ваша моделька "увидела" и могла постоянно использовать данные из внешнего источника (ну, например, гугл календаря), приходилось каждый раз плясать с бубном и реализовывать все с нуля.

А теперь есть MCP, и он работает как часы со всеми возможными локальными и удаленными источниками данных. Подробнее – в этом и этом постах.

Протокол крут и все его полюбили, потому что он (а) понятный и супер удобный и (б) достаточно безопасный. Смотрите сами: таких MCP уже наплодили миллион для абсолютно всего, вот здесь есть готовые на любой вкус.

Читать полностью…

Data Secrets

Исследовали реализовали отдельный arxiv для агентов-исследователей

Проект называется AgentRxiv и его идея следующая: пусть агенты работают не сами по себе, а как люди делятся, изучают и совершенствуют исследования друг друга.

То есть по сути AgentRxiv – это опенсорсный фреймворк, который дает разным лабораториям возможность добавлять своих агентов на некую общую платформу шеринга, внутри которой те могут «обмениваться идеями».

Звучит занятно, и по первым тестам работает неплохо: в эксперименте с тремя разными лабами результаты агентов с такой коллаборацией улучшились на 13.7%. Это больше, чем при последовательном автономном самоулучшении.

Может скоро у агентов и конференции свои появятся?

Статья | Репа (лицензия MIT)

Читать полностью…

Data Secrets

Оказывается, чтобы расти в доходе в ML и IT, недостаточно закончить топовый матфак, работать 24/7 и знать все фреймворки мира

Да, это круто, но это – далеко не главное. На самом деле чаще всего выигрывают люди с прокаченным софт скиллами – те, кто уверенно ведет диалог и грамотно доносит ценность своих решений.

Вот вам пример: Senior ML-инженер Олег Андриянов рассказывает в своем канале, как его доход вырос за 4 года в 12,5 раз. В блоге куча крутых статей, вот наш топ-3:

Как гарантированно повысить свою зарплату?

Какие 2 ключевых софт-скилла делают тебя на голову выше конкурентов на рынке труда?

Как Олегу удалось вырасти в доходах в 12,5 раз за 4 года?

У автора большой опыт руководителя, так что он знает, чего хочет от сотрудника индустрия, и в его канале – не фантазии, а настоящие практические инструменты, которые помогут быстрее достичь карьерных целей.

Подписывайся, если хочешь стать незаменимым в любой IT-команде: @andriyanov_leads

erid: 7W5lYk19TYU

Читать полностью…

Data Secrets

Пока новый фотошоп от OpenAI продолжают раскатывать на юзеров, примеры его работы можно посмотреть здесь: openai.com/index/introducing-4o-image-generation/

Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.

В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)

Читать полностью…

Data Secrets

Сегодня в 21:00 – новый стрим OpenAI

Кажется, собираются показывать встроенную в чат генерацию и редактирование изображений

Вторая картинка – реакция инженеров из Google :)

Читать полностью…

Data Secrets

Есть среди нас любители хакатонов?

Для вас нашелся крутой ресурс: канал Лидеров цифровой трансформации. Внутри:

Самые актуальные новости IT
Куча полезных материалов для прокачки ваших скиллов
Эксклюзивные предложения от партнеров
Авторский юмор
Большое сообщество, в котором можно собрать команду на хакатон или найти единомышленников

А совсем скоро в канале анонсируют самый масштабный весенний хакатон страны.

Не пропускайте и подписывайтесь на канал.

Читать полностью…

Data Secrets

Google, кажется, готовится к большому релизу

На Lmarena появились результаты двух новых моделей компании. Первая, под кодовым названием Nebula, обходит последнюю o1 и Sonnet 3.7. Вторая – phantom – где-то на уровне Grok-3 и GPT-4.5 (но дисперсия какая-то конская). Вероятно, это новые Gemini 2.0 Pro Thinking и Gemini 2.0 Flash Thinking.

Еще в лидерборде фигурирует centaur – видимо какая-то небольшая, возможно не reasoning модель уровня o3-mini.

Выглядит многообещающе, так что ждем

Читать полностью…

Data Secrets

Ух ты: ученая из Университета Йювяскюля в Финляндии решила задачу, на которую математики не могли найти ответ 40 лет

Это настоящий прорыв в топологии. Задача касается классификации квазирегулярно эллиптических 4-многообразий, то есть понимания того, какие четырехмерные пространства могут быть образованы путем деформации стандартной четырехмерной евклидовой геометрии.

Проблему сформулировал еще в 1981 Михаил Громов. Больше 40 лет в ней не было почти никаких подвижек, пока на днях свою докторскую дисертацию не опубликовала Сусанна Хейккиля.

Девушка, кстати, любит вязание и говорит, что это самый простой способ понять и представить топологию на практике. На презентации этой работы она также объясняла свою идею с помощью вязаной сферы 🙂

Статья

Читать полностью…

Data Secrets

⚡️Решаем тестовое задание в Магнит Tech на позицию аналитика данных в прямом эфире

Умение качественно выполнить тестовое задание для любой компании - это важный элемент успешного поиска работы. Чтобы выделиться среди других кандидатов, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Эти навыки приходят с опытом нарешивания боевых задач и тестовых, одно из которых мы разберем на бесплатном вебинаре с Павлом Беляевым - руководителем группы дата-аналитиков в компании Яндекс eLama.

Что мы будем делать на вебинаре:
🟠познакомимся с тестовым заданием одной из крупнейших ритейл-сетей «Магнит»;
🟠с помощью SQL потренируемся искать нужное в товарном ассортименте;
🟠с помощью Python научимся определять слова-палиндромы.

А ещё — увидим тестовое задание по SQL eLama, безотказно работавшее 6 лет. В нем есть важный нюанс, на котором многие сыпались!

🕗 Встречаемся 25 марта 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…
Subscribe to a channel