Telegram-канал bigdatai - Big Data AI: Unsorted - каталог телеграмм

bigdatai | Unsorted

Subscribe to a channel

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

25 March 2025 13:00

🔥 SynCamMaster — это проект, который предлагает метод для синхронизации генерации видео с нескольких камер, используя предварительно обученные модели для преобразования текста в видео!

🌟 Инструмент нацелен на создание многокамерных видео из разнообразных точек обзора, что может быть полезно для таких задач, как кинопроизводство или генерация данных для алгоритмов обработки изображений и видео.

🌟 Проект включает SynCamVideo Dataset, созданный с использованием Unreal Engine 5. Набор данных состоит из 36,000 видео, синхронно снятых с 36 камер в 1,000 различных сценах. В каждой сцене главными объектами выступают одно или два животных из 50 категорий, которые перемещаются в 20 различных локациях. SynCamMaster демонстрирует, как можно улучшить генерацию видео с учётом многокамерного подхода и синхронизации для применения в открытых доменах.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

24 March 2025 11:40

📌 Набор датасетов по программированию от HF.

HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:

🟢Stack-Edu - 125 млрд. токенов образовательного кода на 15 языках программирования, отфильтрованных из The Stack v2

🟢GitHub Issues - 11 млрд. токенов из GitHub Issues

🟢Kaggle Notebooks - 2 млрд. токенов ноутбуков Kaggle по анализу данных

🟢CodeForces problems - 10 тыс. уникальных задач из сервиса CodeForces, 3 тыс из которых не были включены в массив обучения, использовавшийся DeepMind

🟢CodeForces problems DeepSeek-R1 - 8,69 Gb отфильтрованных трассировок рассуждений по задачам CodeForces

🟢International Olympiad in Informatics: Problem statements dataset (2020 - 2024) - уникальный набор из заданий Олимпиады по программированию, разбитый на подзадачи так, чтобы каждый запрос соответствовал решению этих подзадач

🟢International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) - 11 тыс трассировок рассуждений, выполненных DeepSeek-R1 в ходе решения заданий Олимпиады по программированию

@ai_machinelearning_big_data

#AI #ML #LLM #Dataset #HuggingFace

Читать полностью…

Big Data AI

22 March 2025 13:04

📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка.

Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.

Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.

Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.

Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.

Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.

Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.

Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.

🟡Статья
🟡Исследование

@ai_machinelearning_big_data

#AI #ML #Research #NLP

Читать полностью…

Big Data AI

21 March 2025 07:03

Вы тоже игнорируете полезные советы и прокачиваетесь по-своему? 😁

Спойлер: ваш способ намного эффективнее, если в нем есть Data Fusion! 🚀

Это ежегодное онлайн-соревнование по анализу данных и машинному обучению для специалистов Data Science от Т1 и ВТБ. Общий призовой фонд — 3 000 000 рублей 🔥

В этом году участников ждут 2 основные задачи:

«Label Craft» — про предсказание категории товаров.

«4 Cast» — про предсказание динамики платежей на последующие 12 недель.

И одна образовательная задача — «Distribution».

А ещё будет специальная номинация Companion за лучшие публичные решения, в которой победителей определит жюри, учитывая поддержку со стороны других конкурсантов в чате соревнования.

📆 Даты проведения соревнования: с 13 февраля по 7 апреля 2025 года.

❗️Формат — онлайн: участвовать можно из любой точки мира.

Регистрируйся на соревнование прямо сейчас!

Информация о рекламодателе

Читать полностью…

Big Data AI

19 March 2025 11:01

🔥 KrillinAI – это комплексное решение для обработки видео, включающее загрузку, перевод, озвучивание и финальный рендеринг! Оно поддерживает автоматическую установку зависимостей и интеграцию с yt-dlp для загрузки видео с YouTube и Bilibili.

🌟 Основные функции: интеллектуальное сегментирование и выравнивание субтитров, настраиваемая замена слов, перевод с учетом контекста, озвучивание с клонированием голоса и синхронизацией, а также автоматическая сборка видео с субтитрами. Поддерживаются десятки языков для входных данных и перевода.

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

18 March 2025 09:31

✔️ "EXAONE Deep Released ━ Setting a New Standard for Reasoning AI" от LG AI Research

Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.

1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.

Модель 32B, которая по размеру равна около 5% от размера DeepSeek r1, превосходит ее почти во всех тестах.

Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель более способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.

🟡Релиз: https://www.lgresearch.ai/blog/view?seq=543
🟡Статья: https://arxiv.org/abs/2503.12524
🟡HF: https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-32B

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG #reasoning

Читать полностью…

Big Data AI

15 March 2025 12:02

🔥 DeepScaler — это проект, предназначенный для увеличения разрешения изображений с использованием методов глубокого обучения!

🌟 Он реализует алгоритмы суперразрешения (Super-Resolution), позволяя восстанавливать детали и улучшать качество изображений при их масштабировании.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

12 March 2025 17:01

🔥 5ire — кроссплатформенный AI-ассистент и клиент MCP (Model Context Protocol)!

🌟 Он поддерживает интеграцию с популярными поставщиками AI-сервисов (например, OpenAI, Anthropic, Google и другими), а также предоставляет локальную базу знаний для обработки и векторизации документов. Проект использует MCP-протокол для подключения к различным инструментам, что позволяет работать с файловыми системами, базами данных и удаленными источниками данных.

🔐 Лицензия: GPL-3.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

12 March 2025 12:28

🔥 UI-TARS Desktop — это приложение с графическим интерфейсом, основанное на модели компьютерного зрения, которое позволяет управлять компьютером с помощью естественного языка!

🌟 Оно поддерживает управление мышью и клавиатурой, а также выполняет захват экрана и распознавание объектов. Это кросс-платформенный инструмент для Windows и MacOS, который обрабатывает запросы локально, обеспечивая безопасность и конфиденциальность.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

11 March 2025 13:05

🔥 MedSSS — это небольшой медицинский языковой модельный проект, разработанный с использованием метода «медленного мышления» и самосовершенствующейся методики!

💡 Цель проекта — улучшить способность модели к медицинским рассуждениям. MedSSS использует модель PRM для выбора наиболее корректного ответа из нескольких возможных вариантов, что позволяет эффективно решать как традиционные задачи медицинского вопросно-ответного характера, так и более сложные клинические сценарии.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

09 March 2025 15:17

👣 Training a Rust 1.5B Coder LM with Reinforcement Learning (GRPO)
Источник: Oxen.ai Blog
Ссылка: Oxen.ai

Статья подробно рассказывает о процессе обучения специализированной языковой модели для генерации кода на Rust, обладающей 1.5 млрд параметров.

Авторы применяют метод обучения с подкреплением (GRPO) с использованием обратной связи от инструментов Rust (компилятор и система сборки cargo). Это позволяет модели учиться генерировать код, который успешно компилируется, проходит линтер (cargo clippy) и unit-тесты.

Подход к данным и метрикам: Описаны этапы подготовки датасета, в том числе адаптация существующих Python-подобных задач под синтаксис Rust, а также разработка специальных reward-функций, проверяющих качество сгенерированного кода.

Материал показывает, как можно использовать инструменты Rust для автоматизированной проверки качества кода, что может служить основой для создания интеллектуальных помощников и средств автоматизации.

🔗 Читать

@rust_code

Читать полностью…

Big Data AI

07 March 2025 12:04

🔥 Jina Serve — это облачно-ориентированный фреймворк для создания и развертывания мультимодальных AI-сервисов!

🌟 Он поддерживает взаимодействие через gRPC, HTTP и WebSocket, предлагая высокопроизводительную архитектуру для масштабирования, потоковой передачи данных и динамической обработки запросов. Основные возможности включают нативную интеграцию с ML-фреймворками, контейнеризацию, встроенный оркестратор микросервисов и поддержку Kubernetes.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru

Читать полностью…

Big Data AI

04 March 2025 12:47

🔥 MiniCPM-o 2.6 — это мощная языковая модель с 8 млрд параметров, разработанная OpenBMB! Она поддерживает текст, изображения, видео и аудио, а также обеспечивает высококачественные ответы на естественном языке. Производительность модели сравнима с GPT-4o-202405, особенно в обработке мультимодального контента.

💡 Особенности MiniCPM-o включают расширенные возможности оптического распознавания символов (OCR), улучшенное понимание видео и поддержку голосовых диалогов в реальном времени на английском и китайском языках. Модель может адаптировать тембр, скорость и эмоции речи, что делает её полезной для голосовых ассистентов и интерактивных приложений.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

03 March 2025 12:05

🔥 Cofounder — это генеративная платформа для создания полноценных веб-приложений с бэкендом и UI!

🌟 Он использует ИИ для генерации приложений, включая проектирование интерфейсов и создание структур на основе описаний. На данный момент это ранняя альфа-версия, нестабильная, которая требует больших вычислительных ресурсов. В будущем проект планирует улучшения и добавление новых функций, таких как интеграция с мобильными фреймворками и расширенная настройка приложений.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

26 February 2025 17:36

⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном агентском решении.

Чем полезен инструмент:

- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.

Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).

Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.

Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.

Минусы:

- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.

Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.

В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.

pip install torchvision Pillow open_clip_torch

https://huggingface.co/microsoft/Magma-8B

#microsoft #magma #multimodal

Читать полностью…

Big Data AI

24 March 2025 20:32

RTX 5090, которую мы заслужили 😂

Читать полностью…

Big Data AI

23 March 2025 11:32

🔥 Transformers Laid Out

Лучший способ изучить PyTorch — создать что-нибудь с его помощью на практике.

В этом блоге представлен пошаговый гайд по написанию трансформерам с помощью PyTorch с нуля.🖥

📌 Гайд
📌 Что под капотом у PyTorch
📌Видео объяснения базы по тензорам

Читать полностью…

Big Data AI

21 March 2025 09:01

👣 Casibase — это open-source платформа, предназначенная для создания масштабируемых и гибких приложений с упором на эффективное управление данными и бизнес-логикой.

▪ Модульная архитектура: Проект предоставляет структуру, которая позволяет легко расширять функциональность и интегрировать различные компоненты, что упрощает разработку сложных систем.
▪ Гибкость интеграции: Casibase обеспечивает удобную работу с различными источниками данных и API, что облегчает объединение разрозненных сервисов в единое целое.
▪ Ускорение разработки: Используя Casibase, разработчики могут быстрее собирать и разворачивать приложения, оптимизируя процессы автоматизации и управления данными.

Casibase интересен тем, кто ищет готовую платформу для быстрого создания распределённых систем с высокой степенью адаптивности и масштабируемости.

▪ Github

@bigdatai

Читать полностью…

Big Data AI

20 March 2025 16:38

⚡️ Обновление семейства Nemotron: теперь с ризонингом.

NVIDIA выпустила новые модели и датасет семейства Nemotron :

🟢Модель Llama-3.3-Nemotron-Super-49B-v1

🟢Модель Llama-3.1-Nemotron-Nano-8B-v1

🟠Датасет Llama-Nemotron-Post-Training-Dataset-v1

▶️Llama-3.3-Nemotron-Super-49B-v1 — флагманская мультиязычная модель, созданная на базе Llama-3.3-70B-Instruct и оптимизированная для ризонинга, чат-взаимодействий и RAG-систем, с контекстным окном 128 тыс. токенов. Ключевая особенность — применение в процессе создания Neural Architecture Search (NAS), метода, который позволил сократить вычислительные затраты без значительной потери качества.

Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB.

Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE).

Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели.

Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95.

Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace.

▶️Llama-3.1-Nemotron-Nano-8B-v1 - младшая модель с 8 млрд. параметров, которая предлагает компромисс между точностью и эффективностью. Она создана на основе Llama 3.1 8B Instruct и предлагает улучшение точности базовой Llama 3.1, возможности в рассуждениях, как и флагманская. Модель подходит для запуска на одном GPU RTX и может использоваться локально. Nano-8B-v1 поддерживает длину контекста 128 тыс. токенов.

▶️Llama-Nemotron-Post-Training-Dataset-v1 - набор данных объемом 15.2 млн строк, который представляет собой компиляцию данных SFT и RL для улучшения математических, кодовых, общих рассуждений и возможностей следования инструкциям оригинальной модели Llama.

📌Лицензирование: NVIDIA Open Model License

🟡Статья
🟡Коллекция Nemotron на HF
🟡Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #Nemotron

Читать полностью…

Big Data AI

18 March 2025 18:41

🔥 VideoLingo — это инструмент для автоматизированного создания субтитров и дубляжа видео на основе ИИ!

🌟 Он предлагает функции перевода, сегментации и синхронизации субтитров на уровне Netflix. Инструмент использует алгоритмы обработки естественного языка (NLP), поддержку разных языков и интеграцию с сервисами озвучивания, такими как Azure и OpenAI. VideoLingo позволяет загружать видео с YouTube и предоставляет удобный интерфейс для работы через Streamlit.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

17 March 2025 11:04

🔥 LightRAG — это легковесная и модульная библиотека на Python, предназначенная для создания и оптимизации потоков обработки данных с использованием RAG! Она помогает разработчикам строить эффективные пайплайны, объединяя механизмы поиска информации и генеративные модели.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

13 March 2025 06:27

✔️ TSMC предлагает ИТ-гигантам объединиться вокруг производственных мощностей Intel.

TSMC обратилась к Nvidia, AMD и Broadcom с предложением войти в совместное предприятие, целью которого станет управление производственными мощностями Intel. Как сообщают источники, TSMC планирует сохранить за собой менее 50% акций в данном предприятии. Аналогичное предложение, по некоторым данным, было направлено и компании Qualcomm. Эти переговоры разворачиваются на фоне обращения администрации президента США к TSMC с просьбой оказать содействие испытывающей трудности Intel. Известно, что переговоры по Intel находятся на ранней стадии, и TSMC заинтересована в привлечении нескольких компаний к участию в этом проекте.
zaobao.com.sg

✔️ ИИ от Sakana AI успешно прошел научное рецензирование.

Проект Scientist-v2, разработка Sakana AI, смогла создать научную работу, которая успешно прошла процесс рецензирования на одном из воркшопов Международной конференции ICLR. Это стало первым случаем, когда полностью сгенерированное исследование прошло стандартную процедуру оценки. Представленная работа была посвящена методам регуляризации нейронных сетей и, как ни странно, сообщала об отрицательных результатах.

Несмотря на то, что средняя оценка работы составила 6.33, что превысило порог принятия воркшопа, согласно предварительной договоренности, работа была отозвана, поскольку в научном сообществе пока отсутствуют устоявшиеся нормы для сгенерированных работ.
sakana.ai

✔️ Google DeepMind выводит ИИ в физический мир с Gemini Robotics.

Google DeepMind представила новейшую разработку – Gemini Robotics, модель на базе Gemini 2.0, способную наделить роботов способностью к "телесному" мышлению. Эта VLA (Vision-Language-Action) модель способна самостоятельно управлять роботами, открывая новые возможности в их применении.

Наряду с ней представлена Gemini Robotics-ER, модель с углубленным пространственным пониманием, позволяющая робототехникам использовать возможности Gemini в своих проектах. Обе модели демонстрируют интерактивность и ловкость, позволяя роботам адаптироваться к различным ситуациям, взаимодействовать с людьми и выполнять сложные задачи. Google DeepMind тестирует Gemini Robotics-ER с несколькими доверенными партнерами.
deepmind.google

✔️ Doubao (ByteDance) опубликовала технические детали модели генерации изображений Seedream 2.0.

Команда Doubao официально представила технический отчет о своей модели генерации изображений Seedream 2.0, впервые раскрыв детали процесса разработки, начиная со сбора данных и заканчивая постобработкой с использованием RLHF.

В отчете отмечаются улучшения в понимании китайского и английского языков, отрисовке текста, достижении высокого уровня эстетики и разрешения генераций. Seedream 2.0 была запущена еще в начале декабря 2024 года в приложениях Doubao и Jimeng, ей воспользовались сотни миллионов пользователей и она стала любимым инструментом для многих профессиональных дизайнеров в Китае. По сравнению с Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro, Seedream 2.0 лучше справляется с текстом и лучше понимает китайскую культуру. Модель поддерживает запросы на китайском и английском языках.
team.doubao.com

✔️ Испания вводит крупные штрафы за отсутствие маркировки контента, созданного ИИ.

Испанское правительство одобрило законопроект, предусматривающий введение внушительных штрафов для компаний, которые используют сгенерированный контент без соответствующей маркировки. Мера направлена на борьбу с распространением "дипфейков".

Несоблюдение требований по маркировке будет классифицироваться как "серьезное правонарушение", что может повлечь за собой штрафы до 35 млн. евро или 7% от годового оборота компании-гарушителя. Новый регулирующий орган AESIA будет отвечать за обеспечение соблюдения новых правил.
reuters.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

12 March 2025 15:02

Хотите получить много практики на рельных задачах, собрать портфолио и узнать как выглядит рабочий день аналитика?

CEO Simulative и эксперт с большим опытом в аналитике, Андрон Алексанян организовал бесплатный интенсив , где в течение 3 недель вы будете решать реальные задачи, с которыми аналитики сталкиваются на работе

На прямых эфирах вы сделаете:
🟠Анализ активности пользователей с помощью SQL
🟠Анализ маркетинговых активностей с помощью Python
🟠ABC анализ ассортиментной матрицы в Excel (уже прошел, но вам будет доступна запись)

Во время эфиров вы узнаете много лайфхаков, а также будете получать полезные материалы для развития в аналитике на протяжении всего интенсива

❗️Знать Python и SQL не обязательно — все будем разбирать с нуля

🕗Встречаемся на новом эфире уже завтра, 13 марта в 19:00 по мск

Участвовать в бесплатном интенсиве

Читать полностью…

Big Data AI

12 March 2025 08:28

❓Готовы ли вы изучить Machine Learning на профессиональном уровне?

👨‍💻🛠 Пройдите короткое вступительное тестирование и узнайте.

В случае успешного прохождения вас ждут подарки — доступ к открытым урокам для знакомства с форматом обучения и специальная цена на курс.

За 5 месяцев на курсе «Machine Learning. Professional» вы освоите NLP, рекомендательные системы, временные ряды, PyTorch и Spark. Будете работать на реальных кейсах, с поддержкой экспертов, а в финале получите проект для портфолио и навыки для Junior+ / Middle позиций в Data Science и ML.

➡️ Оставить заявку на обучение прямо сейчас: https://otus.pw/6Hdv/?erid=2W5zFJUQkqn

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Big Data AI

10 March 2025 15:28

📹 NVIDIA’s New AI Grows Stuff Out Of Nothing!

Смотреть

Читать полностью…

Big Data AI

09 March 2025 13:00

🔥 Code2Prompt — это инструмент командной строки, который помогает разработчикам передавать структуру и содержимое кода большим языковым моделям!

🌟 Он автоматически генерирует Markdown-файлы с подробным представлением проекта, что упрощает анализ, документирование и рефакторинг кода. Это особенно полезно для работы с крупными кодовыми базами, где важно дать модели контекст перед генерацией ответов.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

04 March 2025 19:56

📖 NExT-Mol: объединение 3D-диффузионных моделей и 1D-языкового моделирования для генерации молекул!

🌟 В этой статье представлена новая модель NExT-Mol, сочетающая преимущества 1D-языковых моделей (LM) и 3D-диффузионных моделей для генерации трехмерных структур молекул. Авторы отмечают, что, хотя 3D-диффузионные модели эффективно моделируют непрерывные 3D-конформеры, они могут генерировать некорректные молекулы. В то же время 1D-LM, основанные на SELFIES, обеспечивают 100% валидность создаваемых молекул, используя большие одномерные наборы данных.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

04 March 2025 11:43

💥 Почему ансамблирование — это must-have в ML?

Даже лучшие ML-модели не идеальны. Но что если можно усилить их точность, объединив несколько алгоритмов?

На открытом уроке разберём популярные методы ансамблирования:

- Бэггинг снижает дисперсию модели, делая её устойчивее
- Градиентный бустинг усиливает предсказания, обучая модели на ошибках

Вы узнаете, как эти методы повышают точность прогнозов, и разберёте их на практике.

📅 Встречаемся онлайн 17 марта в 18:00 мск. Открытый урок пройдёт в преддверии старта курса «Специализация Machine Learning», а все участники получат скидку на обучение.

➡️ Ссылка для регистрации: https://otus.pw/wVh8/?erid=2W5zFHHsWPa

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Big Data AI

01 March 2025 11:01

🔥 OpenObserve — это облачное решение для мониторинга и анализа данных с открытым исходным кодом!

🌟 Оно позволяет собирать, индексировать и визуализировать различные метрики и логи в реальном времени.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

26 February 2025 09:02

🔥 openpilot — это открытое программное обеспечение, которое служит операционной системой для робототехники для улучшения системы помощи водителю в автомобилях!

🌟 openpilot расширяет возможности существующих систем помощи водителю (ADAS) и может быть установлен на более чем 275 поддерживаемых моделях автомобилей. Он добавляет функции, такие как удержание полосы, адаптивный круиз-контроль и автоматическое экстренное торможение.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Subscribe to a channel