bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

✔️ Дорожная карта бесплатных курсов по машинному обучению 2025

В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.

➡️ Курсы

Читать полностью…

Big Data AI

Апскейлим ЮБОЕ видео до 8К (!) и 120 FPS — в редактор KREA завезли мощный апскейлер голливудского уровня от Topaz.

Фича вытянет любой шакал на голливудский уровень качества — дорисует кадры и поднимет разрешение.

Улучшаем свои видосы тут.

Читать полностью…

Big Data AI

🔜 Google запускает новую инициативу в сфере кино и телевидения под названием 100 Zeros — это многолетнее партнёрство с Range Media Partners, направленное на финансирование и производство как художественного, так и документального контента. Цель проекта — использовать силу повествования для продвижения технологий Google, таких как искусственный интеллект и Immersive View, а также для формирования позитивного имиджа компании среди молодёжи.

В рамках 100 Zeros уже поддержан инди-хоррор "Cuckoo", а также запущена программа "AI On Screen" для создания короткометражных фильмов об ИИ, некоторые из которых могут перерасти в полнометражные проекты. Интересно, что Google не планирует использовать YouTube в качестве основной платформы распространения; вместо этого компания намерена продавать проекты традиционным студиям и стриминговым сервисам, таким как Netflix.

Эта стратегия отражает стремление Google интегрировать свои продукты в массовую культуру и укрепить позиции на рынке технологий, конкурируя с такими гигантами, как Apple и OpenAI.

https://www.businessinsider.com/google-tv-movie-hollywood-boost-tech-image-hundred-zeros-2025-5

Читать полностью…

Big Data AI

🖥 500+ промптов для любых задач — собрано в одном месте.

Всего 9 категорий: бизнес, карьера (подходит для создания резюме), креатив, образование, здоровье, маркетинг, технологии, личный помощник и универсальные.

Сохраняйте, чтобы всегда под рукой. Ускоряйте работу и повышайте свою эффективность!

https://www.promptly.fyi/library

Читать полностью…

Big Data AI

🌟 Google представила Global Health Benchmark (GHB) — новый комплексный тест для оценки больших языковых моделей (LLMs) в контексте глобального здравоохранения.

Основная цель: оценить, насколько эффективно LLM могут поддерживать задачи в области глобального здравоохранения, включая диагностику, лечение, коммуникацию с пациентами и принятие решений в условиях ограниченных ресурсов.

https://research.google/blog/benchmarking-llms-for-global-health/

Читать полностью…

Big Data AI

🦾 Berkeley Humanoid Lite — открытый человекоподобный робот

Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.

Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.

🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры

Что доступно:

- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота


🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики

🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат

*Clone → Print → Build → Hack!* 🤓

🔜 Проект
🔜 Код
🔜 Схемы

@ai_machinelearning_big_data


#robots #ai #ml #opensource

Читать полностью…

Big Data AI

🎬 FunClip — open-source ИИ для автоматического монтажа видео

Alibaba представила любопытный инструмент для автоматической нарезки видео с помощью ИИ. FunClip использует speech-to-text модели, чтобы преобразовывать речь в текст с таймкодами, а затем вырезать нужные фрагменты.

Система поддерживает кастомизацию: можно задавать ключевые слова для улучшения распознавания или выбирать реплики конкретного человека. В последней версии добавили LLM-фичи — например, GPT и Qwen могут анализировать субтитры и предлагать моменты для монтажа.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

🔥 MiniCPM-o 2.6 — это мощная языковая модель с 8 млрд параметров, разработанная OpenBMB! Она поддерживает текст, изображения, видео и аудио, а также обеспечивает высококачественные ответы на естественном языке. Производительность модели сравнима с GPT-4o-202405, особенно в обработке мультимодального контента.

💡 Особенности MiniCPM-o включают расширенные возможности оптического распознавания символов (OCR), улучшенное понимание видео и поддержку голосовых диалогов в реальном времени на английском и китайском языках. Модель может адаптировать тембр, скорость и эмоции речи, что делает её полезной для голосовых ассистентов и интерактивных приложений.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

📂 Dot — локальный чат с документами на базе Phi-3.5. Этот проект выделяется на фоне корпоративных решений вроде Chat with RTX от Nvidia своей простотой и доступностью.

Разработанный студентом как side-проект, Dot предлагает минималистичный интерфейс для не-программистов, но при этом сохраняет всю мощь современных RAG-технологий под капотом.

Особенности:
▪️Готовые сборки для Windows и macOS
▪️Поддержка мультидокументных запросов
▪️Режим обычного чата без привязки к файлам

🔗 GitHub

@bigdatai

Читать полностью…

Big Data AI

✔️ Википедия выпустила датасет для обучения ИИ.

Википедия представила структурированный датасет на платформе Kaggle, чтобы облегчить разработчикам ИИ доступ к данным и снизить нагрузку на свою инфраструктуру. Вместо парсинга сырого текста ботамы, теперь доступны JSON-файлы на английском и французском языках с разделами статей, краткими описаниями, инфобоксами и ссылками на изображения.

Датасет оптимизирован для ML-задач: файнтюна моделей, анализа и тестирования. Это часть стратегии Викимедии, которая не только экономит ресурсы Википедии, но и упрощает работу с контентом — вместо борьбы с ботами разработчики получают готовый инструмент.

enterprise.wikimedia.com

Читать полностью…

Big Data AI

⚡️Строим рекомендательную систему фильмов на Kaggle

Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬

Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.

Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели

Вебинар будет интересен как новичкам, так и уже опытным специалистам

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Big Data AI

🌟 HunyuanPortrait: высокое качество анимации портретов

Новая технология от Hunyuan, превращающая статичные изображения в реалистичную анимацию с беспрецедентной чёткостью и стабильностью!

🆕 Что нового?
1⃣ Статичное изображение превращается → живое видео
2⃣ Невероятная реалистичность: Implicit Control + Stable Video Diffusion
3⃣ Плавность и сверхчёткая детализация в анимации лица и головы

Легко адаптируется под любые стили изображений.

Анимация создается по одному фото, нужен только видео-референс в качестве шаблона для генерации.

✅ Работает в один клик
✅ Синхронные мимика и движения головы
✅ Сохраняется черте даже при смене стиля

🟡 Проект
🟡 ArXiv
🟡Github (Коммент от разработчиков - проходим внутреннюю проверку перед открытым исходным релизом и загрузим код и веса сразу после её завершения.)

#Hunyuan

Читать полностью…

Big Data AI

Присоединяйтесь к дискуссии — задавайте свои вопросы в комментариях к посту

Рекламодатель БАНК ВТБ (ПАО), ИНН 7702070139, Генеральная лицензия банка России №1000. Реклама, erid: 2SDnjeSPqYY. 0+
/channel/Data_fusion/152

Читать полностью…

Big Data AI

ИИ-помощники и гибридное облако с ИИ: главные анонсы конференции GoCloud от провайдера Cloud.ru

1. Cloud.ru Evolution AI Factory, цифровая платформа для создания AI-приложений и агентов в облаке. Платформа ускоряет разработку AI-агентов, упрощает их внедрение, снижает инфраструктурные затраты и помогает быстрее выводить продукты на рынок.

2. Cloud.ru Evolution Stack AI-bundle, первое в России гибридное облако с поддержкой искусственного интеллекта. Платформа ускорит внедрение решений на основе ИИ, поможет решать AI-задачи в гибридном сценарии: например, обучать модели в публичном облаке, а инференс выполнять в частном контуре клиента.

По словам СЕО Cloud.ru Евгения Колбина, скоро в облачной платформе Cloud.ru Evolution появится бесплатный AI-помощник.

«Мы планируем, что к 2026 году AI-помощники будут выполнять большинство задач в частотных сценариях работы в облаке. Это кардинально изменит опыт пользователей при работе с облачными продуктами. С момента запуска AI-помощники будут доступны в публичных, гибридных и частных облаках Cloud.ru», — добавил Евгений Колбин.

Читать полностью…

Big Data AI

Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип

Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и внеси вклад в продукты, которые приносят пользу разработчикам по всей России.

На хакатоне ты сможешь:
— Выбрать один из пяти треков и создать решение на базе ИТ-платформ МТС.
— Побороться за призовой фонд — 1 500 000 рублей.
— Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС.
— Повысить шансы на прохождение стажировки в МТС.
— Узнать больше о продуктах и технологиях МТС от экспертов компании.

Хакатон будет проходить с 17 по 25 апреля.
Регистрация открыта до 16 апреля. https://truetechhack.ru/

Читать полностью…

Big Data AI

🔍 Vespa — поисковая платформа для работы с векторами и ML-моделями в реальном времени.

Проект предлагает нестандартный подход к обработке данных: он объединяет полнотекстовый поиск, векторные операции и ML-инференс в едином конвейере.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.

NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.

Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.

В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.


Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.


Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.

Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.

Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.


📌Лицензирование: CC-BY-4.0 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #ASR #Parakeet #NVIDIA

Читать полностью…

Big Data AI

🔥 Burn — Rust-фреймворк для глубокого обучения с акцентом на производительность. В отличие от монолитных решений вроде PyTorch, Burn изначально заточен под кросс-платформенное выполнение: одна и та же модель может работать на NVIDIA/AMD GPU через CUDA/ROCm, на Apple-чипах через Metal и даже в браузере через WebGPU.

Главная фишка проекта в модульной архитектуре с подключаемым бэкендом и автоматической оптимизацией вычислений. Например, система умеет объединять операции ядер без ручного вмешательства. Для исследователей есть встроенный дашборд для мониторинга обучения, а для продакшна простая конвертация в ONNX.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

✔️ Ideogram 3.0: больше реализма и новые инструменты для разработчиков.

Ideogram представил масштабное обновление своей нейросети для генерации изображений. Версия 3.0 создаёт более фотореалистичные картинки, точнее понимает запросы и предлагает вдвое больше стилей. Теперь можно загрузить до 3-х референсов, чтобы задать стиль генерации, или выбрать готовый из библиотеки.

Новые инструменты: Magic Fill и Extend. Первый позволяет менять или добавлять элементы в готовом изображении, а второй — расширять его за рамки исходного кадра. Для разработчиков открыли API с текстовой генерацией, редактированием, заменой фона и другими функциями. Интегрировать Ideogram 3.0 можно через партнерские платформы: Picsart, Freepik, Replicate и другие.
Ideogram в X (ex-Twitter)

✔️ Midjourney анонсировала функцию Omni-Reference.

Midjourney тестирует новую функцию, Omni-Reference, которая позволяет тонко настраивать визуальные элементы в создаваемых изображениях. В отличие от старого Character Reference (v6), система теперь поддерживает не только персонажей, но и отдельные объекты — например, можно указать: «Добавь именно этот меч в сцену».

Omni-Reference доступен в веб-интерфейсе сервиса (перетаскивание изображения в зону «omni-reference») или в Discord через параметр --oref с URL. Силу влияния reference регулирует параметр --ow (0–1000): низкие значения подходят для стилизации, а высокие — для сохранения деталей вроде лица или одежды.
Midjourney в Discord

✔️ Apple и Anthropic планируют добавить вайб-кодинг в Xcode.

Apple совместно с Anthropic готовит обновление Xcode с интеграцией Claude Sonnet. По данным Bloomberg, внутренняя версия уже тестируется сотрудниками: разработчики могут запрашивать код через чат, инспектировать интерфейсы и исправлять ошибки с помощью ИИ. Это ускорит процессы разработки, но пока неясно, когда инструмент станет доступен публично.

Ранее Apple анонсировала Swift Assist, однако проект застопорился из-за частых галлюцинаций ИИ. Сотрудничество с Anthropic должно решить эти проблемы.
macrumors.com

✔️ FutureHouse представила ИИ-агентов для научных исследований.

Некоммерческая организация FutureHouse, поддержанная Эриком Шмидтом, запустила платформу с четырьмя ИИ-агентами: Crow, Falcon, Owl и Phoenix. Они помогают анализировать научную литературу, планировать эксперименты и искать данные в специализированных базах. По словам разработчиков, их система использует открытые научные работы и многоэтапный анализ с «прозрачной логикой».

FutureHouse предупреждает, что Phoenix, отвечающий за химические эксперименты, может выдавать некорректные результаты и призывает пользователей делиться обратной связью для доработки.
futurehouse.org

✔️ Инженеры создали первый фотонный чип для обучения ИИ.

Специалисты из Пенсильванского университета представили революционный фотонный чип, способный обучать нейросети с помощью света. Технология не только ускоряет процесс в разы, но и резко снижает энергозатраты, открывая путь к полностью оптическим вычислениям. В отличие от традиционных электронных чипов, здесь данные обрабатываются световыми импульсами, а не электричеством — это позволяет выполнять сложные нелинейные операции, критичные для глубокого обучения.

Основа инновации — управление светом через специальный полупроводниковый материал. Два луча («signal» и «pump») взаимодействуют, меняя свойства материала в реальном времени. Это дает возможность перепрограммировать чип без изменения его структуры, достаточно настроить параметры «pump»-луча. В тестах система показала 97% точности на задачах с нелинейными границами решений, обойдя цифровые аналоги по эффективности.

Уже сейчас 4 оптических соединения на чипе заменяют 20 электронных, а в будущем технология может масштабироваться для обучения LLM.
scitechdaily.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Big Data AI

🌟 MiMo-7B: Набор компактных ризонинг-моделей от Xiaomi.

Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.

Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.

Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.

Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.

На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.

Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.

Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.

Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.

▶️ Состав набора:

🟠MiMo-7B-Base - базовая модель с потенциалом рассуждений;

🟠MiMo-7B-RL-Zero - RL-модель, обученная на основе базовой;

🟠MiMo-7B-SFT - модель SFT, обученная на основе MiMo-7B-Base;

🟢MiMo-7B-RL - RL-модель, обученная на основе SFT-модели, та, которая в бенчмарках обошла OpenAI o1-mini.


⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Xiaomi #MiMo

Читать полностью…

Big Data AI

🚀 Transformer Lab — персональная лаборатория для работы с LLM прямо на ноутбуке или сервере!

▪️ Один бинарник — скачивай, запускай, дообучай и сравнивай модели (Llama 3, Mistral, Gemma, Qwen, Phi 4 и сотни других) в пару кликов.
▪️ Поддержка движков Transformers, vLLM, Llama CPP и MLX для Apple Silicon.
▪️ Fine-tune, RLHF (DPO / ORPO / SIMPO), встроенный RAG-конструктор и галерея датасетов Hugging Face.
▪️ Быстрые бенчмарки, чат-UI и REST API для прототипов.
▪️ Работает на Windows, macOS (M-чипы full power!) и Linux; можно разделять UI и backend.
▪️ Полностью open-source (AGPL-3.0) — подключай плагины или пиши свои.

💻 Проверь репозиторий: github.com/transformerlab/transformerlab-app
Собери свою LLM-песочницу и ускорь эксперименты сегодня!

https://github.com/transformerlab/transformerlab-app

Читать полностью…

Big Data AI

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
Нерйросети t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Big Data AI

🔥 GhidrAssist — это плагин для Ghidra, предназначенный для интеграции локальных больших языковых моделей с целью облегчения процесса исследования бинарных файлов и реверс-инжиниринга!

🌟 Он поддерживает любые модели на основе LLaMA, такие как llama3.1:8b, а также другие модели, включая DeepSeek и ChatGPT.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🧪 Ragas — инструмент для объективной оценки LLM-приложений.

Платформа предлагает data-driven подход к тестированию языковых моделей, заменяя субъективные оценки точными метриками. С помощью Ragas можно не только анализировать качество ответов, но и автоматически генерировать тестовые датасеты, приближенные к реальным сценариям использования.

Проект выделяется глубокой интеграцией с популярными фреймворками — от LangChain до инструментов мониторинга. Особенно полезен при построении RAG-систем, где важен постоянный контроль качества на основе production-данных.

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

👾 Griptape — фреймворк для создания AI-приложений без головной боли. В отличие от популярных решений вроде LangChain, акцент сделан на модульность: можно легко менять провайдеров LLM, векторных БД или инструментов поиска, не переписывая бизнес-логику.

В инструменте есть встроенные механизмы для работы с памятью и готовые движки для частых задач: суммаризации, извлечения структурированных данных и даже оценки качества ответов моделей.

🤖 GitHub

@bigdata_ai

Читать полностью…

Big Data AI

📌 Kor — прототип для извлечения структуры из текста через LLM

Проект имеет интеграцию с LangChain, но предлагает свой подход: вместо JSON-режима или function calling он полагается на шаблонизацию промптов. Это позволяет работать даже с моделями, не поддерживающими новые режимы вроде GPT-4-turbo.

Новая версия 1.0.0 принесла совместимость с Pydantic v2, хотя разработчики предупреждают, что работа может заметно замедлиться

🤖 GitHub

@bigdatai

Читать полностью…

Big Data AI

📦 ML Crate — структурированная песочница для ML-экспериментов. Проект предлагает начинающим чёткий шаблон для своих работ: от датасетов и Jupyter-ноутбуков до готовых веб-приложений на Flask/Streamlit.

Проект предлагает начинающим чёткий шаблон для своих работ: от датасетов и Jupyter-ноутбуков до готовых веб-приложений на Flask/Streamlit.

Важно, что репозиторий не просто хранит код, а учит правильному workflow:
▪️отдельные папки для данных, визуализаций и моделей
◾️обязательные requirements.txt и README-файлы


🔗 GitHub

@bigdatai

Читать полностью…

Big Data AI

✔️ Google представила новые геопространственные модели для анализа данных.

Google анонсировала запуск тестовой программы новых геопространственных и Population Dynamics моделей.

Эти инструменты объединяют генеративный ИИ (под капотом - Gemini), с данными спутниковых снимков и социальными индексами, чтобы ускорить анализ в сферах урбанистики, экологии и кризисного управления.

Модели позволяют находить объекты по описанию («дороги с заторами»), сегментировать ландшафты и предсказывать динамику населения. Интеграция с Google Cloud и Earth Engine дает разработчикам возможность для создания собственных решений — от медиапланирования до мониторинга сельхозугодий.

Первыми тестерами стали Airbus, Maxar и Planet Labs: они используют модели для анализа спутниковых данных в реальном времени. Сейчас доступ к моделям открыт через программу Trusted Tester, а детали Google обещает раскрыть в ближайшие месяцы.

🔗 research.google

@ai_machinelearning_big_data

#google #geospatialreasoning

Читать полностью…

Big Data AI

📒 TabNet — революционный подход к работе с табличными данными. Этот проект предлагает уникальную реализацию нейросетевой архитектуры TabNet на PyTorch, специально разработанной для эффективного анализа табличных данных.

Проект поддерживает все основные типы ML-задач: от бинарной классификации до мультитаргетной регрессии, а его интеграция с scikit-learn делает работу интуитивно понятной даже для новичков.

📌 GitHub

@bigdatai

Читать полностью…

Big Data AI

🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.

Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.

По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.

Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.

Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.

Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.

Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.

Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.

@ai_machinelearning_big_data

Читать полностью…
Subscribe to a channel