bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

🔥 UnpromptedControl

Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.

Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.

Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.

- Githiub
- Colab

@bigdatai

Читать полностью…

Big Data AI

🌟BRAG: Серия Instruct-RAG LLM.

BRAG - это серия специализированных языковых моделей, обученных для RAG-задач с текстом, таблицами и в режиме чата. Все модели ориентированы в основном на английский язык, но модели на базе Llama-3.1-8B и Qwen2-1.5b имеют наследованную поддержку мультиязычности.

В качестве базовых моделей использованы Qwen2-1.5B, Qwen2-7B-Instruct, Llama-3.1-8B-Instruct и Llama-3-8B-Instruct.

Список моделей:

🟢BRAG-Qwen2-7b-v0.1 Instruct | 7B | 128K
🟢BRAG-Llama-3.1-8b-v0.1 Instruct | 8B | 128K
🟢BRAG-Llama-3-8b-v0.1 Instruct | 8B | 8K
🟢BRAG-Qwen2-1.5b-v0.1 Instruct | 1.5B | 32K

▶️Формат промта:


messages = [
{"role": "system", "content": "You are an assistant who gives helpful, detailed, and polite answers to the user's questions based on the context with appropriate reasoning as required. Indicate when the answer cannot be found in the context."},
{"role": "user", "content": """Context: <CONTEXT INFORMATION> \n\n <USER QUERY>"""},
]


⚡️Лицензирование :  Apache-2.0



Страница проекта
Коллекция моделей на HF


@ai_machinelearning_big_data

#AI #LLM #ML #BRAG #RAG

Читать полностью…

Big Data AI

🤖 LSP-AI

Интересный инструмент с открытым исходным кодом, позволяющий обсуждать ваш код с ИИ, над которым работаете, без переключения контекста.

Общайтесь с LLM прямо в текстовом редакторе

Работает с любым LSP-совместимым редактором (VS Code, Neovim, Helix, Emacs и т.д.)

Поддерживает различные локальные Lms, используя llama.cpp, Ollama, любой сервер, совместимый с OpenAPI, и многое другое.

Github

@bigdatai

Читать полностью…

Big Data AI

🔝 Caldera

Набор данных Caldera представляет собой сцены с открытым исходным кодом, содержащую большую часть геометрии, найденной в игре Call of Duty®: Warzone™. Это не фактические производственные данные, а скорее преобразование их частей в формат файла USD с открытым исходным кодом.

Github

@bigdatai

Читать полностью…

Big Data AI

✨ На платформе LLM Arena была обнаружена новая модель Яндекса YandexGPT Experimental

Эта модель, которая станет частью обновленного семейства YandexGPT, уже делит лидерство в рейтинге с такими крупными игроками, как GPT-4o, GPT-4 Turbo и Claude 3,5 Sonnet. Яндекс подтвердил, что работает над улучшением своей языковой модели, и обещает значительное повышение её возможностей.

LLM Arena, созданная независимыми разработчиками из российского ML-комьюнити, предоставляет пользователям возможность сравнивать ответы различных нейросетей на русском языке. Пользователи могут задавать любые вопросы и объективно оценивать качество ответов благодаря обезличенному формату.

@bigdatai

Читать полностью…

Big Data AI

🔵🗣Вырасти до хардового Middle+ аналитика.
Как? Добавьте к своим скилам навыки в проектировании архитектуры и интеграций веб-сервисов!

Рассмотрите — авторский курс про архитектуру и интеграции
с практикой.
—————
По результатам курса вы:
▫️научитесь выбирать стиль интеграции под вашу задачу;
▫️сможете проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и др. + брокеры сообщений);
▫️поймете, как правильно собирать требования и моделировать в UML;
▫️подготовитесь к собеседованию, решив более 100 тестов;
▫️разработаете свой API на Python;
—————
🟢Вы получите большую базу фундаментальных знаний, доступ к урокам и обновлениям остается навсегда 💡

• Всю программу и отзывы смотрите в боте курса.
• Бонусный модуль про проектирование баз данных — нормализация, транзакции, основы DWH, индексы.
• Результат после прохождения курса: 15 рабочих проектов в портфолио.
• Доступ к чату учеников (общение, обмен опытом, помощь внутри сообщества)

🔹🔹 С чего начать?🔹🔹
С открытых бесплатных уроков по архитектуре и интеграциям в чат-боте курса. Переходите.
👇
@studyit_help_bot

Скидка на курс от канала —
1 000₽ по промокоду BIGDAT до 31 июля

Читать полностью…

Big Data AI

💸💵 AI Startup Cohere Valued at $5.5 Billion in New Funding Round

Канадский стартап Cohere Inc., занимающийся разработкой крупномасштабных языковых моделей для бизнеса, поднял $500 млн в новом раунде финансирования и оценивается в $5.5 млрд. 💰

Cohere, работающий с крупными клиентами вроде Oracle и Notion Labs, предлагает альтернативу популярным чатботам, сосредотачиваясь на практическом применении ИИ для улучшения бизнес-процессов.

Компания планирует удвоить численность своих сотрудников и сохранить свою главную базу в Торонто, несмотря на наличие офисов в Сан-Франциско и Лондоне.

#аналитика #bigdata #бизнес #IT #менеджмент #управление_продуктом #технологии

@bigdatai

Читать полностью…

Big Data AI

Nvidia не смогла получить от TSMC выделенную линию для упаковки ИИ-чипов

💡 Nvidia не смогла получить от TSMC выделенную линию для упаковки ИИ-чипов, используя метод CoWoS. Основатель Nvidia Дженсен Хуанг встретился с руководителями TSMC, но получил отказ. TSMC признала, что не сможет удовлетворить спрос на компоненты для ИИ-систем до 2026 года, и решила сохранять равные условия для всех клиентов. Хотя TSMC ранее предоставляла привилегии крупным клиентам, как Apple, ситуация с Nvidia отличается. Компания будет жестко отстаивать свои интересы в переговорах. 🌐

#python #machinelearning #neuralnetwork #ml

@bigdatai

Читать полностью…

Big Data AI

✨Яндекс разработал алгоритм, позволяющий сжимать языковые модели в 8 раз без потери качества

Команда Yandex Research совместно с исследователями IST Austria разработала новые методы сжатия больших языковых моделей и выложила их в опенсорс. При уменьшении моделей этим способом в 8 раз исследователям удалось сохранить качество ответов в среднем на 95%.

Решение позволит компаниям и независимым разработчикам значительно сэкономить потребляемые ресурсы и ускорить работу нейросетей. Например, запускать модели на устройствах с небольшой вычислительной мощностью.

Статья о новом подходе вошла в программу международной конференции по машинному обучению ICML: https://habr.com/ru/companies/yandex/articles/830410

@bigdatai

Читать полностью…

Big Data AI

✨Наборы данных NuminaMath: крупнейшая коллекция из ~ 1 млн пар задач и решений для математических соревнований, варьирующихся по сложности от юношеских олимпиад до университетских экзаменов.

➡️ Цепочка рассуждений (CoT): 860 тысяч пар задач и решений, созданных с помощью CoT.

🛠️ Инструментально-интегрированные рассуждения (TIR): 73 тысячи синтетических решений, полученных на основе GPT-4, с обратной связью по выполнению кода для разбивки сложных задач на более простые подзадачи, которые могут быть решены с помощью Python.

Модели, обученные на NuminaMath, демонстрируют лучшие в своем классе показатели среди моделей с открытым весом и приближаются или превосходят собственные модели по показателям математических соревнований 🔥

🤗 Hub: https://huggingface.co/collections/AI-MO/numinamath-6697df380293bcfdbc1d978c

@bigdatai

Читать полностью…

Big Data AI

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.

Улучшения по сравнению с исходной Llama-3-70B-Instruct:
🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы;
🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов;
🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения;
🟢Доработана креативность в написании текстов, писем, эссэ;
🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой.

Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.

▶️Внимание, размер модели составляет ~ 140 Gb

Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.

📌Лицензирование: CC-BY-NC-4.0


🟡Страница проекта
🟡Модель на HF
🟡Сообщество и поддержка
🖥Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ]

@ai_machinelearning_big_data

#AI #Nexusflow #LLM #ML #Athene70B

Читать полностью…

Big Data AI

🗃 Библиотеки для работы с временными рядами

🔴Прогнозирование
• [17,9k stars] https://github.com/facebook/prophet
• [9,6k stars] https://github.com/statsmodels/statsmodels
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [7,4k stars] https://github.com/unit8co/darts
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,7k stars] https://github.com/jdb78/pytorch-forecasting
• [3,3k stars] https://github.com/salesforce/Merlion
• [1,8k stars] https://github.com/linkedin/greykite
• [840 stars] https://github.com/etna-team/etna
• [610 stars] https://github.com/aimclub/FEDOT

🟢Классификация
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [2,8k stars] https://github.com/tslearn-team/tslearn/
• [1,7k stars] https://github.com/johannfaouzi/pyts
• [1,5k stars] https://github.com/hfawaz/dl-4-tsc
• [840 stars] https://github.com/tinkoff-ai/etna

🟣Кластеризация
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [2,8k stars] https://github.com/tslearn-team/tslearn/

🟡Агрегация (выделение признаков)
• [8,2k stars] https://github.com/blue-yonder/tsfresh
• [4,8k stars] https://github.com/facebookresearch/Kats
• [800 stars] https://github.com/fraunhoferportugal/tsfel
• [370 stars] https://github.com/predict-idlab/tsflex

🔵Поиск аномалий (changepoint detection)
• [1,5k stars] https://github.com/deepcharles/ruptures
• [17,9k stars] https://github.com/facebook/prophet
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,3k stars] https://github.com/salesforce/Merlion
• [2,1k stars] https://github.com/SeldonIO/alibi-detect
• [1,8k stars] https://github.com/linkedin/greykite
• [1,2k stars] https://github.com/linkedin/luminol
• [1k stars] https://github.com/arundo/adtk

🔴Поиск аномалий (outlier detection)
• [8k stars] https://github.com/yzhao062/pyod
• [1,3 stars] https://github.com/datamllab/tods
• [840 stars] https://github.com/tinkoff-ai/etna
• [750 stars] https://github.com/zillow/luminaire/
• [220 stars] https://github.com/selimfirat/pysad

🟢Аугментация и генерация
• [4,8k stars] https://github.com/timeseriesAI/tsai
• [630 stars] https://github.com/ratschlab/RGAN
• [330 stars] https://github.com/arundo/tsaug
• [330 stars] https://github.com/TimeSynth/TimeSynth
• [320 stars] https://github.com/uchidalab/time_series_augmentation

@bigdatai

Читать полностью…

Big Data AI

Искусственный интеллект (AI) и Big Data продолжают развиваться с невероятной скоростью. Сегодня AI не только анализирует огромные объемы данных, но и помогает бизнесу принимать стратегические решения, прогнозировать события и персонализировать медицинские услуги. Эксперты прогнозируют, что к концу года рынок Big Data и AI превысит $150 млрд. А средняя зарплата мидл ML-инженера: больше 2 тыс. долларов в месяц.

Где это применяется? Везде: от финансового сектора до здравоохранения. В банках AI и Big Data предотвращают мошенничество, в ритейле — улучшают клиентский сервис, а в медицине — ставят точные диагнозы и разрабатывают новые лекарства.

Хотите быть в центре этой технологической революции? НИЯУ МИФИ и Skillfactory предлагают онлайн-магистратуру "Прикладной анализ данных и машинное обучение". Вы освоите передовые алгоритмы и методы работы с большими данными, научитесь внедрять модели в продакшен и станете востребованным специалистом в индустрии.

Основные моменты программы:
- Обучение от нуля до продвинутого уровня: для начинающих и продолжающих.
- Два карьерных трека: включая направление MLOps.
- Обучение в онлайн формате: диплом МИФИ и студенческие льготы.
- Интенсивная практика: работа на тренажерах, кейсах и хакатонах.
- Преподаватели-практики: ведущие специалисты в области ML и DS.
- Доступная стоимость: от 270 р/мес первый год благодаря господдержке.

Не упустите шанс стать частью будущего! Переходите по ссылке, оставляйте заявку и начните свой путь в мир AI и Big Data: https://go.skillfactory.ru/LNlqfQ

Реклама. ООО «Скилфэктори»
erid: LjN8KBMrT

Читать полностью…

Big Data AI

Что делать, если у Вас неопытная команда, а надо делать сложную задачу? 

Расскажем, как математика может помочь выстроить архитектуру приложения, которая позволит разрешить ситуацию в вашу пользу.

🔹 Приглашаем вас на открытый урок «Как 7 студентов и филолог делали технически сложный проект»

Урок посвящен курсу «Математика для программистов» от Otus — лучшие практики, после изучения которых вы сможете быстрее изучать новые языки программирования и фреймворки.

👉 Регистрация и подробности
https://otus.pw/iaMH/?erid=LjN8KbEGA

Читать полностью…

Big Data AI

🌟 DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео.

DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео. В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.

DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.

В репозитории на Github представлен код для локальной тренировки с использованием датасетов:

- D-NeRF
- DG-Mesh
- NeuralActor
- Кастомный датасет, снятый на Iphone 14 Pro и обработанный в Record3D, RealityCheck и маскированный в DEVA.

🖥 Локальный запуск:

conda create -n dg-mesh python=3.9
conda activate dg-mesh
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

# Install nvdiffrast
pip install git+https://github.com/NVlabs/tiny-cuda-nn#subdirectory=bindings/torch
pip install git+https://github.com/NVlabs/nvdiffrast/

# Install pytorch3d
export FORCE_CUDA=1
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
pip install "git+https://github.com/facebookresearch/pytorch3d.git"

# Clone this repository
git clone https://github.com/Isabella98Liu/DG-Mesh.git
cd DG-Mesh

# Install submodules
pip install dgmesh/submodules/diff-gaussian-rasterization
pip install dgmesh/submodules/simple-knn

# Install other dependencies
pip install -r requirements.txt


🟡 Страница проекта
🖥 GitHub [ Stars: 234 | Issues: 6 | Forks: 2 ]
🟡 Arxiv

@ai_machinelearning_big_data

#Video2Mesh #3D #ML #NeRF

Читать полностью…

Big Data AI

🪐 Gravitational Lensing by Spinning Black Holes in Astrophysics, and in the Movie Interstellar

Невероятная статья, которую вы возможно пропустили.

Программное обеспечение для создания черной дыры в фильме "Интерстеллар" представляет собой полную реализацию уравнений Эйнштейна в 40 000 строк на C++, которое отрисовало тысячи 23-мегапиксельных кадров формата IMAX на 32 000-ядерной рендер-ферме со скоростью около 20 ядер в час на кадр .

Про реализацию этого монстра можно почитать здесь: https://arxiv.org/pdf/1502.03808.pdf

@cpluspluc

Читать полностью…

Big Data AI

🧠 NeuroSynth — набор данных для нейросетевых исследований в области синтетических изображений

NeuroSynth представляет собой обширный набор данных, предназначенный для обучения и тестирования нейросетевых моделей на синтетических изображениях.

Этот набор данных включает в себя разнообразные сценарии и объекты, созданные с помощью генеративных алгоритмов, что позволяет исследователям и разработчикам улучшать и адаптировать свои модели для работы с синтетическими данными.

Основные характеристики NeuroSynth:

Широкий выбор сцен и объектов: Набор данных охватывает множество различных сцен и объектов, которые можно использовать для тренировки моделей в различных областях, таких как компьютерное зрение и генерация изображений.

Высокое качество данных: Изображения в наборе данных имеют высокое разрешение и детализированную текстуру, что позволяет моделям эффективно обучаться на реалистичных данных.

Открытый доступ: NeuroSynth доступен для исследователей и разработчиков, что способствует развитию новых технологий и улучшению существующих алгоритмов.

Пример использования NeuroSynth:

from neuro_synth import DataLoader

# Загрузка набора данных
data_loader = DataLoader('path/to/neuro_synth')
images = data_loader.load_images()

# Обработка и тренировка модели
model.train(images)

Исследуйте возможности NeuroSynth и улучшайте свои модели с помощью синтетических данных!

GitHub

@bigdatai

Читать полностью…

Big Data AI

🌟 Инновации в мире данных: Новый инструмент от GitHub

GitHub вновь удивляет! Представлен новый инструмент для машинного обучения — Models. Эта платформа уже сравнивается с Hugging Face и обещает стать незаменимым помощником для разработчиков.

🔍 Проект пока на стадии тестирования, но вы можете записаться в лист ожидания и быть в числе первых, кто опробует его возможности. Важные особенности GitHub Models:

Тестирование нейронных сетей в безопасной песочнице перед интеграцией кода в VS Code или Codespaces.

Интеграция с Azure и другими популярными облачными сервисами для разработчиков.

🧠 Уже сейчас на платформе доступно более 20 моделей, включая GPT-4o, GPT-4o mini и Llama 3.1. Платформа будет регулярно обновляться, а разработчики смогут добавлять свои собственные модели, расширяя библиотеку.

📘 GitHub

Оставайтесь на волне инноваций и готовьтесь к собеседованиям с последними новостями и инструментами! 🔥💻

@bigdatai

Читать полностью…

Big Data AI

👩‍💻 torchchat - мощный инструмент для инференса LLM

Легкая и удобная библиотека для локального запуска Lms на мобильных устройствах, настольных компьютерах и ноутбуках на базе PyTorch.

Github
Blog

@bigdatai

Читать полностью…

Big Data AI

🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-версии Llama-3.1-405B-Instruct со статическим и динамическим методом квантования.

Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:

🟢Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟢Meta-Llama-3.1-405B-Instruct-FP8

Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.

Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.

Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.

В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).

🟡Модель FP8-dynamic на HF
🟡Модель FP8 на HF


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8

Читать полностью…

Big Data AI

🖥 Большая шпаргалка по построению графиков в Matplotlib с примерами кода

Matplotlib — мощная библиотека построения графиков на Python, используемая для создания статических, анимированных и интерактивных визуализаций.

Основные характеристики Matplotlib:

Универсальность: может генерировать широкий спектр графиков, включая линейные графики, диаграммы рассеяния, столбчатые диаграммы, гистограммы и круговые диаграммы.

Настройка: предлагает обширные возможности для управления каждым аспектом графика, таким как стили линий, цвета, маркеры, метки и аннотации.

Интеграция с NumPy: легко интегрируется с NumPy, что упрощает построение графиков массивов данных напрямую.

Качество публикации: создает высококачественные графики, подходящие для публикации, с точным контролем эстетики.

Расширяемость: легко расширяется с большой экосистемой дополнительных наборов инструментов и расширений, таких как функции построения графиков Seaborn и Pandas.

Кроссплатформенность: не зависит от платформы и может работать на различных операционных системах, включая Windows, macOS и Linux.

Интерактивные графики: поддерживает интерактивное построение графиков с помощью виджетов и обработки событий, позволяя пользователям динамически исследовать данные.

Читать полностью…

Big Data AI

E-CUP — масштабное e-com-соревнование для ML-разработчиков! Реши реальную бизнес-задачу, поборись за призовой фонд в 1 200 000 рублей и секретный подарок для прокачки навыков и карьеры!

Регистрируйся до 18 августа

Приглашаем специалистов по Data Science, ML-инженеров, разработчиков.

Решай задачи в стиле команды Ozon Tech — минимум ручных действий, максимум автоматизации. Everything as code! Эксперты хакатона расскажут, как эффективно применять этот подход в своей работе.

На выбор — одна из задач, основанных на реальных бизнес-кейсах Ozon Tech:
1️⃣ Создать ML-модель, которая определит, одинаковые ли товары на изображении.
2️⃣ Разработать алгоритм для модерации карточек товаров с признаками нарушений правил площадки.

Ключевые этапы:
🔹 1 июля — старт регистрации
🔹 19 августа — публикация задач
🔹 8 сентября — окончание приёма решений
🔹 13 сентября — оглашение победителей

Решай задачи в нашем стиле! Не пропусти грандиозное ML-соревнование — присоединяйся к E-CUP

Читать полностью…

Big Data AI

😱😱😱Inside the 78 minutes that took down millions of Windows machines

На прошлой неделе ошибка в обновлении CrowdStrike Falcon вызвала массовые сбои Windows по всему миру. Ошибка в драйвере привела к «синему экрану смерти» на миллионах ПК. CrowdStrike быстро выпустила исправление через 78 минут, но ущерб уже был нанесен.

🚨Проблема показала необходимость улучшения тестирования обновлений и возможности отключения проблемных драйверов в Windows. Microsoft, возможно, потребуется ужесточить доступ к ядру Windows для сторонних приложений, несмотря на возможное сопротивление со стороны поставщиков безопасности и регуляторов.

#crowdstrike #аналитика #bigdata #microsoft

📎 Статья

@bigdatai

Читать полностью…

Big Data AI

🌟 ZebraLogic: Комплексная оценка логического мышления крупных языковых моделей.

ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.

Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.

Метрики оценки:
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).

Головоломки разделены на два уровня по сложности:
1. Легкие (сетка менее 3x3)
2. Сложные (сетка размером 3x3) и более.

✔️ Результаты оценки популярных моделей, представленные в публичном лидерборде:

🟢лучшие результаты показала Claude 3.5 Sonnet, решившая 33,4% всех головоломок и 12,4% сложных задач
🟢лучший результат среди открытых моделей у DeepSeek-v2-Chat (0628)
🟢модели с 7-10B параметров продемонстрировали крайне низкую эффективность на сложных головоломках (менее 1% решенных задач)
🟢Gemini-1.5-Pro оказалась сопоставима с более легкой Gemini-1.5-Flash
🟢Greedy decoding в большинстве случаев дает лучшие результаты, чем сэмплирование.

✔️ Для сравнения, средняя время выполнение теста человеком:

2x2 ~ 15 секунд
3х3 ~ 1 минута 30 секунд
4х4 ~ от 10 до 15 минут


▶️ Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval

# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on `zebra-grid`
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4


📌Лицензирование: Apache-2.0 license


🟡Страница проекта
🟡Датасет на HF
🟡Leaderboard
🖥Github [ Stars: 38 | Issues: 1 | Forks: 1]


@ai_machinelearning_big_data

#AI #Benchmark #LLM #Evaluation #ML

Читать полностью…

Big Data AI

"PetFace: крупный набор данных и бенчмарк для идентификации животных" будет представлен на #ECCV2024!! 🐶🐱🐦🐷🐰


Веб-сайт: https://dahlian00.github.io/PetFacePage/
Статья: https://arxiv.org/abs/2407.13555

@bigdatai

Читать полностью…

Big Data AI

NVIDIA’s Crazy New AI Paints With Images!

https://www.youtube.com/watch?v=_97pRR7gcfs

@bigdatai

Читать полностью…

Big Data AI

💻 HugeGraph — open-source графовая БД, реализованная на фреймворке Apache TinkerPop3 и полностью совместимая с языком запросов Gremlin

HugeGraph поддерживает импорт более 10 миллиардов вершин и ребер и может очень быстро обрабатывать запросы (на уровне мс).

Типичные сценарии применения HugeGraph — это исследование связей между объектами, анализ ассоциаций, поиск путей, извлечение признаков, кластеризация данных, обнаружение сообществ, построение графа.

Быстрый старт с Docker:

docker run -itd --name=graph -p 8080:8080 hugegraph/hugegraph
# docker exec -it graph bash


🖥 GitHub
🟡 Доки

@bigdatai

Читать полностью…

Big Data AI

⚡️ Обход капчи с GPT4o

Мощный инструмент для обхода различных капч (головоломок, текста, рекапчи) с использованием Python, Selenium и Open air GPT-4o.


📌 Github

#Python #Selenium #OpenAI #GPT4


@bigdatai

Читать полностью…

Big Data AI

Прикольная, но глубоко платная штука: https://app.on-demand.io/

Кратко, что заявлено:
Обзор платформы On-Demand
• Обзор платформы On-Demand, которая предлагает хранилище, плагины, маркетплейс, игровую площадку, языковые модели и функции для создания собственных приложений.
• Ограничение в 50 гигабайт для учетной записи разработчика.
• Возможность просмотра используемых файлов, плагинов и языковых моделей.
• Кредитные гранты для стартапов.

Плагины и маркетплейс
• Более 50 плагинов на маркетплейсе, доступных для использования.
• Возможность сортировки и фильтрации плагинов по категориям.
• Возможность оценки и просмотра плагинов.
• Создание собственных плагинов с помощью схемы Open API или визуального builder.

Playground и создание приложений
• Playground - ядро платформы, где можно тестировать плагины, языковые модели и создавать свои приложения.
• Возможность использования плагинов, языковых моделей и встроенных функций.
• Экспорт кода для использования в собственных приложениях.

Бессерверные приложения и агенты
• Возможность развертывания языковых моделей на платформе для использования в собственных приложениях.
• Создание собственных агентов для автоматизации процессов.
• Примеры использования: финансовый агент, агент по подбору персонала.

Уникальные функции платформы
• Платформа предлагает децентрализованную операционную систему с большой языковой моделью, что делает ее уникальной.
• Платформа адаптирована для агентских рабочих нагрузок и оснащена для быстрого развертывания.
Возможности платформы
• Возможности платформы безграничны, и она может быть использована для различных задач.

Безграничны!))
Цены: от самой дорогой (Gpt-4о) до BYOM (если есть своя модель) и есть бесплатный Tier (см.скрин по возможностям)
Вход по Google

@bigdatai

Читать полностью…

Big Data AI

⚡️ Как LeetCode, только по ML

В открытом доступе появился сборник задач по ML, затрагивающий темы линейной алгебры и deep learning.

Разработчики проекта поделили задачи по уровням сложности, а ещё там можно узнать правильный ответ и почитать подробнейший разбор каждой задачи.

🟡 Задачи по ML

@bigdatai

Читать полностью…
Subscribe to a channel