@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🔥 Oasis: первая играбельная игра, созданная искусственным интеллектом!
🌟 Oasis генерирует кадры на основе ваших вводов с клавиатуры. Вы можете двигаться и прыгать, разбивать блоки, строить и исследовать совершенно новую карту в каждой игре!
🔗 Попробовать можно здесь: *клик*
@bigdatai
📝 Эта статья представляет метод LiNeS (Layer-increasing Network Scaling), направленный на устранение проблемы "катастрофического забывания" при дообучении больших моделей
🌟 LiNeS корректирует параметры, масштабируя их по глубине слоев сети, что позволяет сохранить общие признаки на верхних слоях и адаптировать глубокие слои под конкретные задачи. Это улучшает производительность и обобщение в мультизадачных сценариях и при объединении моделей, таких как RLHF
📖 Читать: *клик*
@bigdatai
🔥 AutoRAG — это инструмент для поиска оптимального конвейера RAG для «ваших данных». Вы можете автоматически оценивать различные модули RAG с помощью собственных оценочных данных и находить лучший конвейер RAG для вашего собственного варианта использования
🔐 Лицензия: Apache-2.0
🖥 Github
@bigdatai
🖥 Использование PostrgreSQL для полнотекстового поиска в приложениях!
💡 Полнотекстовый поиск — это неотъемлемая часть современных приложений, особенно тех, которые работают с большими объемами текстовой информации, будь то блог-платформы, системы управления контентом или новостные агрегаторы. Какое бы приложение вы не разрабатывали, добавление возможностей полнотекстового поиска может значительно улучшить пользовательский опыт. В этой статье мы рассмотрим, какие основные возможности полнотекстового поиска предлагает PostgreSQL, какие преимущества это дает, и приведем примеры запросов
🔗 Ссылка: *клик*
@sqlhub
🖥 MineDojo — это исследовательская платформа, разработанная для создания многоцелевых ИИ-агентов с помощью среды Minecraft. Проект предоставляет инструменты и API, которые позволяют агентам взаимодействовать с Minecraft для выполнения сложных задач, таких как построение, крафтинг, исследование и другие
🌟 MineDojo создан для поддержки исследований в области ИИ, обучая агентов на большом количестве сценариев и примеров поведения. Платформа включает в себя предварительно настроенные задачи и сценарии, а также возможности для создания собственных агентов
▪️Github
@bigdatai
🖥 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.
NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:
▶️ Llama-3.1-Nemotron-70B-Instruct
Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.
Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.
🟠Llama-3.1-Nemotron-70B-Instruct-HF
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).
▶️ Llama-3.1-Nemotron-70B-Reward
Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.
Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.
Nemotron-70B-Reward занимает первое место в RewardBench.
🟠Llama-3.1-Nemotron-70B-Reward-HF
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).
Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.
HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.
⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.
⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.
📌Лицензирование моделей: Llama 3.1 Community License.
📌Лицензирование датасета : CC-BY-4.0
🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron #NVIDIA
🌟 Важным преимуществом новой версии стала её совместимость с широким спектром аппаратного обеспечения NVIDIA, включая архитектуры Ampere, Hopper и Turing. Модель оптимизирована для работы на различных GPU, от мощных H100 до более доступных A100
🔗 Подробнее: *клик*
@bigdatai
🔥 Полезный список из 30 наиболее значимых научных статей по ИИ, которые оказывают сильное влияние на современные исследования и разработки в этой области. Этот список охватывает различные аспекты, такие как машинное обучение, глубокое обучение, обработка естественного языка и многое другое!
🔗 Ссылка: *клик*
@bigdatai
🖥 Addition is All You Need for Energy-efficient Language Models — статья, которая описывает новый метод повышения энергоэффективности языковых моделей
⭐️ Авторы предлагают использовать алгоритм L-Mul, который заменяет операции с плавающей запятой на сложения целых чисел. Это значительно снижает энергопотребление на аппаратном уровне при обработке тензоров и может повысить точность по сравнению с традиционными 8-битными операциями. Метод протестирован на различных задачах и показал минимальные потери в точности
🔗 Ссылка: *клик*
@bigdatai
⚡️ Pangea-7B - полностью открытый MLLM для 39 языков
✨Обучен на основе разнообразного набора данных с 6 миллионами мультиязычных мультимодальных данных для настройки инструкций, охватывающих 39 языков.
✅Полностью открытый дотаяет, код и контрольные точки
▪️Модель: https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8
▪️Документация: https://huggingface.co/papers/2410.16153
@bigdatai
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшее мероприятие:
• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.
Зарегистрироваться
🔥 Ditto — это простой инструмент для автоматической генерации кода. Он позволяет пользователю описать приложение на языке, близком к естественному, а затем создает полноценное многокомпонентное приложение Flask. Ditto использует языковую модель для построения маршрутов, шаблонов и статических файлов без необходимости вручную писать код
🌟 Основная цель проекта — упростить процесс разработки веб-приложений, автоматизируя создание структуры кода на основе текстового описания
🔐 Лицензия: MIT
▪️Github
@bigdatai
🖥 FacePoke — это приложение для интерактивной трансформации лиц в реальном времени. Пользователь может загружать портреты и перемещать головы персонажей по клику, изменяя их положение. Для достижения наилучших результатов рекомендуется использовать собственное оборудование (например, GPU). Проект использует алгоритмы из LivePortrait и предназначен для работы на локальной машине или через Docker
🖥 Язык: JavaScript
🔐 Лицензия: MIT
▪️Github
@bigdatai
Полностью локальный Super SDK, предоставляющий простой, унифицированный и мощный интерфейс для вызова более 200 LLM.
Language: TypeScript
#ai #ai_agents #anthropic #language_model #llm #llmops #openai #prompt_engineering #togetherai #typescript
Stars: 277 Issues: 0 Forks: 5
https://github.com/adaline/gateway
@bigdatai
🖥 MegaBlocks — это легковесная библиотека от Databricks для обучения моделей с использованием смеси экспертов (Mixture-of-Experts, MoE). Она включает оптимизированные MoE-слои, поддерживает параллельное обучение данных и экспертов, а также использует алгоритмы, которые позволяют повысить эффективность тренировки
🌟 Библиотека интегрирована с Megatron-LM и предназначена для ускорения работы больших языковых моделей за счет использования разреженных вычислений и сокращения объема данных без потерь в производительности
▪️Github
@bigdatai
🖼 Long-LRM — система для высококачественной 3D-реконструкции больших сцен на основе Гауссовых сплайнов. Она может обрабатывать длинные последовательности изображений и создавать 3D-реконструкции с большой областью покрытия всего за 1.3 секунды. Модель использует токены Plücker и архитектуры с блоками Mamba2 и Transformer
🔗 Ссылка: *клик*
📖 Arxiv: *клик*
@bigdatai
Представьте: вы развиваете IT-продукт. Бессонные ночи, жаркие обсуждения фич и месяцы кодинга пройдены — пора искать клиентов. Вы сформировали позиционирование, настроили рекламу, начали работать со СМИ и соцсетями. Постепенно ваши усилия стали приносить плоды: количество пользователей постепенно увеличивается.
И тут возникает вопрос: где построить надежную, безопасную и простую в управлении IT-инфраструктуру? Нужно учесть скорость развертывания, чтобы быстро вывести продукт на рынок, безопасность данных клиентов и высокую производительность.
Заходите в единую панель управления Selectel и выбирайте конфигурацию, которая подходит именно вам. А если потребности в ресурсах будут меняться в большую или меньшую сторону, вы сможете докупить необходимые мощности или заморозить неиспользуемые.
✔️ xAI добавила функцию распознавания изображений в Grok AI.
Теперь пользователи могут загружать изображения и задавать вопросы, основанные на их содержании. Grok может выполнять глубокий анализ изображения и объяснять даже визуальные шутки. В настоящее время функция доступна только для статичных изображений.
Илон Маск намекнул в X, что на очереди - возможность загрузки файлов. В августе xAI выпустила модели Grok-2 и Grok-2 Mini. Обе модели доступны в чат-боте Grok для пользователей X Premium и X Premium+.
gadgets360.com
@bigdatai
🎧 MuVi может создавать музыку, соответствующую визуальным эффектам видео, анализируя кадры!
MuVi использует ритмическую синхронизацию и может управлять стилем и жанром музыки.
https://muvi-v2m.github.io
@bigdatai
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Angular: /channel/+qIJAuSEb2MQyMDJi
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
🌟 Mochi 1: открытая text-to-video модель генерации видео.
Mochi 1 - модель от компании Genmo для генерации видео на новой архитектуре Asymmetric Diffusion Transformer (AsymmDiT).
Mochi 1 была обучена с нуля и получила 10 млрд. параметров. Это самая большая генеративная модель видео, когда-либо выпущенная в открытый доступ.
Модель способна генерировать видео с разрешением 480p длительностью до 5,4 секунд со скоростью 30 кадров в секунду. AsymmDiT обрабатывает текстовые запросы используя одну языковую модель T5-XXL.
Вместе с Mochi 1 Genmo выпустила в открытый доступ свой видеокодер AsymmVAE, который сжимает видео до 128-кратного размера, с пространственным 8x8 и временным 6x сжатием до 12-канального латентного пространства.
Genmo планирует выпустить улучшенную вервию - Mochi 1 HD до конца года, которая будет поддерживать разрешение 720p.
⚠️ Для работы модели требуется не менее 4 GPU H100.
⚠️ В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения.
⚠️ Mochi оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом.
▶️ Локальная установка и инференс c Gradio UI или в CLI:
# Clone repo
git clone https://github.com/genmoai/models
cd models
# Install using uv
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
# Inference with Gradio UI
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"
# Inference with CLI
python3 -m mochi_preview.infer --prompt "%prompt%" --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"
Прими участие в «Хакатоне по разработке кибериммунных технологий 3.0» от «Лаборатории Касперского» с призовым фондом 1 000 000 рублей!
Регистрация на хакатон открыта до 15 ноября: https://cnrlink.com/cyberimmunehack3bidgata
Приглашаем разработчиков, аналитиков, архитекторов ПО, экспертов по информационной безопасности и студентов программирования и кибербезопасности. Участвуй индивидуально или в команде до 5 человек.
Тебе предстоит разработать систему удалённого управления автомобилем для каршеринга, устойчивую к кибератакам. Специальных знаний в автомобильной отрасли не требуется — задача будет понятна всем, независимо от опыта.
Это твой шанс прокачать навыки в кибербезопасности и пообщаться с экспертами «Лаборатории Касперского».
Ключевые даты:
• 15 октября – 15 ноября – регистрация участников
• 8 ноября – митап с экспертами и игра «Огнеборец»
• 15 ноября – старт хакатона
• 17 ноября – дедлайн загрузки решений
• 22 ноября – подведение итогов и объявление победителей
Регистрируйся, прояви себя и внеси вклад в безопасность каршеринговых сервисов: https://cnrlink.com/cyberimmunehack3bidgata
Реклама. АО «Лаборатория Касперского». ИНН 7713140469. erid: LjN8KEigF
🔥 Anthropic обновила модели Claude 3.5 Sonnet и Claude 3.5 Haiku, а также представила новую функцию управления Claude компьютером!
🌟 Обновленный Claude 3.5 Sonnet демонстрирует широкомасштабные улучшения в бенчмарках, особенно в задачах агентного кодирования и использования инструментов. В кодировании он повышает производительность на SWE-bench Verified с 33,4% до 49,0%, набрав баллов больше чем все общедоступные модели, включая модели рассуждений, такие как OpenAI o1-preview и специализированные системы, разработанные для агентного кодирования
💡 Управление компьютером — это новая экспериментальная функция, позволяющая ИИ взаимодействовать с пользовательскими интерфейсами компьютера для выполнения действий в программах, как будто это делает человек. Claude способен автоматизировать рутинные операции: открывать приложения, взаимодействовать с окнами и системными функциями.
🔗 Подробнее на сайте Anthropic: *клик*
@bigdatai
🔥 model2vec — реализация модели для обучения эмбедингов (embeddings) нейросетевых моделей. Основная идея проекта — создание представлений моделей, которые могут быть использованы для оценки схожести между моделями, их кластеризации или других задач.
Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.
Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.
Отличительные особенности:
🟢быстрая дистилляция, процесс создания модели занимает несколько минут;
🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;
🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;
🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;
🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained и push_to_hub.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
🌟 Репозиторий предоставляет набор инструментов и инструкций для работы с этими представлениями, включая подготовку данных, обучение и использование. В нем также есть примеры использования и инструкции по запуску.
▪️GitHub
@bigdatai
🖥 EfCore.SchemaCompare — инструмент для сравнения схем баз данных Entity Framework Core (EF Core). Он позволяет проверять различия между базой данных и миграциями, обеспечивая удобный способ отслеживания изменений в схемах данных
🌟 Этот инструмент может быть полезен для управления версиями баз данных и предотвращения ошибок, связанных с несовпадением структуры данных при разработке приложений на EF Core
▪️GitHub
@sqlhub
🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров.
Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач.
В семействе 2 модели:
🟢Zamba2-1.2B-instruct;
🟠Zamba2-2.7B-instruct.
Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою.
Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences).
Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct)
⚠️ Для запуска на СPU укажите use_mamba_kernels=False
при загрузке модели с помощью AutoModelForCausalLM.from_pretrained
.
▶️Локальная установка и инференс Zamba2-2.7B-Instruct:
# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2
# Install the repository & accelerate:
pip install -e .
pip install accelerate
# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)
user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)
input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))
📚 Пришло время провести розыгрыш подарков для буста вашей карьеры
На этот раз мы разыграем целую коллекцию актуальных и нужных книг Дата Саентиста.
Условия просты:
👉 подписаться на Machine Learning,
👉 подписаться на Нескучный Data Science
Каждый победитель получит Telegram Premium и одну из книг, которые рекомендуют прочитать авторы каналов:
📖 System Design. Машинное обучение. Подготовка к сложному интервью | Сюй Алекс
📖 Глубокое обучение Курвилль Аарон, Гудфеллоу Ян
📖 Как быть успешным в Data Science.
📖 Все, что нужно, чтобы понимать математику в одном толстом конспекте
📖 Илон Маск | Айзексон Уолтер
Итоги подведем при помощи бота, который рандомно выберет победителя. Всем удачи ❤️
P.S. Не забывайте ставить огонек под этим постом. Поговаривают, что шанс на победу может увеличится ))) 🔥
🌟 Возвращение RNN: LSTM и GRU — все, что нам было нужно?
Архитектура Transformer доминирует в моделировании последовательностей уже несколько лет, демонстрируя отличные результаты в задачах NLP, машинного перевода и генерации текста. Главный недостаток Transformer — они долго считают длинные последовательности. А если вычислительных ресурсов мало, то реализация занимает либо много времени, либо требует их увеличения.
Авторы исследования предлагают вернуться к RNN, ведь они быстрее считают и параллельно учитывают контекст. Чтобы отвязаться от обратного распространения ошибки (BPTT), которая требует линейного времени обучения, применяется алгоритм параллельного сканирования за счет устранения зависимости от срытых состояний из гейтов LSTM и GRU.
В предлагаемом методе представлены "уменьшенные" LTSM и GRU - minLSTM и minGRU. Они не только обучаются параллельно, но и используют значительно меньше параметров, чем их старшие аналоги.
Минимализм версий достигается следующим образом:
🟢Устранение зависимостей скрытых состояний из гейтов.
В minLSTM и minGRU input, forget и update gate зависят только от входных данных, а не от предыдущих скрытых состояний.
🟢Отказ от ограничения диапазона candidate hidden state.
В традиционных LSTM и GRU функция гиперболического тангенса используется для ограничения диапазона значений скрытых состояний. В minLSTM и minGRU это ограничение снимается.
🟢Неизменность масштаба выходных данных во времени (только для minLSTM).
Для minLSTM выполняется нормализация forget и input гейтов, чтобы гарантировать, что масштаб состояния ячейки не зависит от времени.
Результаты экспериментов:
🟠Время выполнения: minLSTM и minGRU скорость обучения по сравнению с LSTM и GRU, больше в 1361 раз для последовательности длиной 4096;
🟠Задача выборочного копирования: minLSTM и minGRU успешно справились, в отличие от S4, H3 и Hyena;
🟠Обучение с подкреплением на датасете D4RL: minLSTM и minGRU обошли Decision S4 и показали производительность, сопоставимую с Decision Transformer, Aaren и Mamba;
🟠Языковое моделирование: minLSTM, minGRU, Mamba и Transformer показывают одинаковые результаты, но Transformer требует значительно большего количества шагов обучения.
Прикладная реализация численно-устойчивой в логарифмическом пространстве версии метода minGRU на Pytorch представлена в репозитории на Github.
▶️ Локальная установка и запуск minGRU в последовательном и параллельном режиме :
# Install miniGRU-pytorch
pip install minGRU-pytorch
# Usage
import torch
from minGRU_pytorch import minGRU
min_gru = minGRU(512)
x = torch.randn(2, 1024, 512)
out = min_gru(x)
assert x.shape == out.shape
# Sanity check
import torch
from minGRU_pytorch import minGRU
min_gru = minGRU(dim = 512, expansion_factor = 1.5)
x = torch.randn(1, 2048, 512)
# parallel
parallel_out = min_gru(x)[:, -1:]
# sequential
prev_hidden = None
for token in x.unbind(dim = 1):
sequential_out, prev_hidden = min_gru(token[:, None, :], prev_hidden, return_next_prev_hidden = True)
assert torch.allclose(parallel_out, sequential_out, atol = 1e-4)
Бизнесу данные нужны как воздух📊
На их основе компании принимают важные стратегические решения. Поэтому специалисты, которые собирают, обрабатывают и анализируют данные, всегда востребованы.
Таких профессионалов готовят на курсе «Аналитик данных» от МФТИ и Нетологии. За 10 месяцев вы получите фундаментальные знания, актуальные навыки и кейсы в портфолио.
Вы научитесь:
- использовать Python для анализа данных;
- применять методы ИИ в своих задачах;
- работать с базами данных;
- визуализировать данные.
После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио.
Освойте профессию на стыке IT и бизнеса
Реклама. ООО "Нетология". Erid 2VSb5zBiKfv