980
На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Прилетело спасибо от LiquidAI за туториалы по жидким нейросетям.
Ойтанушовэ... 😏
@toshoseti
Обзор по CyberMonday deals на софт и железо, еще можно успеть )
https://claude.ai/public/artifacts/86b4cd90-baa0-4030-ba75-3c80372d5d11
@toshoseti
Кто-нибудь ему расскажет про catastrophic forgetting и domain drift? :)
https://youtu.be/YA3hAGtfMs4
@toshoseti
Клод сделал подборку бенефитов для стартапов, актуальных на данный момент.
https://claude.ai/public/artifacts/fad9ca70-0fed-41ce-9060-cb4afde144fd
@toshoseti
Подборка полезного по генерации пиксель арта:
https://www.pixellab.ai/
https://huggingface.co/pixelparty/pixel-party-xl (тоже pixellab.ai)
https://huggingface.co/nerijs/pixel-art-xl
@toshoseti
https://www.teamblind.com
Скандалы, интриги, расследования.
@toshoseti
https://www.youtube.com/watch?v=d95J8yzvjbQ
Читать полностью…
Все, те самые 17 человек🥹 устраиваем в Белграде сходку 6/7 декабря. Заходим сюда в чат /channel/+GjyP-jsLufVhNmEy , дальше разберемся
Читать полностью…
- Если оно крякает как утка, летает как утка, ходит как утка, плавает как утка, выглядит как утка, то что это?
NASA: Это комета!
@toshoseti
Полная серия с кошерным переводом от Телемастера в ВК: https://vk.com/video-182895006_456239532
Читать полностью…
Хорошенький хендбук по GEMM, в котором автор проходится от наивной реализации, добавляя поэтапно оптимизации: коалесцированный доступ, использование shared memory, тильинг, вычисления в регистрах, тензорные ядра. Все это в финале собирается в CUTLASS от NVIDIA и получается Learn CUTLASS the hard way!
Читать полностью…
Нравится. Экономно.
https://github.com/wilpel/caveman-compression
@toshoseti
Liquid AI предлагает за их счет зафайнтюнить LFM на ваших данных и проверить как будет выглядеть качество/производительность, с возможностью скачать веса.
Доступно в как минимум до конца этих выходных.
https://workbench.liquid.ai
Как оно работает: https://www.loom.com/share/865b370031ac4a3eb28e7b35685e2f1d
Fine tuning VLM версии (мастер-класс):
https://www.youtube.com/watch?v=00IK9apncCg
@toshoseti
Вышел technical report по семейству моделей Liquid Foundation Models 2 с разными модальностями от Liquid AI.
Папир: https://arxiv.org/abs/2511.23404
@toshoseti
Впечатляющий софт для AI Assisted анимации 3D - персонажей.
https://cascadeur.com/
@toshoseti
SAPO: новый алгоритм RL-обучения от Qwen
SAPO — это новый алгоритм policy optimization, представленный Qwen, который заменяет жёсткий clipping на плавный, температурно-контролируемый gating для более стабильного RL-обучения LLM (особенно для MoE-моделей).
→ Token-level importance ratios в RL имеют высокую дисперсию, которая ещё больше возрастает в MoE-моделях из-за routing heterogeneity. GRPO и GSPO используют жёсткий clipping для решения этой проблемы, но это создаёт хрупкий баланс: слишком жёстко — теряется learning signal, слишком мягко — градиенты становятся шумными.
→ SAPO использует sigmoid-образный soft gate, центрированный в on-policy точке. Вблизи on-policy градиенты текут нормально; по мере роста отклонения они плавно затухают, вместо того чтобы обрезаться до нуля. Это сохраняет полезный сигнал от умеренно off-policy токенов.
→ SAPO использует асимметричные температуры для положительных и отрицательных токенов, причём отрицательные токены получают более быстрое затухание. Логика: отрицательные градиенты повышают logits для множества несэмплированных токенов в огромном vocabulary, распространяя нестабильность, тогда как положительные градиенты усиливают только один токен.
→ В типичных условиях (небольшие on-policy шаги, низкая дисперсия в token ratios) token-level gates SAPO усредняются до sequence-level gate, поэтому алгоритм ведёт себя как GSPO. Но когда появляются outlier-токены, SAPO селективно понижает вес только их, вместо того чтобы обнулять градиент всей последовательности.
→ Эксперименты на Qwen3-30B-A3B показывают, что SAPO тренируется дольше до появления нестабильности и достигает более высоких Pass@1 на math бенчмарках (AIME25, HMMT25, BeyondAIME). Также не требуется хак “Routing Replay”, который необходим GRPO для стабильности MoE.
Крутой вклад от Qwen, на мой взгляд. Soft gating — элегантная золотая середина между агрессивным token clipping в GRPO и подходом GSPO. Правда SAPO хоть и задерживает нестабильность, но не устраняет её полностью, ну и набор бенчмарков весьма ограниченный.
Статья: https://arxiv.org/abs/2511.20347
@toshoseti
🤗Huggingface последний год уважаемо упарываются в образование студентов в плане AI. Выкатили новый блог пост про поддержку nanochat от Karpathy, который в целом и предназначается для образования молодого поколения, чтобы те могли потрогать микро LLM которая написана в примерно 500 строк кода на голом torch с хорошей инженерной проработкой и соверемнными методами стабилизации обучения.
То есть можно поиграться при желании с претреном, потратив 100 долларов на 4 часа с 8 H100, ну или взять готовые чекпоинты поиграться, хз. Более того, инженеры hf справедливо замечают, что можно потыкаться будет в разного рода встроенные механизмы удобные в экосистеме трансформерс. Например квантизовать с lamma.cpp за 0$ или поэксперементирлвать с инференсом.
В общем, в моих глазах выглядит, как крайне хороший механизм для практики, а в особенности с сочетанием их очень полного блогпоста «The Smol Training Playbook» о всех стадиях трена, про который написали при выходе ну примерно все тг каналы….
🤗 Всем школьничкам, и тем кто в душе школьничек, почитать подробнее можно вот тут
Вот он, идеальный шторм, который я ждал:
На фоне проблем с доступностью ОЗУ, начнется больше внимания к memory и power efficient направлениям, а так же нейроморфным вычислениям. Опять же, все это так же пойдет на пользу embedded/edge inference.
@toshoseti
В свое время делал небольшую шпаргалку, которую можно заучить или при достаточной степени наглости предъявить на Systems Design interview и сказать, что мол сами придумали для своего удобства, ибо дизайните хай лоад системы на перекуре. Спасибо @nadlskom , что надоумила поделиться.
Можно попросить LLM накидать несколько типовых разборов различных систем для мок интервью в вашу компанию и использовать как шпаргалки\отправную точку.
Можно использовать для мок собеседования с LLM, главное включите ей режим адвоката дьявола.
Короче вот, вдруг кому пригодится:
1. Problem Clarification (5 min)
- Goal of the system:
- Type of prediction/task: (classification, regression, ranking, recommendation)
- Business context and stakeholders:
- Constraints and assumptions: (latency, throughput, availability requirements)
- Scale: (users, data volume, real-time vs batch)
2. Success Criteria (3 min)
- Evaluation metrics:
- Offline metrics:
- Online metrics:
- Baseline for comparison:
- Error constraints: (false positives/negatives trade-offs)
- Experimentation strategy: (A/B testing framework, metrics sensitivity)
3. High-Level System Architecture (6 min)
- Diagram illustrating:
- Data flow
- Training and inference components
- Storage layers (feature store, data lake)
- Monitoring components
- Integration points with Meta infrastructure: (considerations for FBLearner Flow or similar platforms)
4. Data Strategy (5 min)
- Data sources and types: (structured, unstructured)
- Collection and preprocessing strategy:
- Feature engineering approach:
- Handling missing or noisy data:
- Privacy-preserving techniques: (anonymization, differential privacy)
- Fairness considerations: (data representation, bias detection)
5. Personalization Strategy (3 min)
- User features and signals:
- Personalization approach: (embedding-based, contextual, collaborative)
- Cold-start handling:
- Balance between personalization and exploration:
6. Model Selection and Training (5 min)
- Candidate models and selection rationale:
- Training strategy: (batch, online, distributed)
- Hyperparameter tuning approach:
- Data drift handling and retraining strategy:
- Bias mitigation techniques:
7. Serving Infrastructure (5 min)
- Serving mode: (real-time, batch, streaming)
- Inference pipeline design:
- Scaling strategy: (horizontal vs vertical)
- Deployment methods: (containers, serverless)
- Global serving considerations: (multi-region deployment, edge computing)
8. Performance and Optimization (4 min)
- Latency and throughput analysis:
- Resource usage: (CPU, GPU, Memory)
- Optimization techniques: (quantization, pruning, caching)
- Efficiency at scale: (serving billions of predictions)
9. Monitoring and Maintenance (4 min)
- Key monitoring metrics and alerting:
- Anomaly detection strategy:
- Incident management process:
- CI/CD approach:
- A/B testing infrastructure: (experiment tracking, significance calculation)
10. Trade-offs, Risks and Limitations (3 min)
- Identified trade-offs:
- Risk mitigation strategies:
- Fallback options:
- Known scope limitations:
- Privacy and compliance considerations:
11. Future Improvements (2 min)
- Potential enhancements:
- Scalability for future requirements:
- Exploration of new technologies:
- Adaptability to evolving privacy landscape:
⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B
Tencent выложила в open-source новую модель HunyuanOCR.
Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.
Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.
⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов
🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков
Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.
Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.
📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗 GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@ai_machinelearning_big_data
#HunyuanOCR #TencentAI #OCR #VisionAI #DeepLearning #Multimodal #AIModels #OpenSourceAI #ComputerVision #DocumentAI
Дада, очень здорово, мистер Робот! а теперь сходи и заправь одеяло в пододеяльник
Читать полностью…
Кроме шуток, их поди можно через toolcalling подцепить
Читать полностью…
Для чего еще нужны нейросети, как не для возрождения классики?
Единственная серия, для которой не было нормального перевода и озвучки.
The Long Dark 2: вышел хардкорный некстген-выживач от создателя PUBG — Prologue: Go Wayback
🔵Ультрареализм — на старте есть лишь компас, а ориентироваться придется по звездам, солнцу и окружению
🔵Процедурная генерация всего мира после смерти — все вылазки будут уникальными
🔵Суровая погода — например, молнии подожгут лес, или игрока заморозит насмерть
🔵Основная цель — добраться до метеостанции
🔵Редактор уровней позволит игрокам делиться своими мирами
🔵На базе игры создается целый онлайн-проект
MOV инструкция в Assembly - turing complete, то есть любую программу можно переписать используя одну лишь инструкцию MOV.
Программа будет на пару порядков больше и медленнее, но будет работать.
https://github.com/xoreaxeaxeax/movfuscator
@toshoseti
https://arxiv.org/abs/2511.08892
Tldr:
- история на 20 фреймов, предсказывают действие
- sft на прошлых трейсах
- без rl(не нужен тут)
Google DeepMind выкатили SIMA 2 — апгрейднутую версию AI агента для игр. В отличие от первой версии, которая могла выполнять лишь базовые действия, SIMA 2 может рассуждать о высокоуровневых целях и достигать их, болтать с игроком и даже играть в игры, которые никогда не видел — типа ASKA или MineDojo. Ну и конечно может ориентироваться в энвайроментах которые создаёт Genie 3. Это стало возможно во многом из-за интеграции Gemini с более лайтовой агентной моделью, которая и занимается непосредственным управлением (Система 1 и Система 2 в действии).
Главная новая возможность — самообучение: SIMA 2 сама набивает опыт, оценивает его через Gemini и улучшается без помощи человека. По бенчмаркам уже довольно близко подобралась к человеческой производительности. Конечно, есть косяки — с длинными многоходовками пока туго, длины контекста не хватает, да и с точным управлением мышкой проблемы. В любом случае это серьезный шаг к универсальным ИИ-агентам, которых можно будет засунуть куда угодно. Техрепорта пока нет, но обещают
@ai_newz