58174
Всё самое интересное из мира Python Связь: @devmangx РКН: https://clck.ru/3GMMF6
Тюнинг LLM больше не обязательно должен быть медленным, дорогим и прожорливым к GPU.
Открытые инструменты сильно прокачались.
Теперь можно дообучать мощные LLM без корпоративного железа.
Вот 4 библиотеки, которые стоит знать, чтобы тюнинг был быстрее и дешевле:
1. Unsloth
Наверняка самый быстрый способ дообучения LLM на сегодня.
✅До 2× быстрее
✅~70% меньше использования VRAM
✅Работает с Gemma, Qwen, LLaMA, Mistral и другими
✅Запускается на потребительских GPU (даже Colab/Kaggle с ~3GB VRAM 🤯)
2. LLaMA Factory
Полный набор для дообучения.
✅Поддержка 100+ моделей
✅CLI + WebUI (подходит новичкам)
✅LoRA, QLoRA, полный и замороженный FT (2–8 бит)
✅Встроенные датасеты, мониторинг тренировки и экспорт моделей
3. DeepSpeed
Если идёте на большие масштабы.
✅ZeRO и FSDP для масштабного обучения
✅Оптимизация под multi-GPU и multi-node
✅Проверен в продакшн-LLM тренировках
Если вы масштабируете серьёзные модели → это ваш выбор.
4. Axolotl
Конфигурационно-ориентированное дообучение, сделанное правильно.
✅Workflow на YAML
✅Поддержка LoRA, QLoRA, DPO, GRPO и мультимодальных моделей
✅Оптимизация памяти на уровне ядра
✅Плавная интеграция с Hugging Face
👉 @PythonPortal
Чувак полностью реализовал архитектуру GPT-OSS-20B с нуля на PyTorch. Все компоненты написаны с нуля:
▪️RoPE с YaRN + NTK-by-parts для масштабирования контекста
▪️RMSNorm
▪️SwiGLU с клэмпингом и residual connections
▪️Mixture-of-Experts (MoE)
▪️Self-Attention, оптимизированный через Grouped Query Attention (GQA)
▪️Learned sinks
▪️Banded (скользящее окно) attention
▪️Поддержка KV-кэширования
Всё это работает на одной A100 SXM (80GB). Он также написал подробную документацию с теорией каждого компонента, а также инструкциями по настройке и инференсу.
Репозиторий: https://github.com/HamzaElshafie/gpt-oss-20B
👉 @PythonPortal
А Нео избавился от влияния вайб кодинга
👉 @PythonPortal
Китайский агент для автоматизации рабочего стола, который работает полностью локально.
Он умеет запускать любые приложения, открывать файлы, серфить по сайтам и автоматизировать задачи без подключения к интернету.
100% Open-Source.
👉 @PythonPortal
Большой Python-грех: использовать изменяемый объект как аргумент по умолчанию
Не используй изменяемые объекты в качестве значений по умолчанию. В Python значения аргументов по умолчанию вычисляются один раз, в момент определения функции, а не при каждом ее вызове.
Если у тебя аргумент по умолчанию выглядит так: items=[], этот список будет общим для всех вызовов, и ты получишь накапливающееся состояние, которого не планировал.
Лучший вариант: ставить неизменяемый объект в значение по умолчанию. Тогда каждый вызов будет получать новый список, как в примере
👉 @PythonPortal
Вот частое заблуждение про RAG
Когда говорят про RAG, обычно думают так: проиндексировали док → потом достали этот же док.
Но индексация ≠ ретривал.
То есть данные, которые ты индексируешь, не обязаны совпадать с теми данными, которые ты потом скармливаешь LLM на этапе генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing
▪️Самый распространенный подход.
▪️Режешь документ на чанки, строишь эмбеддинги и кладешь их в векторную базу.
▪️Во время запроса просто достаешь ближайшие чанки.
Подход простой и рабочий, но большие или шумные чанки могут просаживать точность.
2) Sub-chunk Indexing
▪️Берешь исходные чанки и дробишь их еще мельче на сабчанки.
▪️Индексируешь уже эти более мелкие куски.
▪️Но при выдаче все равно возвращаешь “большой” чанк для контекста.
Помогает, когда в одном абзаце/секции намешано несколько разных идей: шанс точно сматчиться с запросом выше.
3) Query Indexing
▪️Вместо сырого текста генеришь гипотетические вопросы, на которые, по мнению LLM, этот чанк может ответить.
▪️Эмбеддишь эти вопросы и сохраняешь.
▪️При ретривале реальные пользовательские запросы обычно лучше ложатся на такие “вопросные” представления.
▪️Похожая идея есть в HyDE, только там матчат гипотетический ответ с реальными чанками.
Кайфово для QA-систем, потому что уменьшает семантический разрыв между запросом пользователя и тем, что лежит в индексе.
4) Summary Indexing
▪️Просишь LLM кратко резюмировать каждый чанк в компактную семантическую форму.
▪️Индексируешь summary вместо исходного текста.
▪️А возвращаешь все равно полный чанк для контекста.
Особенно эффективно для плотных или структурированных данных (типа CSV/таблиц), где эмбеддинги сырого текста часто слабо что-то выражают
👉 @PythonPortal
pip 26.0: pre-release и фильтрация по времени загрузки
Три большие новые фичи:
▪️ --all-releases <package> и --only-final <package>: контроль pre-release по каждому пакету отдельно, плюс возможность отключить все pre-release пакеты через --only-final :all:
▪️ --uploaded-prior-to <timstamp>: можно ограничить по времени загрузки пакета, например --uploaded-prior-to "2026-01-01T00:00:00Z"
▪️ --requirements-from-script <script>: установка зависимостей, объявленных в inline metadata скрипта (PEP 723)
Куда более подробный пост: читать
Официальный анонс здесь
Полный changelog здесь
👉 @PythonPortal
Сюююда: GitHub-репозиторий, чтобы учиться AI Engineering.
Там собраны одни из лучших бесплатных курсов, статей, туториалов и видео по темам:
Математическая база
Основы AI и ML
Deep Learning и специализации
Generative AI
Большие языковые модели (LLM)
Гайды по prompt engineering
RAG, агенты и MCP
Смотри тут: https://github.com/ashishps1/learn-ai-engineering
👉 @PythonPortal
Любой может программировать с помощью ИИ.
Вы используете ИИ без базовых знаний программирования:
👉 @PythonPortal
LandingAI выпустили бесплатный курс по Document AI. Там учат собирать пайплайны обработки документов, которые вытаскивают текст, таблицы, графики и формы, не теряя контекст разметки.
Проблема классического OCR в том, что оно “достаёт буквы”, но ломает смысл:
- у таблиц пропадает структура (включая merged cells)
- связи “график ⬅️➡️ подпись” разваливаются
- порядок чтения в multi-column становится кашей
В курсе показывают, как строить агент-воркфлоу, которые читают документы ближе к тому, как это делает человек, через Agentic Document Extraction (ADE).
Что внутри:
- почему обычный OCR валится на сложных документах
- как детект layout + правильный reading order сохраняют структуру
- как парсить PDF в Markdown/JSON и не потерять layout
- как собирать RAG с ADE и векторными БД
- как деплоить event-driven документные пайплайны на AWS
3 часа, 6 практических примеров кода. Полностью бесплатно.
👉 @PythonPortal
𝗦𝗤𝗟 𝗙𝗿𝗼𝗺 𝗕𝗮𝘀𝗶𝗰𝘀 𝘁𝗼 𝗔𝗱𝘃𝗮𝗻𝗰𝗲𝗱: этот PDF-файл содержит SQL от начального до продвинутого уровня.
Этот 101-страничный PDF-файл вам понадобится для подготовки и повторения SQL перед любым собеседованием по данным.
👉 @PythonPortal
Как все представляют завтрак разработчика в 2026 году 🤩
На самом деле утро начинается с мысли: «Как кодить еще лучше?»
Если вы уже освоили базу по Python и ищете зону роста, пройдите бесплатный мини-курс в Академии Selectel.
В программе:
🔸 набор Python-инструментов и расширений, которые ускоряют кодинг;
🔸 гайд по работе с библиотекой Tkinter, чтобы создавать приложения с графическим интерфейсом;
🔸 инструкция по основам парсинга данных с веб-сайтов и многое другое.
Закрепить полученные знания вы сможете тут же — эксперты собрали базу задач с готовыми ответами.
Все материалы бесплатные. До роскошного IT-завтрака осталось пройти курс в удобное время: https://slc.tl/l8lo4?2W5zFGt8ViY
Передаём файлы без облака: AltSendme
Это зашифрованный p2p файлообменник. Он опенсорс и поддерживает передачу файлов любого размера и формата между устройствами без использования облачных сервисов.
Работает бесплатно, не требует регистрации и доступен для Windows, Mac и Linux
👉 @PythonPortal
Стратегии обучения на нескольких GPU, объяснённые наглядно:
👉 @PythonPortal
Google выпустил новый инструмент: PaperBanana
Умеет создавать академические иллюстрации, готовые к публикации, просто на основе текста с описанием методологии.
Без Figma. Без ручного дизайна. Без навыков рисования.
Как это работает:
Команда AI-агентов трудится за кулисами:
→ Один ищет подходящие примеры диаграмм
→ Один планирует структуру
→ Один оформляет стиль и компоновку
→ Один генерирует изображение
→ Один оценивает результат и улучшает его
Самое интересное: случайные примеры ссылок работают почти так же хорошо, как идеально подобранные. Главное — показать модели, как выглядят хорошие диаграммы, а не искать идеальный тематический пример.
В слепых тестах люди предпочли результаты PaperBanana в 75% случаев.
Это та самая рекурсия, которую мы ждали: AI-системы, способные полностью визуально документировать сами себя.
Открыта запись в лист ожидания
👉 @PythonPortal
Онлайн-обучение Python и SQL с экспертами из НИУ ВШЭ
В Центре непрерывного образования факультета компьютерных наук НИУ ВШЭ открыт набор на программы повышения квалификации онлайн-формата, обучение на которых позволит вам с нуля освоить ключевые инструменты аналитиков данных — Python и SQL.
1️⃣Python для автоматизации и анализа данных
Вы научитесь работать с основными конструкциями и структурами данных в Python. Изучите Numpy и Pandas — фундаментальные библиотеки для науки о данных. Познакомитесь со всеми шагами проведения разведочного анализа данных. Освоите создание Telegram-ботов и поймете, как грамотно собирать данные. Научитесь строить визуализации для презентации данных.
📁Старт — 3 февраля. Присоединиться можно до 10 февраля. Подать заявку 📍
2️⃣SQL для начинающих
Вы освоите базовые принципы работы с реляционными базами данных и научитесь грамотно фильтровать и сортировать данные, используя ключевые операторы и выражения. Разберете агрегирующие функции, методы работы с датами и строками и поймете, как устроены связи между таблицами. Научитесь использовать подзапросы и временные таблицы, изучите оконные функции.
📁Старт — 16 февраля. Присоединиться можно до 24 февраля. Подать заявку 📍
Реклама. НИУ "ВШЭ". ИНН 7714030726. erid: 2SDnjcx8Peg
Алгоритм Луна (Luhn) для верификации номера кредитных карт
👉 @PythonPortal
5 AI-проектов, которые помогут устроиться на работу в 2026:
1. RAG с нуля
GitHub: ссылка
2. AI-агент для соцсетей
GitHub: ссылка
3. Анализ медицинских изображений
GitHub: ссылка
4. Агенты с tool-calling через MCP
Ноутбук: ссылка
5. AI-ассистент с памятью
GitHub: ссылка
👉 @PythonPortal
Вот полный путь, который я бы рекомендовал, чтобы в этом году собрать production-grade AI-агентов:
▪️база по Python и алгоритмам
▪️математика и основы ML
▪️трансформеры и LLM
▪️prompt engineering
▪️memory и RAG
▪️tools и интеграции
▪️фреймворки типа LangChain или CrewAI
▪️multi-agent системы
▪️тестирование, деплой, безопасность
👉 @PythonPortal
λ-2D от Lingdong Huang: визуальный, нарисованный руками язык программирования.
👉 @PythonPortal
Изучи Python с Университетом University of Helsinki
✓ С официальным сертификатом
✓ С нуля до продвинутого уровня
✓ 14 частей с практическими заданиями
Весь контент доступен → здесь
👉 @PythonPortal
GitHub запустил свою платформу для обучения: все курсы и сертификаты в одном месте.
Git, GitHub, MCP, использование ИИ, VSCode и многое другое.
И большая часть контента бесплатна: → https://learn.github.com
👉 @PythonPortal
Истинная природа методов — это «специальные методы».
Про жизненный цикл инстанса.
▪️__init__object.__init__(self[, ...])
Думаю, как конструктор используется очень часто. В основном это инициализация экземпляра (например, инициализация атрибутов). Отличие от __new__, о котором ниже: __init__ выполняется уже после создания экземпляра.
Возвращаемое значение всегда None.
▪️ __new__object.__new__(cls[, ...])
В отличие от __init__, выполняется до создания экземпляра и отвечает именно за его создание. Поэтому это не инстанс-метод, а статический метод, но явно прописывать @staticmethod не нужно.
Возвращаемое значение должно быть созданным экземпляром (обычно это экземпляр класса из аргумента cls).
Типичное место применения __new__ это инициализация подклассов, которые наследуются от иммутабельных типов (int, str, tuple и т.д.). Они иммутабельные, поэтому после создания объекта нельзя менять атрибуты через __init__.
Ещё __new__ используют для реализации паттерна Singleton.
▪️ __del__object.__del__(self)
Вызывается в момент, когда экземпляр уничтожается (например, через del). Явных популярных кейсов немного, но может быть полезно при отладке, чтобы понимать тайминг работы GC.
👉 @PythonPortal
Вышел trackers v2.1.0. В этом релизе добавили поддержку ByteTrack — быстрого tracking-by-detection алгоритма, который держит стабильные ID даже при окклюзиях.
Ссылка: https://github.com/roboflow/trackers
pip install trackers
ML-инженеры держите: структурированный ML-справочник
Здесь нет курсов, нет лишней теории и длинных лекций, зато есть чёткие формулы, алгоритмы, логика ML-пайплайнов и аккуратно структурированная база знаний.
👉 @PythonPortal
Как не потеряться на старте автоматизации: понятный маршрут в Python-автотесты
🔺30 января
🔻13:00 (МСК)
Открытый вебинар «Python в автотестах: с чего начать правильно»
Регистрация по ссылке.
От студентов я знаю, как хаос в автоматизации мешает развитию QA.
Поэтому на вебинаре мы соберём всё в одну понятную схему:
💙с чего начать, а с чем можно не спешить
💙минимальный набор знаний и инструментов для первых автотестов
💙частые ошибки на старте и как их обойти
💙что делать после первых тестов: следующий шаг к проекту и резюме
После эфира останется ясный план: что делать дальше и в каком порядке.
Я Лена Янушевская, 8 лет в тестировании, прошла путь от manual до Senior Automation. Работала в Andersen, Admitad, Exness, сейчас в StockTrader.
Вебинар бесплатный, нужна регистрация. До встречи :)