datasciencegx | Unsorted

Telegram-канал datasciencegx - Data Portal | Data Science & Машиннное обучение

6351

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста Связь: @devmangx

Subscribe to a channel

Data Portal | Data Science & Машиннное обучение

Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.

В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы

https://github.com/microsoft/ai-agents-for-beginners/tree/main

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Самый быстрый движок для сервинга LLM

LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом.

Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше.

Полностью опенсорс: https://github.com/LMCache/LMCache

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Крутейший иллюстрированный гайд по MCP

74 страницы, охватывающие основы, решаемые задачи, архитектуру, инструменты, промпты и 11 практических проектов

Бесплатно. Забираем отсюда

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Нашёл бесплатную книгу на Arxiv — "Pen and Paper Exercises in Machine Learning"

Книга на 200+ страниц с более чем 75 заданиями — отличный способ освежить знания по Python и теоретическим аспектам машинного обучения.

https://arxiv.org/pdf/2206.13446

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Стань архитектором метасценариев в Сбере 🦾

Мы создаем среду, где ИИ не просто помогает, а становится соавтором решений. Если тебе близка методологическая точность, ты понимаешь специфику ИИ-продуктов и хочешь влиять на будущее — присоединяйся.

Ты будешь:
✔️ Проектировать ИИ-сценарии и ИИ-агентов
✔️ Создавать масштабируемые фреймворки для разработки
✔️ Формировать стандарты интеграции интеллектуальных решений

Мы предлагаем: гибридный формат, современное железо, ДМС, обучение и всё, для твоего комфорта и профессионального роста.

Смотреть вакансию и откликнуться!

Читать полностью…

Data Portal | Data Science & Машиннное обучение

У Microsoft вышел бесплатный курс по MCP для начинающих с 10 практическими лабораторными работами

Изучайте основы MCP на практике с примерами на .NET, Java, TypeScript, JavaScript и Python в среде VS Code. Все структурно и доступно на 40+ языках мира (есть русский, но машинный перевод)

https://github.com/microsoft/mcp-for-beginners/

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

AI-агенты наконец-то могут взаимодействовать с вашим фронтендом

Протокол AG-UI устраняет критически важный разрыв между AI-агентами и фронтенд-приложениями, обеспечивая бесшовное взаимодействие между человеком и агентом.

MCP: от агентов к инструментам
A2A: от агентов к агентам
AG-UI: от агентов к пользователям

Полностью с открытым исходным кодом. Вот официальный репозиторий AG-UI от CopilotKit на GitHub

Прикрепляю отличную иллюстрацию того, как это работает

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Движок RAG для глубокого понимания документов

RAGFlow позволяет создавать корпоративного уровня RAG-воркфлоу для работы со сложными документами с обоснованными цитированиями.

Поддерживает мультимодальное понимание данных, веб-поиск, глубокие исследования и т.д.

Полностью локальный и с открытым исходным кодом, более 55 тысяч звёзд на GitHub

https://github.com/infiniflow/ragflow

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

MIT выложил в открытый доступ шикарный учебник по компьютерному зрению:
https://visionbook.mit.edu

Foundations of Computer Vision — концентрат базовых концепций CV через призму image processing и ML. Книга написана Торральбой, Исолой и Фрименом — ребята знают, о чём говорят.

Без воды: короткие главы, мощные визуализации, акцент на интуитивное понимание. Отлично зайдёт тем, кто входит в тему, но и опытным спецам будет чем поживиться.

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Одна команда для сборки, деплоя и масштабирования AI-агентов!

xpander — это готовый к использованию Backend-as-a-Service для агентов: управляет памятью, инструментами, многопользовательскими состояниями, событиями, ограничениями и многим другим.

Совместим с LlamaIndex, Langchain, CrewAI, Google ADK — и не только.

Полностью с открытым исходным кодом

https://github.com/xpander-ai/xpander.ai

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Семинарская серия Stanford MLSys

Это самый практичный, технически насыщенный и содержательный ресурс, который я нашёл по теме реальных ML-систем. И всё это бесплатно доступно на YouTube.

Что внутри:
🔹 Эффективное обучение и развёртывание масштабных LLM
🔹 LoRAX, FlashAttention → более быстрые, дешёвые и компактные модели
🔹 Квантование и стратегии развёртывания на edge-устройствах
🔹 Full-stack ML: инфраструктура, инструменты и MLOps
🔹 Ориентированные на данные пайплайны и поведенческое тестирование
🔹 Как проектирование аппаратного обеспечения влияет на современные ML-системы

Среди докладчиков — инженеры и исследователи из Stanford, Netflix, Hugging Face и Snorkel.

Сохраните в закладки. Поделитесь с тем, кто глубоко погружён в ML-инфраструктуру или развёртывание. Это настоящая находка.

https://www.youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🚀 Почему пользователи платят $30 за простой конвертер картинок? Давайте разберемся.

Кирилл из комьюнити создал простой продукт всего за один месяц, внедрив метод, которой уже принес результат.

Как он это сделал:
1️⃣ Анализ спроса: через поисковые запросы он увидел, что много людей ищут конвертацию «HEIC to JPG».
2️⃣ Фокус на главном: удалил всё лишнее, оставив только функцию конвертации в один клик.
3️⃣ Скорость внедрения: за 30 дней сделал запуск без перфекционизма.

Посты про конвертер (ч.1, ч.2)

Что из этого получилось:
— Доход $500 в месяц с тенденцией роста.
— Более $10K заработано на конвертере.
— $0 на рекламу, всего $40 в месяц на сервер.

Выводы:
— Люди платят за удобство, даже если есть бесплатные аналоги.
— Продукт функционирует автоматически с минимальной поддержкой.
— Быстрая и экономичная проверка идеи может быть успешной.

Результаты из комьюнити билдеров:
— Более 400 запусков по этой методике.
— Некоторые продукты уже набрали от 50К до 100К+ пользователей.

Присоединяйтесь к @its_capitan — следите за процессом разработки, продвижения и узнайте, сколько можно заработать на таких микро-продуктах.

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Возможность для специалистов по Data Science.
Яндекс Практикум ищет экспертов!


Яндекс Практикум — сервис современного онлайн-образования, где обучают актуальным цифровым профессиям. Сейчас есть возможность присоединиться к команде в роли автора курса.

Что делает автор курса?
Разрабатывает уроки, тесты, чек-листы, а если шире, то его задача так упаковать свой опыт, чтобы заинтересовать, объяснять и мотивировать.

В Практикуме понимают уровень загрузки опытного специалиста, поэтому условия максимально комфортные: удалёнка, гибкий график и частичная занятость от 10 часов в неделю — не помешает ни основной работе, ни отдыху.

От кандидата ожидают:

✔️ Техническое образование (преимущественно в области ML).
✔️ Опыт работы Data scientist или на смежных позициях от 3-х лет.
✔️ Непреодолимое желание делиться знаниями и опытом, рассказывать сложное доступно и понятно. Так, чтобы вас поняли люди без опыта в этой сфере.

Откликнуться

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Нарыл годную визуализацию для тех, кто хочет на пальцах понять, как устроены LLM. Тут можно не просто почитать про слои моделей, а буквально пощупать их, покрутить со всех сторон в 3D

Есть GPT-2, nanoGPT, GPT-2 XL и GPT-3

Лучше запускать с компа, на мобиле не так красиво

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Эти лекции были записаны 10 лет назад, но до сих пор, вероятно, остаются одними из лучших по следующим темам — теория информации и распознавание образов.

Основаны на книге Information Theory, Inference, and Learning Algorithm

https://www.youtube.com/playlist?list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

💲Каналы с Junior IT вакансиями и стажировками
Подписывайся и забирай свой оффер

1. IT вакансии по СНГ
2. IT стажировки по СНГ
3. IT стажировки в топовых компаниях мира
4. Удалённые IT вакансии и стажировки
5. Python вакансии и стажировки
6. БИГТЕХ вакансии и стажировки
7. Design вакансии и стажировки
8. QA вакансии и стажировки
9. Junior вакансии и стажировки
10. Frontend вакансии и вопросы собесов
11. Вакансии и стажировки для аналитиков
12. Вакансии в русских стартапах за границей
13. Вакансии и стажировки для DevOps
14. Вакансии, которых нет на ХХ.РУ

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

💡 77% ИТ-руководителей уже знают, что такое Data Lakehouse. А вы?

🚀 TAdviser и DIS Group выпустили первое трендвотчинг-исследование рынка Data Lakehouse в России.

💧Data Lakehouse (озеро-хранилище данных) - это современная архитектура данных, объединяющая преимущества Data Lake (гибкость хранения любых типов данных) и Data Warehouse (высокая производительность и управляемость)

Вот ключевые цифры:
✅ 77% ИТ-руководителей знакомы с концепцией Data Lakehouse
✅ 41% компаний уже мигрировали с классического Data Warehouse на Lakehouse
✅ 85% используют Data Lakehouse как основу для проектов ИИ

🔍 В исследовании: 
– Как меняется подход к данным в России
– Зачем компаниям Lakehouse, а не просто DWH
– Как Data Lakehouse становится базой для AI-проектов
– Что говорят CIO крупнейших организаций

📈 Почему это важно?Data Lakehouse — это не просто тренд, а ответ на вызовы хранения, скорости доступа и масштабирования данных в бизнесе.

👉🏻 Скачать полное исследование по ссылке

#реклама
О рекламодателе

Читать полностью…

Data Portal | Data Science & Машиннное обучение

10 репозиториев на GitHub, которые помогут вам начать карьеру AI-инженера (полностью бесплатно): Ссылки:

🔸ML для начинающих: http://github.com/microsoft/ML-For-Beginners

🔸AI для начинающих: http://github.com/microsoft/AI-For-Beginners

🔸Нейросети с нуля до профи: http://github.com/karpathy/nn-zero-to-hero

🔸Имплементации статей: http://github.com/labmlai

🔸Сделано с использованием ML: http://github.com/GokuMohandas/Made-With-ML

🔸Практика с LLM: http://github.com/HandsOnLLM

🔸Продвинутые техники RAG: http://github.com/NirDiamant

🔸Агенты для начинающих: http://github.com/microsoft/ai-agents-for-beginners

🔸Агенты на пути к продакшену: http://github.com/NirDiamant

🔸Хаб AI-инженера: http://github.com/patchy631/ai-engineering-hub

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Этот репозиторий с туториалами по AI-агентам недавно преодолел отметку в 45 тысяч звёзд на GitHub.

Он полностью опенсорсный и содержит более 75 пошаговых гайдов по AI-агентам и RAG.

10 классных AI-агентов, а также туториалы по MCP и RAG:

https://github.com/Shubhamsaboo/awesome-llm-apps

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Когда один из крупнейших игроков на рынке — Yandex Cloud — говорит, что Cloudberry это "про будущее Greenplum", хочется послушать, что за этим стоит.

В свежем интервью Леонид Савченков (Yandex Cloud) рассказал, как они отвечают на закрытие открытых версий популярных СУБД. Вместо паникиподдержка Greenplum 6 и параллельная разработка решения на базе Apache Cloudberry, который снова обгоняет Greenplum 7 по функционалу.

Обсудили и то, как Яндекс участвует в развитии опенсорса: кворумная репликация в Postgres, активные коммиты в Cloudberry, открытые репозитории с кодом — всё по-настоящему, а не ради галочки.

Плюс — апдейт по YTsaurus и BI-инструменту DataLens: новая публичная галерея дашбордов, возможность гибкой кастомизации и сертификация аналитиков.

Полный разговор — тут

Читать полностью…

Data Portal | Data Science & Машиннное обучение

End-to-end проект по машинному обучению

Нашёл годный пошаговый гайд по ML-проекту.

Он начинается с базового EDA и обучает интеграции с MLOps с использованием таких инструментов, как ZenML и MLflow для отслеживания экспериментов и деплоймента.

https://www.youtube.com/watch?si=CoFmlaniXlD17UHz&v=o6vbe5G7xNo&feature=youtu.be

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

О, занятно. Знал ли ты, что есть библиотека на Python под названием Pix2TeX, которая умеет превращать изображения с формулами в LaTeX-код?

Ссылка на репозиторий GitHub: https://github.com/lukas-blecher/LaTeX-OCR

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Наткнулся на PDF с топ-50 вопросами для собеседований по LLM

Местами, конечно, поверхностно, но в целом — неплохой стартовый чеклист или разминка перед интервью

Ссылка: https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Яндекс B2B Tech выкатил YTsaurus — крутейшую платформу для обработки данных любого размера: от пары гигабайт до эксабайтных хранилищ

Под капотом классический MapReduce, ClickHouse, Apache Spark и прочие вкусности. Подходит как для ETL, так и для ML-моделей с миллиардами параметров. Работает облачно (управляемый сервис с поддержкой) и on-premise — выбирай, что по душе.

Внутри Яндекса эту штуку пилят уже с 2010 года — на ней и YandexGPT обучают, и поисковый индекс держат, и промо на Маркете обсчитывают. В общем, отлажено на боевых нагрузках, а не в песочнице.

Ранний доступ уже открыт, заявку кидать здесь

Читать полностью…

Data Portal | Data Science & Машиннное обучение

5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Matrix Cookbook от Университета Ватерлоо — это краткая «шпаргалка», содержащая сотни матричных тождеств, производных, разложений и статистических формул, к которым вы будете обращаться всякий раз, когда линейная алгебра становится сложной.

Идеально подходит в качестве настольного справочника для ускорения вывода формул и математических расчётов в машинном обучении

https://github.com/AniruddhaChattopadhyay/Books/blob/main/matrixcookbook.pdf

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Hugging Face выкатили бесплатный курс по MCP (Model Context Protocol) — всё, что нужно, чтобы разобраться, как это работает и как использовать на практике.

Покажут, что такое MCP, как коннектить LLM-ки, как разворачивать свои MCP-сервера. Без воды, только суть.

Курс бесплатный. Ссылка: https://huggingface.co/learn/mcp-course/unit0/introduction

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Нашел видеоуроки по построению DeepSeek с нуля — уже вышло 25 выпусков. Объясняется неплохо, можно смотреть вместе с руководством по построению DeepSeek с нуля на HuggingFace.

Ссылка: http://youtube.com/watch?v=QWNxQIq0hMo&list=PLPTV0NXA_ZSiOpKKlHCyOq9lnp-dLvlms

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Создание трансформера с нуля
https://github.com/DorsaRoh/Machine-Learning

Реализация и подробное объяснение трансформера, с расчётом на полное отсутствие предварительных знаний.

Приятного изучения ✌️

👉 @DataSciencegx

Читать полностью…
Subscribe to a channel