datasciencegx | Unsorted

Telegram-канал datasciencegx - Data Portal | Data Science & Машиннное обучение

6351

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста Связь: @devmangx

Subscribe to a channel

Data Portal | Data Science & Машиннное обучение

Один из лучших гайдов по выборке в больших языковых моделях (LLM Sampling) вышел, написанный создателем движка инференса Aphrodite (этот парень реально обожает сэмплеры)

https://rentry.org/samplers

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Топ на выходные: 3 сайта с задачками для прокачки ML-навыков

Линейная алгебра, machine и deep learning — разный уровень сложности: задачи отсортированы по Easy, Mediums и Hard. Автоматическая проверка и подсказки в комплекте

Deep-ML, Tensorgym и ML cекция на NeetCode — не благодарите

@IT_Portal

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Ты знаешь язык, уверен в архитектуре, проектируешь сложные системы, а оффер всё равно уходит другому?

Почему так происходит? Читай ответ в нашем гайде.

Тимлиды IT_One собрали в одном файле самые частые ошибки, которые допускают даже опытные кандидаты.

🔥Гайд покажет, как выйти на новый уровень: продавать себя дороже, расти в управлении и попадать в лучшие проекты.

Как получить полезный материал? В закрепленном сообщении канала IT_One!

реклама. ООО "ИТ1-Решения" ИНН: 9717134195, erid: 2VtzqubZXTG

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Эта лекция о больших языковых моделях (LLM) обязательна к просмотру для инженеров в области ИИ.

Полуторачасовая лекция охватывает: токенизацию, законы масштабирования, дообучение, оценку, оптимизацию, вызовы, затраты и многое другое.

От Стэнфорда, около 1 млн просмотров

https://www.youtube.com/watch?v=9vM4p9NN0Ts

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

4 стратегии обучения на нескольких GPU, объяснённые наглядно:

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Подключите любую LLM к любому MCP-серверу

MCP-Use — это open-source способ подключить любую LLM к любому MCP-серверу и создавать кастомных агентов с доступом к инструментам без использования проприетарных решений или клиентских приложений.

Создавайте полностью локальные MCP-клиенты: https://github.com/pietrozullo/mcp-use

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Полный краш-курс по MCP для Python-разработчиков

– Что такое MCP и как он устроен
– Как поднять свой MCP-сервер
– Подключение Python-приложений к MCP
– Интеграция LLM-моделей с MCP
– MCP против function calling
– Деплой в Docker
– Управление жизненным циклом

Гайд для тех, кто хочет строить AI-системы на базе MCP и выйти за рамки базовых туториалов:
https://www.youtube.com/watch?v=5xqFjh56AwM

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Если вы только начинаете заниматься ML/DL и переживаете, что придётся потратить недели на подтягивание математики, поверьте — этого видео вам достаточно.

Это видео длится 5 часов, и этого вполне достаточно, чтобы начать.

Не усложняйте

https://www.youtube.com/watch?v=Ixl3nykKG9M

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Google представил Agent2Agent (A2A)

Протокол для общения ИИ-агентов между собой, независимо от платформы или фреймворка. Использует технологии HTTP, SSE и JSON-RPC. Подробнее тут

Agent2Agent Protocol vs. Model Context Protocol, четкое объяснение (с визуализацией):

— Протокол Agent2Agent позволяет AI-агентам подключаться к другим агентам.

— Протокол Model Context позволяет AI-агентам подключаться к инструментам и API.

Оба протокола являются open-source и не конкурируют друг с другом

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Плейлист из 30 видео на YouTube для изучения основ машинного обучения с нуля

Если вы не знаете, с чего начать изучение машинного обучения, этот список под названием «Machine Learning: Teach by Doing» — отличный выбор, чтобы освоить как теорию, так и практическое программирование.

1. Введение в машинное обучение — Teach by Doing:
https://lnkd.in/gqN2PMX5

2. Что такое машинное обучение? История машинного обучения:
https://lnkd.in/gvpNSAKh

3. Типы моделей машинного обучения:
https://lnkd.in/gSy2mChM

4. 6 этапов любого ML-проекта:
https://lnkd.in/ggCGchPQ

5. Установка Python и VSCode, запуск первого кода:
https://lnkd.in/gyic7J7b

6. Линейные классификаторы. Часть 1:
https://lnkd.in/gYdfD97D

7. Линейные классификаторы. Часть 2:
https://lnkd.in/gac_z-G8

8. Jupyter Notebook, Numpy и Scikit-Learn:
https://lnkd.in/gWRaC_tB

9. Запуск алгоритма случайного линейного классификатора на Python:
https://lnkd.in/g5HacbFC

10. Самая первая ML-модель — перцептрон:
https://lnkd.in/gpce6uFt

11. Реализация перцептрона на Python:
https://lnkd.in/gmz-XjNK

12. Теорема сходимости перцептрона:
https://lnkd.in/gmz-XjNK

13. Магия признаков в машинном обучении:
https://lnkd.in/gCeDRb3g

14. One-hot encoding (одноразрядное кодирование):
https://lnkd.in/g3WfRQGQ

15. Логистическая регрессия. Часть 1:
https://lnkd.in/gTgZAAZn

16. Функция потерь — кросс-энтропия:
https://lnkd.in/g3Ywg_2p

17. Как работает градиентный спуск:
https://lnkd.in/gKBAsazF

18. Логистическая регрессия с нуля на Python:
https://lnkd.in/g8iZh27P

19. Введение в регуляризацию:
https://lnkd.in/gjM9pVw2

20. Реализация регуляризации на Python:
https://lnkd.in/gRnSK4v4

21. Введение в линейную регрессию:
https://lnkd.in/gPYtSPJ9

22. Пошаговая реализация метода наименьших квадратов (OLS):
https://lnkd.in/gnWQdgNy

23. Основы и интуиция гребневой регрессии (Ridge Regression):
https://lnkd.in/gE5M-CSM

24. Резюме по регрессии для собеседований:
https://lnkd.in/gNBWzzWv

25. Архитектура нейронной сети за 30 минут:
https://lnkd.in/g7qSrkxG

26. Интуиция обратного распространения ошибки (Backpropagation):
https://lnkd.in/gAmBARHm

27. Функции активации в нейронных сетях:
https://lnkd.in/gqrC3zDP

28. Моментум в градиентном спуске:
https://lnkd.in/g3M4qhbP

29. Практическое обучение нейросети на Python:
https://lnkd.in/gz-fTBxs

30. Введение в сверточные нейронные сети (CNN):
https://lnkd.in/gpmuBm3j


👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Docling

Это мощный инструмент для обработки документов, который позволяет легко экспортировать их в форматы, такие как HTML, Markdown и JSON, поддерживая при этом множество популярных файловых форматов на вход (например, PDF, DOCX, PPTX).

Он предлагает глубокое понимание структуры PDF-документов и обеспечивает единый подход к представлению информации.

Инструмент интегрируется с LlamaIndex и LangChain, поддерживает OCR для сканированных документов, а также предоставляет простой интерфейс командной строки.

👉 Cсылка на GitHub

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

ИИ-агент для дата-сайентистов, который создает полноценные рабочие процессы в Jupyter Notebook по одному запросу

Data Copilot — это аналог Cursor, но специально для дата-сайентистов.

Я разработал полный ML-ноутбук: импорт данных, их очистка, обучение моделей и тестирование — все в одном процессе

Полностью с открытым исходным кодом

🔸Репо: https://github.com/mito-ds/mito
🔸Документация: https://docs.trymito.io/mito-ai/data-copilot

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Топ 10 YouTube-каналов для изучения ИИ с нуля:

AndrejKarpathy">Andrej Karpathy – Глубокие, но доступные лекции по глубокому обучению, языковым моделям и вводный курс по нейронным сетям

3blue1brown">3Blue1Brown – Впечатляющие визуализации, которые делают абстрактные математические концепции интуитивно понятными

lexfridman">Lex Fridman – Глубокие интервью с лидерами ИИ, предлагающие широкий взгляд на эту область.

MachineLearningStreetTalk">Machine Learning Street Talk – Технические обсуждения и глубокие погружения с ведущими исследователями в области ИИ.

statquest">StatQuest с Joshua Starmer PhD – Простые объяснения по машинному обучению и статистике для начинающих

SerranoAcademy">Serrano Academy (Luis Serrano) – Понятный и доступный контент по машинному обучению, глубокому обучению и достижениям в ИИ.

howardjeremyp">Jeremy Howard – Практические курсы по глубокому обучению и руководства по созданию веб-приложений с использованием ИИ.

hamelhusain7140">Hamel Husain – Практические уроки по языковым моделям, RAG (retrieval-augmented generation), тонкой настройке и оценке ИИ

jxnlco">Jason Liu – Лекции от экспертов по RAG и советы по фрилансу в области машинного обучения

daveebbelaar">Dave Ebbelaar – Практические руководства по созданию ИИ-систем и их реальным приложениям

Какие еще YouTube-каналы, по вашему мнению, обязательны к просмотру?

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Colab + GitHub: мгновенное открытие ноутбуков

Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак

Просто вставляешь "tocolab" в URL после "github" – и ноутбук сразу открывается в Colab

Запоминаем и пользуемся

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Иногда нужно быстро скормить LLM весь репозиторий

Просто меняешь одну букву в URL (github.comuithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой

Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Внутренности PyTorch

Подробное руководство о том, как разобраться в кодовой базе PyTorch и начать вносить вклад в её развитие

https://blog.ezyang.com/2019/05/pytorch-internals/

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Вот как запустить модель случайного леса на GPU

Hummingbird компилирует обученные традиционные модели машинного обучения в тензорные вычисления. Это позволяет запускать их на аппаратных ускорителях, таких как GPU, для более быстрой инференции.

Инференция в 40 раз быстрее всего за 2 строки кода

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Этот репозиторий на GitHub — настоящая находка для ML-специалистов

Репозиторий Kaggle Solutions собирает решения и идеи от лучших участников прошлых соревнований Kaggle. Список регулярно обновляется после каждого соревнования.

Он охватывает интервью по машинному обучению, лекции и решения

https://github.com/faridrashidi/kaggle-solutions

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

⚡️Анализируем продажи на Wildberries с помощью Python

С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся аналитики, которые умеют с ними работать. Хотите за несколько часов собрать интересный кейс для своего портфолио?

Андрон Алексанян - эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative в прямом эфире проанализирует продажи на Wildberries с помощью Python.

Что будет на вебинаре:

🟠Напишем скрипт на Python, который каждый час собирает статистику о ранжировании карточки на WB по ключевым запросам;
🟠Построим наглядные визуализации для отслеживания динамики ранжирования.

Важно досмотреть вебинар до конца, чтобы узнать как упаковать этот кейс в портфолио своих проектов.

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Стэнфорд выкатил свежий курс по LLM — CS336: Language Modeling from Scratch

Курс с фокусом на практику: вся теория по LLM раскрывается через создание собственной модели. Ты изучаешь всё end-to-end — от обработки данных и архитектуры трансформеров до RL и эвала

Ведёт курс Перси Лианг — профессор Стэнфорда и сооснователь TogetherAI.

Курс прямо сейчас идёт в Стэнфорде, и лекции заливаются по ходу — контент свежий, как только из печи

Первые лекции здесь, а домашка и ноутбуки — тут.

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Открытый репозиторий по Data Science для изучения и применения в решении реальных задач.

Это упрощённый путь для начала изучения Data Science.

Всё необходимое вы найдёте здесь: https://github.com/academic/awesome-datascience

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Сделайте sentence transformers в 50 раз меньше и в 500 раз быстрее

Model2Vec преобразует любой sentence transformer в компактную статическую модель с минимальной потерей качества. Кроме того, он обеспечивает мгновенный векторный поиск по миллионам документов без предварительной индексации.

Полностью с открытым исходным кодом

https://github.com/MinishLab/model2vec/tree/main

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

NVIDIA завезла нативную поддержку Python в CUDA

Теперь можно напрямую использовать ускорение на GPU прямо из Python — что сильно упрощает работу над проектами в сфере ИИ, машинного обучения и научных вычислений. Никаких обёрток, костылей и танцев с C/C++.

CUDA Core — переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей
cuPyNumeric — прокачанная версия NumPy, работающая на GPU
NVMath — поддержка линейной алгебры, совместима с хостом и устройством
— Добавлены инструменты для профилирования и анализа кода
— Новый подход к параллельным вычислениям — CuTile. Абстракция не на уровне потоков, а на уровне массивов и тайлов

Посмотреть презентацию можно тут ✌️

👉 @PythonPortal

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Отличное приложение на основе ИИ начинается с выбора подходящего типа эмбеддингов.

Вот 6 типов эмбеддингов и случаи, когда стоит их использовать:

• Sparse embeddings: https://weaviate.io/developers/weaviate/search/bm25
• Dense embeddings: https://weaviate.io/developers/weaviate/search/similarity
• Quantized embeddings: https://weaviate.io/developers/weaviate/concepts/vector-quantization
• Binary embeddings: https://weaviate.io/developers/weaviate/concepts/vector-quantization#binary-quantization
• Variable dimensions: https://weaviate.io/blog/openais-matryoshka-embeddings-in-weaviate
• Multi-vector embeddings: https://weaviate.io/developers/weaviate/tutorials/multi-vector-embeddings

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

11 графиков в Data Science, которые используются в 90% случаев

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Pandas → Polars → SQL → PySpark

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Шпаргалки по Transformers и LLMs для курса Stanford CME-295

Охватывают токенизацию, механизм самовнимания, prompting, дообучение, LLM-as-a-judge, RAG, AI-агентов и модели рассуждений.

Полностью бесплатные и с открытым исходным кодом. Забираем здесь

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

«Просто используй RAG», — сказали они. Но КАКОЙ RAG?

Вот 7 различных архитектур RAG, которые стоит знать

1️⃣ Наивный RAG: Классический подход

Наивный RAG — это стандартная реализация с простым процессом:

🔸Пользователь отправляет запрос.
🔸Система извлекает релевантные документы из векторной базы данных.
🔸Извлечённые документы добавляются в контекст запроса.
🔸LLM генерирует ответ на основе запроса и контекста.

Этот метод хорошо работает для простых приложений, таких как базовые системы вопросов-ответов или помощники по документам.

2️⃣ RAG с повторным ранжированием (Retrieve and Rerank RAG)

Добавляет этап повторного ранжирования для повышения качества извлечённых данных:

🔸Изначально извлекается расширенный набор потенциально релевантных документов.
🔸Модель ранжирования оценивает их и присваивает оценки релевантности.
🔸Только документы с наивысшими оценками передаются в LLM.

3️⃣ Мультимодальный RAG

Использует модели, работающие с различными типами данных: текстом, изображениями, аудио, видео и т. д.

4️⃣ Графовый RAG

Использует графовую базу данных для учёта связей между документами:

🔸Документы или их фрагменты представляются узлами графа.
🔸Связи между документами — рёбра графа.
🔸Запрос может следовать по связям, чтобы находить более контекстно релевантную информацию.

5️⃣ Гибридный RAG (Vector DB + Graph DB)

Комбинирует векторный поиск и графовую базу данных:

🔸Векторный поиск находит семантически схожий контент.
🔸Графовая база предоставляет структурированные связи между данными.
🔸Запросы используют как семантическое сходство, так и явные связи.
🔸Ответ может включать информацию, найденную при обходе графа.

6️⃣ Агентный RAG с маршрутизатором (Agentic RAG with Router Agent)

Один агент управляет процессом извлечения знаний:

🔸Анализирует запрос и определяет, какие источники данных использовать.
🔸Принимает стратегические решения о способах извлечения информации.
🔸Координирует процесс извлечения на основе понимания запроса.

7️⃣ Мультиагентный RAG

Использует несколько специализированных агентов:

🔸Главный агент управляет процессом.
🔸Специализированные агенты выполняют разные задачи.
🔸Агенты взаимодействуют, чтобы решать сложные запросы.

Например, один агент отвечает за поиск по источникам, другой за преобразование данных, третий — за персонализацию ответа, а главный агент собирает окончательный результат.

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.

100% open-source

https://github.com/cleanlab/cleanlab

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Python-библиотека для тонкой настройки Gemma 3

Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).

Полностью с открытым исходным кодом.

👉 @DataSciencegx

Читать полностью…
Subscribe to a channel