devsp | Unsorted

Telegram-канал devsp - Data Science | Machinelearning [ru]

17987

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

Алоха товарищи. Тут подкаст вышел интересный. Спикер - Антон Полднев — специалист по рекламным технологиям Яндекса с опытом свыше 10 лет.

В подкасте он рассказывает о своем пути от стажера, который писал на Perl, до руководителя и делится инсайтами разработки высоконагруженных систем.
Он объясняет, как работает рекомендательная система рекламы, как ML помогает предсказывать поведение пользователей и вероятность конверсии для бизнеса. ⠀

Ключевые моменты:

👉 Ответственность за рекламные технологии.
👉 Переход на C++ для повышения производительности.
👉 Внедрение нейросетей и машинного обучения.
👉 Важность командной работы и четкого распределения задач.
👉 Эксперименты и A/B-тесты для оптимизации решений.

Также Антон рассказал про Perforator — opensource-инструмент, который помогает анализировать работу приложений на сервере в реальном времени. С помощью этого инструмента разработчики могут увидеть, как распределяются ресурсы серверов и какие программы расходуют их больше всего.

Ссылки на подкаст

👉 YouTube
👉 VK
👉 Rutube

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Постройте логистическую регрессию вручную

Напишите простую реализацию логистической регрессии с нуля (без sklearn) для бинарной классификации. Это поможет лучше понять, как работает один из самых базовых алгоритмов в машинном обучении.

Решение задачи🔽

import numpy as np

# Сигмоида
def sigmoid(z):
return 1 / (1 + np.exp(-z))

# Функция логистической регрессии
def logistic_regression(X, y, lr=0.1, epochs=1000):
m, n = X.shape
X = np.c_[np.ones(m), X] # добавляем bias
theta = np.zeros(n + 1)

for _ in range(epochs):
z =
np.dot(X, theta)
h = sigmoid(z)
gradient =
np.dot(X.T, (h - y)) / m
theta -= lr * gradient

return theta

# Предсказание
def predict(X, theta):
X = np.c_[np.ones(X.shape[0]), X]
return sigmoid(
np.dot(X, theta)) >= 0.5

# Пример
X = np.array([[1], [2], [3], [4]])
y = np.array([0, 0, 1, 1])

theta = logistic_regression(X, y)
print(predict(X, theta)) # [False False True True]

Читать полностью…

Data Science | Machinelearning [ru]

🤖 AI агенты на основе LLM: что нас ждет?

Приглашаем на открытый урок.

🗓 14 апреля в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP. Advanced».

Сегодня нейросети такие как ChatGPT, GPT4, GigaChat и другие из больших языковых моделей (LLMs), способных генерировать текст на очень высоком уровне, стремительно превращаются в AI агентов, по сути наших виртуальных ассистентов, способных взаимодействовать со средой, принимать решения и выполнять широкий набор команд. На вебинаре мы расскажем про то, что представляют из себя AI агенты сегодня и что нас ждет в ближайшем будущем.

Кому подходит:
- Продвинутым DS специалистам, которые хотят углубиться в тему NLP
- Выпускникам и учащимся курсов ML-professional, ML-Advanced, NLP Отус
- Исследователям и инженерам, работающими с LLM
- Практикующим специалистам, которые хотят углубиться в область LLM

Результаты урока:
- познакомитесь с концепцией AI агентов и агентов на основе LLM
- узнаете, какие принципы лежат в основе создания агентов
- обсудите перспективы развития агентных систем

Участвуйте и получите скидку для обучения на курсе «NLP. Advanced».

🔗 Ссылка на регистрацию: https://vk.cc/cKCA7C

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется?

One-Hot Encoding — это способ преобразования категориальных признаков в числовые. Он создаёт бинарные столбцы для каждого уникального значения категории. Это важно, потому что большинство алгоритмов машинного обучения не работают напрямую с текстовыми значениями.

➡️ Пример:

import pandas as pd

df = pd.DataFrame({'Цвет': ['красный', 'синий', 'зелёный']})

encoded = pd.get_dummies(df)
print(encoded)


🗣️ В этом примере get_dummies() преобразует колонку Цвет в три бинарных признака: Цвет_красный, Цвет_синий, Цвет_зелёный. Для каждой строки только один из них равен 1, остальные — 0.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
▫️ презентация платформы для работы с AI&ML — от идеи до результата
▫️ анонс новых сервисов для работы с GenAI
▫️ реальный кейс трансформации клиентского сервиса с помощью AI
▫️ анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈

Читать полностью…

Data Science | Machinelearning [ru]

🤖 ChatGPT VS DeepSeek

Приглашаем на открытый урок.

🗓 01 апреля в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP. Advanced».

ChatGPT, DeepSeek, Gemini… Что у них внутри и какие технологии их создают?

На открытом уроке разберем архитектуру современных LLM, методы их обучения и принципы, которые двигают индустрию NLP вперед.

Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.

Если вы хотите глубже понять работу LLM, разобраться в ключевых концепциях DeepSeek и узнать о будущих трендах, этот вебинар для вас.

Участвуйте и получите скидку для обучения на курсе «NLP. Advanced».

🔗 Ссылка на регистрацию: https://vk.cc/cKhpfL

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxCbVse

Читать полностью…

Data Science | Machinelearning [ru]

МТС True Tech Hack 2025 — создай новое решение на базе The Platform от МТС и поборись за призовой фонд в 1 500 000 рублей.

Регистрация открыта до 16 апреля.

Твоя формула успеха:
✅ Хочешь внести вклад в продукты, которые приносят пользу разработчикам по всей России
✅ Знаешь, как превратить идею в работающий прототип
✅ Любишь работать в команде.

На хакатон приглашают разработчиков, Data Scientists, Data Engineers, системных и бизнес-аналитиков, UI/UX-дизайнеров и других специалистов. Участие — командное, в каждой будет от 2 до 5 человек.

Треки МТС True Tech Hack 2025:
✅ DataOps Pipeline: оптимизация от сбора до отчета
✅ AI Schema Builder: генерация схем
✅ Цифровизация через True Tabs: интеграция данных и процессов в единую экосистему
✅ TouchVision: AI-ассистент для незрячих и слабовидящих пользователей
✅ Золотая середина: дистилляция моделей MWS GPT

Не пропусти митап 9 апреля с экспертами хакатона — задай вопросы и узнай больше о задачах.

Регистрируйся на МТС True Tech Hack 2025

Читать полностью…

Data Science | Machinelearning [ru]

↗️ Как я с помощью нейросетей обогнала инфляцию

В статье рассказывается, как использовать нейросети для оптимизации работы, если ваш доход в рублях, а расходы — в валюте. Спойлер: полное делегирование задач ИИ — миф, но с его помощью можно значительно упростить рутину и повысить продуктивность. Поделены реальные кейсы из жизни автора.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🌞 Автоэнкодеры простыми словами

Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для мидлов

Data Analyst
Python, R, Java, SQL, NoSQL
Уровень дохода не указан | от 2 лет

Data Engineer (Middle)
Python, PostgreSQL, MongoDB, ClickHouse, AWS, Kafka, Spark
Уровень дохода не указан | от 2 лет

Python разработчик (Трайб Data Office)
Python, HTML, JavaScript, CSS, Vue.js, Linux
Уровень дохода не указан | опыт не указан

Читать полностью…

Data Science | Machinelearning [ru]

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для джунов

Data Scientist в области языковых моделей (Junior)
🟢Python, pandas, numpy, matplotlib, transformers, Hugging Face
🟢от 247 000 ₽ | 1–3 года​

Junior analyst/Младший аналитик
🟢Google Analytics, Google Tag Manager, Data Studio, SQL
🟢от 90 000 до 100 000 ₽ | 1–3 года​

Младший аналитик данных
🟢Python (pandas), Google Sheets, Google Colab, GitHub, API
🟢от 30 000 до 40 000 ₽ | Без опыта

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant

Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для сеньоров

​Ведущий Python разработчик
🟢Python, Django, Pydantic, SQL, NoSQL, AWS, Docker, Kubernetes, asyncio, aiohttp, RabbitMQ, Kafka
🟢Уровень дохода не указан | 3–6 лет​

Ведущий менеджер AI (Data Scientist)
🟢Python, машинное обучение, SQL, A/B тесты, NLP, deep learning, RNN, трансформеры, MLOps, DVC, MLflow, Airflow, Hadoop, Spark, LangChain, LangGraph, LLM
🟢Уровень дохода не указан | 3–6 лет

​Senior Data Analyst
🟢SQL, Python, Excel, BI tools (Tableau, PowerBI, Metabase)
🟢Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

🖥 Про разработку LLM: какие ещё есть справочники и кукбуки

В статье — разбор, почему собирать платформу инференса LLM с нуля не всегда разумно, и как MWS GPT помогает запускать большие языковые модели проще, быстрее и без лишнего сумасшествия.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🖥 Как работает Трансформер: очень простое описание

Вот очень простое объяснение для тех, кто не хочет вдаваться в сложную математику, но и не готов принимать эту ключевую технологию как магию, которая просто работает. Конечно, никакого волшебства тут и нет — идея на самом деле довольно проста..

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для джунов

​Data Scientist (Middle)
🟢Python, SQL, Pandas, NumPy, Matplotlib
🟢Уровень дохода не указан | 3–6 лет​

Data Engineer (Middle)
🟢Python, Rust, SQL, ClickHouse, PostgreSQL, Greenplum, Airflow, Dagster, Prefect, Docker, Kubernetes
🟢от 200 000 ₽ | 1–3 года​

Data Scientist
🟢Python, SQL, A/B тесты, MLflow, DVC, Apache Airflow, Hadoop, Spark, LLM, NLP
🟢Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

🚀 Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для сеньоров

Системный аналитик (Data Office)
SQL, BPMN, REST, анализ требований
Уровень дохода не указан | опыт не указан​

Senior Data Scientist в команду антифрода
Python, SQL, TensorFlow, PyTorch, машинное обучение
Уровень дохода не указан | от 2 лет​

Продуктовый аналитик
Yandex DataLens, Python, Amplitude, ClickHouse, Oracle, Microsoft Excel, Tableau, Metabase, PowerBI, анализ данных
Уровень дохода не указан | от 2 лет

Читать полностью…

Data Science | Machinelearning [ru]

📈 Подборка статей для вашей карьеры

Продуктивность и почему «сделать много всего» — это не про неё

Куда выйти из айти?

Как я боролся с выгоранием в ИТ: лайфхаки и личный опыт

ИТ-пенсионеры и где они обитают

Почему мне нужно, чтобы ты вкатился в айти

Читать полностью…

Data Science | Machinelearning [ru]

⚡️Разбираем тестовое задание в Альфа Банк на позицию Junior Аналитика данных

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в Альфа Банке.

Что будем делать на вебинаре:
🟠Напишем сложные SQL-запросы для банковских данных;
🟠Вспомним, как правильно использовать оконные функции;
🟠Узнаем, как создавать разметку, из чего она состоит и для чего она нужна;
🟠На реальных данных проведем когортный анализ и сделаем выводы;
🟠Расскажем, как доставать инсайты из данных.

Вебинар проведет Денис Иванов, ведущий продуктовый аналитик

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))
# Ожидаемый результат: ('B', 'D')


Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Читать полностью…

Data Science | Machinelearning [ru]

Ваша карьера в аналитике данных может выйти на новый уровень

DWH — это основа качественной аналитики. Без правильно спроектированного хранилища данные хаотичны, отчеты несистемны, а решения принимаются вслепую.

📍 На открытом уроке 26 марта в 20:00 мск разберем, какие существуют подходы к построению хранилищ, как они влияют на скорость обработки данных и какие задачи решают.

После урока вы:

- Разберетесь в ключевых архитектурах DWH.
- Научитесь выбирать подходящую под задачи бизнеса.
- Поймете, как архитектура влияет на масштабируемость и производительность.

Спикер Алексей Железной — Senior Data Engineer с большим опытом и широким технологическим стеком.

➡️ Регистрируйтесь и получите скидку на большое обучение «Data Warehouse Analyst»: https://vk.cc/cKdonV

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
print(num)

# Вывод: 0, 1, 1, 2, 3


🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

Искусственный интеллект — будущее, которое уже наступило.

Компании и государства активно инвестируют в развитие ИИ, делая навыки в этой сфере одними из самых востребованных.
А Deep Learning и Computer Vision — две ключевые технологии, которые лежат в основе современных AI-решений. Это основа, так сказать база, based.

Приходите на бесплатный онлайн-вебинар от Karpov Courses, чтобы в дружеской атмосфере познакомиться с Deep Learning и Computer Vision, понять, как стартовать в профессии инженера глубокого обучения и какие задачи вас ждут — всё это на реальных примерах, которые можно решить с помощью нейросетей.

Вебинар пройдет 27 марта в 19:00 мск: https://clc.to/P2LoVw

Читать полностью…

Data Science | Machinelearning [ru]

IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub

Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей.

Регистрация открыта до 11 апреля: https://cnrlink.com/itonecupmldevsp

Твоя формула победы:
Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи.
Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей.
Готов создавать комплексные решения для автоматизации процессов. 

Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек. 

Задачи IT_ONE Cup. ML Challenge:

🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.

4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах. 

Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge: https://cnrlink.com/itonecupmldataportal

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Функция property() в Python: добавляем управляемые атрибуты в классы

Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

cgroups и namespaces в Linux: как это работает?

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Читать полностью…
Subscribe to a channel