devsp | Unsorted

Telegram-канал devsp - Data Science | Machinelearning [ru]

17987

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

⚙️ Что такое StandardScaler из scikit-learn и зачем он нужен?

StandardScaler — это инструмент из библиотеки scikit-learn, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).

➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200], [15, 300], [14, 250]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)


➡️ После трансформации признаки будут нормализованы, что помогает улучшить сходимость и стабильность модели.

🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

🚀 Data Engineer в Navio: получи оффер в компанию за 1 день!

В команду BigData мы ищем специалистов уровней middle и senior, готовых решать нестандартные задачи и создавать проекты, которые меняют мир. Наши данные имеют физический смысл: победа над каждой ошибкой здесь — снижение риска ДТП в реальном мире.

С нами ты будешь: собирать датасеты для нейросетей, обрабатывать данные для работы автономных машин, визуализировать 4D-траектории, строить системы для сквозной аналитики и не только.

Готов проявить свои навыки? Заполняй заявку, оставляй резюме на сайте и получи приглашение от нашего рекрутера на One Day Offer 26 апреля. Приходи на онлайн-мероприятие, пообщайся с командой и, возможно, уже вечером ты станешь ее частью.

⚡️ One Day Offer — твой шанс изменить карьеру!

Читать полностью…

Data Science | Machinelearning [ru]

📈 Подборка статей для вашей карьеры

Как продакт-менеджеру учить английский: план, сроки, советы

Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт

Interview copilots: как кандидаты используют ChatGPT на интервью

Моя история входа в IT: как я ломал стены своих ограничений

Как мы разработали систему грейдинга для системных аналитиков

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Рекомендательная система для вашего каталога научных работ (и не только!)

Показано, как собрать рекомендательную систему на своём архиве документов, даже если там куча форматов. NLP + графы = машинный архивариус, который сам подсовывает нужные файлы.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🤖 Машинный перевод seq2seq: и как обучить модель понимать языки

🗓 21 апреля в 20:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing».

На данном открытом уроке мы:
✔️Познакомимся с архитектурой seq2seq и ее применением в задачах машинного перевода
✔️Разберем архитектуру энкодер-декодер, её основные компоненты и как она используется для перевода текста.
✔️Изучим концепцию attention mechanism и его влияние на повышение качества машинного перевода.

Данный вебинар будет особенно интересен:
-Дата-сайентистам и аналитикам данных, которые хотят углубиться в задачи обработки естественного языка.
-Специалистам по машинному обучению, заинтересованным в работе с текстовыми данными и моделями перевода.
-Всем, кто изучает современные технологии искусственного интеллекта и их применение в реальных задачах.

В результате вебинара слушатели:
-Узнают, как работает архитектура seq2seq и как она решает задачи машинного перевода.
-Поймут, как attention mechanism улучшает качество перевода и как его можно применить в своих проектах.

🔗 Ссылка на регистрацию: https://vk.cc/cKRM5a

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqv5X5vi

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое One-Hot Encoding в Data Science и зачем он используется?

One-Hot Encoding — это способ преобразования категориальных признаков (текста) в числовой формат для обучения моделей машинного обучения.

Каждое уникальное значение категории превращается в отдельную колонку с 0 или 1.

➡️ Пример:

import pandas as pd

data = pd.DataFrame({
'Color': ['Red', 'Green', 'Blue', 'Red']
})

# Применяем One-Hot Encoding
encoded = pd.get_dummies(data)

print(encoded)

Color_Blue Color_Green Color_Red
0 0 0 1
1 0 1 0
2 1 0 0
3 0 0 1


🗣️ В этом примере категориальный столбец Color преобразован в три колонки с бинарными значениями. Такой формат данных необходим для многих моделей, например, линейной регрессии и деревьев решений.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

Тик-так! Конференция уже совсем скоро

Начинаем рассказывать о самых интересных событиях на Data Fusion 2025. Время планировать программу: сделать это можно, например, в нашем чат-боте @Data_Fusion_bot.

16 апреля рекомендуем посетить сессию «О науке и жизни: неформальный разговор с известными учеными». Трое хорошо вам знакомых ученых — Константин Вячеславович Воронцов, Андрей Михайлович Райгородский и Иван Валерьевич Оселедец — соберутся на одной площадке, чтобы ответить на все, даже самые каверзные, вопросы.

‼️Вопросы собираем прямо здесь — в комментариях. Задавайте вопрос и указывайте, кому он адресован.

🕑 16 апреля, 14:10
📍Зал «Атом» или онлайн-трансляция на платформе VK Видео


За актуальной программой и временем начала сессии следите на сайте 💙

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для джунов

​Data Engineer (Junior)
🟢Scala или Python, SQL, Apache Spark, Hadoop, NiFi
🟢Уровень дохода не указан | 1–3 года​

Junior/Middle Data Engineer (Финансовый блок)
🟢Scala, Python, Java, SQL, Apache Spark, Hadoop, Apache Airflow
🟢Уровень дохода не указан | 1–3 года​

Data Analyst (Junior)
🟢SQL, Python, A/B тесты, BI, ML Base, EDA, продуктовая аналитика
🟢от 70 000 ₽ | Без опыта

Читать полностью…

Data Science | Machinelearning [ru]

Три трека по AI на хакатоне от МТС и 500 000 рублей за первое место. Для тех, кто готов воплотить идею в прототип

Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и внеси вклад в продукты, которые приносят пользу разработчикам по всей России.

На хакатоне ты сможешь:
— Выбрать один из пяти треков и создать решение на базе ИТ-платформ МТС.
— Побороться за призовой фонд — 1 500 000 рублей.
— Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС.
— Повысить шансы на прохождение стажировки в МТС.
— Узнать больше о продуктах и технологиях МТС от экспертов компании.

Хакатон будет проходить с 17 по 25 апреля.
Регистрация открыта до 16 апреля. https://truetechhack.ru/

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Функция property() в Python: добавляем управляемые атрибуты в классы

Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

cgroups и namespaces в Linux: как это работает?

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Разрабатываем первое AI приложение

Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🎮 Погружайся в чужие проекты как в игру

Попал на новый проект и боишься "чужого" кода? Сложно и страшно?

👉 Совет: относись к чужому проекту как к исследовательской игре. Ваша миссия — понять карту, найти скрытые механики, собрать артефакты знаний. Геймификация процесса сильно снижает стресс и делает погружение гораздо приятнее.

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для лидов

​Team Lead Data Scientist
🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps (Experiment Tracking, Model Registry, Feature Store, auto-retraining, Online serving, Models monitoring), CI/CD
🟢от 5 000 до 7 250 $ | 3–6 лет​

Lead Data Engineer
🟢Python, Apache Spark, Airflow, PostgreSQL, ClickHouse, SQL, CI/CD, Linux, k8s
🟢от 450 000 ₽ | более 6 лет​

Lead Data Engineer
🟢Hadoop, Spark (batch/streaming), Scala, SQL, Parquet, Hive, Kafka, HBase, ClickHouse, PostgreSQL, Airflow, Zeppelin, Jupyter
🟢Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое StandardScaler в Data Science и зачем он используется?

StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1.

Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans.

➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
[20, 300],
[30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)


🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

Этичные хакеры будут искать уязвимости в нейросетках Яндекса

Яндекс давно привлекает этичных хакеров для повышения безопасности сервисов. Теперь им предлагают найти ошибки в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре в рамках нового конкурса багбаунти-программы «Охота за ошибками». Вознаграждение — до миллиона рублей, в зависимости от критичности проблемы.

Искать нужно будет технические уязвимости, которые могут влиять на результат работы нейросетевых моделей. Неточные ответы Алисы не в счет.

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Архитектура проекта автоматического обучения ML-моделей

В статье ребята из Ингосстраха делятся, как автоматизировали запуск и внедрение моделей, чтобы быстрее закрывать запросы бизнеса, не утонув в бэклоге.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви

В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Анализ данных: от EDA до Tinder-битвы графиков

Расскажу, как мы в МТС учили студентов EDA не лекциями, а игрой по типу Tinder, только для графиков. Был фан, был хардкор и крутые визуализации.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Постройте простую модель классификации с использованием scikit-learn

Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.

Решение задачи🔽

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загружаем данные
iris = load_iris()
X, y =
iris.data, iris.target

# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для мидлов

​Data Scientist (Middle)
🟢Python, SQL, Pandas, NumPy, Matplotlib
🟢Уровень дохода не указан | 3–6 лет​

Инженер данных / Data engineer (middle)
🟢Scala, Python, SQL, Apache Spark, Hadoop, NiFi
🟢Уровень дохода не указан | 1–3 года​

Аналитик данных/Data Analyst
🟢SQL (ClickHouse, Postgres, MS SQL), Python, Jupyter, Git, BI-системы (Datalens)
🟢от 200 000 до 300 000 ₽ | 1–3 года

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Организация ML-проекта с примерами

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

Присоединяйтесь к дискуссии — задавайте свои вопросы в комментариях к посту

Рекламодатель БАНК ВТБ (ПАО), ИНН 7702070139, Генеральная лицензия банка России №1000. Реклама, erid: 2SDnjdpp8nG. 0+
/channel/Data_fusion/152

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Напишите функцию для расчёта Accuracy вручную

В машинном обучении Accuracy — это метрика качества классификации. Показывает, сколько предсказаний модель сделала правильно.

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = 0
for true, pred in zip(y_true, y_pred):
if true == pred:
correct += 1
return correct / len(y_true)

# Пример использования:
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred)) # 0.833...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Когда обучение не идет. Loss is NaN. Причины и решения

В статье разберут, почему при обучении нейросети loss внезапно становится NaN и модель ломается. Расскажут, какие бывают причины этого трэша и как спасти обучение без лишней боли.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))
# Ожидаемый результат: ('B', 'D')


Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка зарубежных вакансий

​Python-разработчик
🟢Python, Django, Docker, PostgreSQL, Kafka, FastAPI, Kubernetes, Keycloak
🟢от 200 000 ₽ | 1–3 года​

AI Engineer
🟢Python, FastAPI, MongoDB, GitLab CI/CD, Kubernetes, AWS, Azure, GCP
🟢Уровень дохода не указан | 1–3 года​

DBA | Senior Database Administrator
🟢PostgreSQL, MongoDB, Redis, MySQL, ClickHouse, Ansible, Bash, Python, Grafana, Prometheus, ELK
🟢Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚡️Строим рекомендательную систему фильмов на Kaggle

Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬

Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.

Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели

Вебинар будет интересен как новичкам, так и уже опытным специалистам

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ RAG: борьба с низким качеством ответов в условия экономии памяти на GPU

В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

📈 Подборка статей для вашей карьеры

Больше чем книга

Как поставить цель на обучение, чтобы дойти до конца

Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров

Найм дизайнеров глазами лида

Software Architect vs Solution Architect

Читать полностью…
Subscribe to a channel