Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
👀 Рептилоиды победили… но это не точно
ИИ всё ещё не рептилоид: в статье — скептический разбор "интеллекта" нейросетей. Проверка на слонах, эволюция ответов Алисы, трезвый взгляд на истерики СМИ и разница между AGI и автокомплитом.
Читать...
➡️ Человек, которого выбрал ИИ
Рассказывается, как ИИ научили выбирать сперматозоиды для ЭКО, и один из них уже стал человеком. Не теория, а реальный кейс: без философии, с метриками и видео процедур.
Читать...
🔎 Подборка вакансий для мидлов
Middle Data Scientist (лидогенерация)
🟢Python, Airflow, MLflow, Hadoop (Hive, Spark), Oracle (SQL, PL/SQL), Linux, Bash, Git
🟢Уровень дохода не указан | 1–3 года
Data Engineer (Middle)
🟢Python (pandas, Airflow), PostgreSQL, MongoDB, ClickHouse, AWS, Yandex Cloud, Kafka, Spark
🟢Уровень дохода не указан | 1–3 года
Python Developer (Middle)
🟢Python, Flask, FastAPI, React.js, PostgreSQL, Airflow, Git, Docker, ElasticSearch, Kafka
🟢Уровень дохода не указан | 3–6 лет
А ничего тот факт, что Сбер приглашает тебя на One Day Offer для DS/ML/DE специалистов? 😏
Ты будешь работать над рекомендательной платформой: масштабируемой, способной каждый день удивлять пользователей и предлагать им релевантные рекомендации.
Добавляй в свой календарь 26 апреля, регистрируйся по ссылке и готовься пройти отбор в команду мечты за один день!
🔎 Подборка вакансий для джунов
Junior Data Scientist (A/B-testing)
🟢Python, Spark, Airflow, MLFlow, Postgres, Git, DVC, Docker
🟢Уровень дохода не указан | 1–3 года
Junior ML Engineer / Data Scientist
🟢Python, SciPy, scikit-learn, LightGBM, CatBoost, Git, Docker, MLflow, Airflow
🟢от 120 000 до 200 000 ₽ | 1–3 года
Junior Data Scientist
🟢Python, SQL, pandas, numpy, matplotlib, seaborn, Scikit-learn, PyTorch, XGBoost, CatBoost, TensorFlow, transformers, pymorphy2, NLTK, Gensim, spaCy, regexp
🟢Уровень дохода не указан | 1–3 года
👩💻 Задача: Реализация собственного Score-функционала для оценки модели
Напишите свою метрику custom_score
, которая будет вычислять "взвешенную точность": за TP даём +2, за TN — +1, FP и FN — 0. Это может быть полезно в задачах, где ложноположительные и ложноотрицательные результаты имеют разный вес
Решение задачи🔽
from sklearn.metrics import confusion_matrixЧитать полностью…
def custom_score(y_true, y_pred):
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
score = tp * 2 + tn * 1
return score / (tp + tn + fp + fn) # нормализуем
# Пример использования:
y_true = [1, 0, 1, 1, 0, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1, 1]
print(custom_score(y_true, y_pred)) # Примерный вывод: 0.71
🔥 Самые интересные статьи за последние дни:
• Всё, что вы хотели знать о Django Channels
• Сборка Python проекта с uv и Docker
• DE-1. DIY ассистент на LLM
• Ваши генераторные выражения сломаны: чиним и разбираемся
• Всё, что вы хотели знать о Django Channels
⚙️ Как мы создаём Visionatrix: упрощая ComfyUI
В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени.
Читать...
🔎 Подборка зарубежных вакансий
Senior Data Analyst
🟢Python, SQL, Amplitude, Firebase, аналитические платформы, маркетинговые метрики
🟢до 3 000 $ | 3–6 лет
Senior Data Engineer
🟢Python, SQL, Apache Airflow, Exasol, ClickHouse, StarRocks, Snowflake, BigQuery, Redshift, ETL/ELT, S3, Docker, Kubernetes
🟢Уровень дохода не указан | более 6 лет
Team Lead Data Scientist
🟢Python, RecSys, Uplift modeling, Churn prediction, LTV prediction, Forecasting, MLOps, CI/CD
🟢от 5 000 до 7 250 $ | более 6 лет
👩💻 Под капотом asyncio: принципы работы и ключевые концепции
Библиотека asyncio предоставляет полный набор инструментов для организации параллельного выполнения кода в Python с использованием концепции асинхронности. Но как на самом деле работает asyncio? Давайте разберемся в ключевых принципах и понятиях.
Читать...
⚙️ Как обучить русскоязычную модель рассуждений — LRM?
В статье разбор мультиязычных моделей рассуждений от Lightblue: как они научили DeepSeek "думать" на русском, откуда взяли датасет и зачем запускали LLM как фильтр рассудительности.
Читать...
⚙️ Архитектура проекта автоматического обучения ML-моделей
В статье ребята из Ингосстраха делятся, как автоматизировали запуск и внедрение моделей, чтобы быстрее закрывать запросы бизнеса, не утонув в бэклоге.
Читать...
⚙️ Как я сделала свой первый AI-продукт с ChatGPT и капелькой любви
В этой статье я расскажу о моем опыте самостоятельного изучения основ Python и Machine Learning и создании первого проекта OneLove на базе собственной модели искусственного интеллекта (ИИ).
Читать...
⚙️ Анализ данных: от EDA до Tinder-битвы графиков
Расскажу, как мы в МТС учили студентов EDA не лекциями, а игрой по типу Tinder, только для графиков. Был фан, был хардкор и крутые визуализации.
Читать...
👩💻 Постройте простую модель классификации с использованием scikit-learn
Создайте модель на датасете Iris, обучите классификатор KNeighborsClassifier
и сделайте предсказание. Это классическая задача для первых шагов в машинном обучении.
Решение задачи🔽
from sklearn.datasets import load_irisЧитать полностью…
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# Загружаем данные
iris = load_iris()
X, y = iris.data, iris.target
# Делим на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# Обучаем модель
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
# Предсказание
y_pred = model.predict(X_test)
# Оценка качества
print(f"Точность: {accuracy_score(y_test, y_pred):.2f}")
👩💻 Обучите модель для классификации текста с помощью Naive Bayes
Создайте простую модель машинного обучения, которая определяет, является ли текст позитивным или негативным. Используем sklearn
и алгоритм Naive Bayes
Решение задачи🔽
from sklearn.feature_extraction.text import CountVectorizerЧитать полностью…
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
# Обучающие данные
texts = ["Это отличный фильм", "Ужасный опыт", "Мне понравилось", "Очень скучно", "Прекрасная история"]
labels = ['positive', 'negative', 'positive', 'negative', 'positive']
# Модель
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(texts, labels)
# Прогноз
print(model.predict(["Фильм был ужасен"])) # ['negative']
print(model.predict(["Обожаю это кино"])) # ['positive']
Занимаетесь робототехникой или искусственным интеллектом? Тогда вам точно стоит посетить ROS Meetup 2025! 🤖
26 апреля в Москве соберётся всё ROS-сообщество, чтобы обменяться опытом в области робототехники, искусственного интеллекта и практического применения ROS. Вас ждут актуальные доклады от ведущих специалистов, увлекательные дискуссии и выставка роботов. Не упустите возможность завести новые знакомства среди единомышленников.
Обязательно добавьте в календарь 26 апреля — будет познавательно и захватывающе!
⚙️ Что такое one-hot encoding и зачем он нужен в Data Science?
One-hot encoding — это способ представления категориальных признаков в виде бинарных векторов. Он используется для подготовки данных к моделям машинного обучения, которые не могут работать напрямую с текстовыми значениями.
➡️ Пример:
import pandas as pd
df = pd.DataFrame({'цвет': ['красный', 'синий', 'красный', 'зелёный']})
encoded = pd.get_dummies(df['цвет'])
print(encoded)
🗣️ В этом примере get_dummies превращает колонку с названиями цветов в три бинарные колонки — по одному на каждый уникальный цвет. Это позволяет моделям легче обрабатывать категориальные данные.
⚙️ Под микроскопом: AI Product Hack
Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах.
Читать...
Как контейнеризация меняет аналитику данных?
Docker — не просто модное слово, а инструмент, который упрощает развертывание аналитических решений, повышает их масштабируемость и ускоряет работу с данными.
💥 На открытом вебинаре 24 апреля в 20:00 мск разберём:
— Как работает Docker и почему он важен для аналитиков.
— Как с его помощью развернуть BI-платформы и ELT-пайплайны.
— Какие команды и практики нужно освоить для эффективной работы.
Спикер Андрей Поляков — старший разработчик сервисов платежных систем в международной компании.
➡️ Открытый урок проходит в преддверии старта курса «Data Warehouse Analyst». Всем участникам — скидка на обучение. Подробности и регистрация: https://vk.cc/cL07AE
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
🤔 Насколько хороши LLM?
Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям.
Читать...
👩💻 Построй визуализацию распределения признаков с автоматической категоризацией
Создайте функцию plot_distributions
, которая принимает DataFrame
и автоматически определяет числовые и категориальные признаки. Затем строит гистограммы или bar-графики в зависимости от типа данных. Это удобно для EDA (исследовательского анализа данных).
Решение задачи🔽
import pandas as pdЧитать полностью…
import matplotlib.pyplot as plt
import seaborn as sns
def plot_distributions(df, max_categories=10):
for column in df.columns:
plt.figure(figsize=(6, 4))
if pd.api.types.is_numeric_dtype(df[column]):
sns.histplot(df[column].dropna(), kde=True)
plt.title(f'Гистограмма: {column}')
elif df[column].nunique() <= max_categories:
df[column].value_counts().plot(kind='bar')
plt.title(f'Категории: {column}')
else:
print(f'Пропущен {column}: слишком много уникальных категорий')
continue
plt.tight_layout()
plt.show()
# Пример использования
df = pd.DataFrame({
'age': [23, 45, 31, 35, 62, 44, 23],
'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'female'],
'income': [40000, 50000, 45000, 52000, 61000, 48000, 46000]
})
plot_distributions(df)
🤖 Как бизнес зарабатывает на ИИ в апреле 2025
• Artisan привлекла $25 млн для развития ИИ-агентов, автоматизирующих задачи в продажах и CRM. Первый агент Ava уже заменяет BDR в компаниях среднего звена .
• Малый бизнес в Великобритании увеличивает продуктивность на 27–133% благодаря ИИ-инструментам для управления персоналом и запасами .
• Microsoft Dynamics 365 внедряет цифровых двойников и генеративный ИИ для оптимизации цепочек поставок и логистики в производстве .
• Google Workspace представляет агентные ИИ-инструменты для автоматизации рабочих процессов и повышения эффективности бизнеса .
• OpenAI объявила о прекращении поддержки GPT-4.5 и рекомендует переход на более экономичный GPT-4.1 к июлю 2025 года .
📁 В этой папке:
/channel/addlist/iVhUYbQyw-0yYThi
— проверенные ИИ-инструменты
— способы монетизации для ИИ- и IT-специалистов
— тренды на 2025 год: что работает, а что устарело
/channel/addlist/iVhUYbQyw-0yYThi
💬 Хочешь попасть в следующую подборку? Напиши: @RyabovaM
🌌 Делай мини-проекты из собственных болей
Бесит, что каждый день ищешь одну и ту же команду в истории? Или вручную обрезаешь скриншоты? Это подсказки.
👉 Совет: собирай такие мелкие «боли» и превращай их в свои pet-проекты или утилиты. Это не только помогает себе, но и тренирует навык быстрого решения задач и проектирования под реальную жизнь.
Зачем платить за ресурсы, которые вы не используете? 👨💻
На вебинаре 22 апреля провайдер Cloud․ru расскажет про новый сервис Evolution ML Inference для быстрого запуска ML-моделей в облаке.
Вы узнаете:
😶🌫️почему технология Shared GPU выгоднее выделенных ресурсов: расчет экономии на примере реальных проектов;
😶🌫️как запускать модели с Hugging Face за несколько кликов;
😶🌫️как избежать переплат: настройка лимитов GPU и мониторинг real-time;
😶🌫️про динамическое масштабирование: добавление ресурсов при пиковой нагрузке и отключение в простое.
Будет особенно интересно дата-сайентистам, DevOps-инженерам и тем, кто планирует запускать свои ML-модели.
Зарегистрироваться на вебинар 🧠
⚙️ Что такое StandardScaler
из scikit-learn и зачем он нужен?StandardScaler
— это инструмент из библиотеки scikit-learn
, который стандартизирует данные: приводит их к распределению со средним 0 и стандартным отклонением 1. Это важно перед обучением моделей, особенно для алгоритмов, чувствительных к масштабу (например, SVM, KNN, линейная регрессия).
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[10, 200], [15, 300], [14, 250]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ StandardScaler — must-have шаг в пайплайне предварительной обработки данных для большинства классических ML-моделей
🚀 Data Engineer в Navio: получи оффер в компанию за 1 день!
В команду BigData мы ищем специалистов уровней middle и senior, готовых решать нестандартные задачи и создавать проекты, которые меняют мир. Наши данные имеют физический смысл: победа над каждой ошибкой здесь — снижение риска ДТП в реальном мире.
С нами ты будешь: собирать датасеты для нейросетей, обрабатывать данные для работы автономных машин, визуализировать 4D-траектории, строить системы для сквозной аналитики и не только.
Готов проявить свои навыки? Заполняй заявку, оставляй резюме на сайте и получи приглашение от нашего рекрутера на One Day Offer 26 апреля. Приходи на онлайн-мероприятие, пообщайся с командой и, возможно, уже вечером ты станешь ее частью.
⚡️ One Day Offer — твой шанс изменить карьеру!
📈 Подборка статей для вашей карьеры
• Как продакт-менеджеру учить английский: план, сроки, советы
• Иллюзия прогресса: почему мне не удалось дать студентам-айтишникам реальный опыт
• Interview copilots: как кандидаты используют ChatGPT на интервью
• Моя история входа в IT: как я ломал стены своих ограничений
• Как мы разработали систему грейдинга для системных аналитиков
⚙️ Рекомендательная система для вашего каталога научных работ (и не только!)
Показано, как собрать рекомендательную систему на своём архиве документов, даже если там куча форматов. NLP + графы = машинный архивариус, который сам подсовывает нужные файлы.
Читать...
🤖 Машинный перевод seq2seq: и как обучить модель понимать языки
🗓 21 апреля в 20:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing».
На данном открытом уроке мы:
✔️Познакомимся с архитектурой seq2seq и ее применением в задачах машинного перевода
✔️Разберем архитектуру энкодер-декодер, её основные компоненты и как она используется для перевода текста.
✔️Изучим концепцию attention mechanism и его влияние на повышение качества машинного перевода.
Данный вебинар будет особенно интересен:
-Дата-сайентистам и аналитикам данных, которые хотят углубиться в задачи обработки естественного языка.
-Специалистам по машинному обучению, заинтересованным в работе с текстовыми данными и моделями перевода.
-Всем, кто изучает современные технологии искусственного интеллекта и их применение в реальных задачах.
В результате вебинара слушатели:
-Узнают, как работает архитектура seq2seq и как она решает задачи машинного перевода.
-Поймут, как attention mechanism улучшает качество перевода и как его можно применить в своих проектах.
🔗 Ссылка на регистрацию: https://vk.cc/cKRM5a
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqv5X5vi