devsp | Unsorted

Telegram-канал devsp - Data Science | Machinelearning [ru]

17987

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

👩‍💻 Генератор случайных паролей с настройками

Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:

Использовать ли цифры.
Использовать ли буквы верхнего и/или нижнего регистра.
Использовать ли специальные символы.

➡️ Пример:

password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6


Решение задачи🔽

import random
import string

def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")

# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"

if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")

# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))

# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)

Читать полностью…

Data Science | Machinelearning [ru]

Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖

В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций.

- Технологические достижения
Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь.

- Влияние на повседневность
IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность.

- Оптимизация бизнеса
Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе.

- Образование
IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении.

- Этические вопросы
С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным.

- Будущее IT
Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь.

Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы.
Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств!

👉 Подписаться на каналы

Следите за новыми трендами в IT! 🌐

Читать полностью…

Data Science | Machinelearning [ru]

MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри?

В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине.
Почему:
Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT
15 конфигураций: A100, A40, V100, T4 и др.
CPU Intel Xeon Gold (6248R, 6154, 5318Y)
Надёжность: Tier III ЦОДы, DRaaS, балансировка
Гибкость: Fix, flexible, выделенные сегменты

Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.

Читать полностью…

Data Science | Machinelearning [ru]

🧠 Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией

В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

В Yandex Cloud AI Studio стали доступны VLM-модели, которые умеют автоматически генерировать описания товаров по фотографиям и находить нужные фрагменты в большом объёме документов. Также был расширен парк больших языковых моделей — их число приблизилось к двадцати. Они доступны только в пакетном режиме: можно отправлять сразу множество запросов в модель, что особенно выручает при массовом анализе пользовательских комментариев или подготовке сводок по научным статьям.

Для разработчиков это открывает свободу экспериментов и позволяет выбирать оптимальную модель под конкретные задачи. Наличие большого разнообразия нейросетей может помочь оценить производительность и точность разных архитектур, при этом вы не ограничены только YandexGPT — при необходимости легко комбинировать его с любыми другими моделями. Дополнение функционала VLM-моделями расширяет спектр применений, например, от семантического поиска по документам до генерации визуального контента. Из личного опыта могу сказать, что подключение VLM сразу дало ощутимый эффект.

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части

В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций.

На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.

После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.

⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/MZfV/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZWhgF

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Проверка, являются ли две строки анаграммами

Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.

Пример:

result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False


Решение задачи🔽

def are_anagrams(str1, str2):
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())

# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)

# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True

result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False

Читать полностью…

Data Science | Machinelearning [ru]

🧹 Заводи «технический долг» как отдельную задачу

Фраза «потом починим» без тикета = «никогда не починим».

👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.

Читать полностью…

Data Science | Machinelearning [ru]

🤡 Endless Fun Machine: бесконечный генератор смешных картинок

Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

VI российский саммит и Премия CDO/CDTO Summit & Awards 2025 собрали лидеров цифровой трансформации из различных отраслей.

Это событие стало площадкой для обсуждения актуальных вопросов цифровизации, развития инфраструктуры на основе российского ПО и технологий, а также обмена опытом между представителями бизнеса и органов власти.

Сразу две награды получила МТС Web Services:

🟢 Платформа MWS Octapi получила Гран-при в номинации «Digital-платформа года». Octapi позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность.

🟢 Павел Воронин генеральный директор МТС Web Services стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».

Читать полностью…

Data Science | Machinelearning [ru]

➡️ Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Покажем, как связали нашу платформу ИИ и Озеро данных, чтобы модели удобно работали с витринами через Spark. Немного архитектуры, немного боли, немного магии.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле.

Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity.

Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту.

➡️ Пример:

python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.

Решение задачи ⬇️

import pandas as pd
import sys

def clean_and_aggregate(file_path):
# Загружаем данные
data = pd.read_csv(file_path)

# Удаляем строки с пустыми значениями в колонках 'price' и 'quantity'
data.dropna(subset=['price', 'quantity'], inplace=True)

# Преобразуем колонки в числовой формат, ошибки игнорируем
data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce')

# Удаляем строки с некорректными значениями
data.dropna(subset=['price', 'quantity'], inplace=True)

# Агрегируем данные
aggregated_data = data.groupby('product_id').agg(
total_quantity=('quantity', 'sum'),
total_sales=('price', 'sum')
).reset_index()

# Сохраняем в новый CSV
aggregated_data.to_csv('aggregated_data.csv', index=False)
print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.")

if __name__ == "__main__":
if len(sys.argv) != 2:
print("Использование: python
app.py <путь к файлу CSV>")
sys.exit(1)

file_path = sys.argv[1]
clean_and_aggregate(file_path)

Читать полностью…

Data Science | Machinelearning [ru]

👀 WorkTeam: новый мультиагентный фреймворк для автоматизации сложных бизнес-процессов

Показываю, как платформа WorkTeam превращает описания процессов на обычном языке в работающий бизнес-процесс — без кодеров, без боли и почти без магии.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

➡️ Будущее LLM в XS, S, M и других размерах

В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

о3 теснит программистов? Как OpenAI снова всех удивила

AI, который всё за нас решит

Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Обучение модели классификации цветов по RGB

Напишите код на Python, который:

• Генерирует случайные RGB-цвета
• Классифицирует цвета как "Светлый" или "Тёмный"
• Обучает простую модель машинного обучения для этой задачи

Условие классификации:
Если сумма R + G + B > 382, считаем цвет светлым, иначе — тёмным.

Решение задачи🔽

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Генерация данных
np.random.seed(42)
X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB
y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный

# Разделение на обучение и тест
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

# Проверка качества
y_pred = model.predict(X_test)
print("Точность модели:", accuracy_score(y_test, y_pred))

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для мидлов

Data Scientist в области языковых моделей (Middle)
🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM
🟢от 351 000 ₽ | 3–6 лет

Middle Data Engineer
🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka
🟢от 4 000 € | 3–6 лет

Data Scientist
🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow
🟢Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое Feature Scaling в ML и зачем он нужен?

Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.

Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных

➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)


🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.


Без масштабирования одна "большая" переменная может полностью доминировать над другими..

🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для джунов

Junior Data Engineer
🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes
🟢до 200 000 ₽ | 1–3 года

Data Analyst (Junior) | Аналитик Данных (Младший)
🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker
🟢Уровень дохода не указан | 1–3 года

Data инженер DWH Junior (Hadoop)
🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence
🟢Уровень дохода не указан | 1–3 года

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Поиск самого часто встречающегося элемента в списке

Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.

Пример:

numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)


Решение задачи🔽

from collections import Counter

def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)

# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Читать полностью…

Data Science | Machinelearning [ru]

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка зарубежных вакансий

Data Scientist рекомендательные системы (full time office)
🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker
🟢Уровень дохода не указан | 3–6 лет

Senior Data Scientist (Recommender Systems)
🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX
🟢от 5 000 до 6 500 € | 3–6 лет

Data Scientist (Кипр)
🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning
🟢от 4 000 € | 1–3 года

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для лидов

Data Architect
Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark
Уровень дохода не указан | Без опыта

Team Lead Data Platform
Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka
Уровень дохода не указан | Без опыта

Data Science Tech Lead/Product owner
Python, SQL, Hadoop, Spark, Airflow
Уровень дохода не указан | Без опыта

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое data leakage в машинном обучении и почему это опасно?

Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных.

➡️ Пример:

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Пример: диагностические данные пациента
df = pd.DataFrame({
'age': [25, 40, 60, 35],
'blood_pressure': [120, 130, 150, 110],
'has_disease': [0, 1, 1, 0],
'diagnosis_code': [0, 1, 1, 0] # случайно совпадает с целевой переменной
})

X = df.drop('has_disease', axis=1)
y = df['has_disease']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))


🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage

Читать полностью…

Data Science | Machinelearning [ru]

⚡️ Python теперь в Telegram!

Ребята сделали крутейший канал, где на простых картинках и понятном языке обучают Python, делятся полезными фишками и инструментами

Подписывайтесь: @PythonPortal

Читать полностью…

Data Science | Machinelearning [ru]

📈 Подборка статей для вашей карьеры

Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю

Все, пора увольняться: что я поняла после работы в токсичных командах

Базовое программирование, или Почему джуны не могут пройти к нам собеседование

Я стал аналитиком, потому что не смог быть программистом

Читать полностью…

Data Science | Machinelearning [ru]

Учите машины учиться? Тогда вам на IML

🗓️16–17 мая
📍 Питер + онлайн

IML — конференция для всех, кто использует ML в проектах. Здесь собираются ML-инженеры, дата-сайентисты, исследователи, аналитики и разработчики.

В этот раз вас ждет двухдневный технологический хардкор об NLP, RecSys, MLOps и Computer Vision. С докладами выступят спикеры из Яндекса, Positive Technologies, Т-Банка, Точки и других известных компаний.

А вот что с билетами:
→ Дают скидку 15% на билет для частных лиц по промокоду DEVSP;
→ Есть билет для студентов и преподавателей вузов — в два раза дешевле персонального;
→ Можно попросить руководство приобрести корпоративный билет.

Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно.

За подробностями и билетами

Читать полностью…
Subscribe to a channel