Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
👩💻 Генератор случайных паролей с настройками
Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:•
Использовать ли цифры.•
Использовать ли буквы верхнего и/или нижнего регистра.•
Использовать ли специальные символы.
➡️ Пример:
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6
import randomЧитать полностью…
import string
def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")
# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"
if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")
# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))
# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)
Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖
В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций.
- Технологические достижения
Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь.
- Влияние на повседневность
IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность.
- Оптимизация бизнеса
Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе.
- Образование
IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении.
- Этические вопросы
С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным.
- Будущее IT
Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь.
Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы.
Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств!
👉 Подписаться на каналы
Следите за новыми трендами в IT! 🌐
MTС Web Services — №1 в рейтинге GPU-облаков. Что внутри?
В рейтинге GPU Cloud 2025 от CNews MTS Web Services оказался на вершине.
Почему:
Поддержка MLOps, ML-библиотек и платформы для работы с LLM-моделями - MWS GPT
15 конфигураций: A100, A40, V100, T4 и др.
CPU Intel Xeon Gold (6248R, 6154, 5318Y)
Надёжность: Tier III ЦОДы, DRaaS, балансировка
Гибкость: Fix, flexible, выделенные сегменты
Выбор тех, кто ищет мощность, стабильность и экономию на наиболее выгодных для себя условиях.
🧠 Обучаем ИИ-агентов играть в видеоигры: новый подход с LLM и рефлексией
В статье разбирают новый подход к ИИ для 3D-игр от Tencent: вместо долгого обучения — LLM и язык поведения, чтобы быстро рождать умных агентов без танцев с бубном.
Читать...
В Yandex Cloud AI Studio стали доступны VLM-модели, которые умеют автоматически генерировать описания товаров по фотографиям и находить нужные фрагменты в большом объёме документов. Также был расширен парк больших языковых моделей — их число приблизилось к двадцати. Они доступны только в пакетном режиме: можно отправлять сразу множество запросов в модель, что особенно выручает при массовом анализе пользовательских комментариев или подготовке сводок по научным статьям.
Для разработчиков это открывает свободу экспериментов и позволяет выбирать оптимальную модель под конкретные задачи. Наличие большого разнообразия нейросетей может помочь оценить производительность и точность разных архитектур, при этом вы не ограничены только YandexGPT — при необходимости легко комбинировать его с любыми другими моделями. Дополнение функционала VLM-моделями расширяет спектр применений, например, от семантического поиска по документам до генерации визуального контента. Из личного опыта могу сказать, что подключение VLM сразу дало ощутимый эффект.
⚙️ Рейтинг 6 нейросетей для сокращения текста, ч. 1: промты рвут контент на части
В статье собрали 25 промтов для сжатия текста и сравнили, как разные нейросети вроде ChatGPT-4o и Gemini-2.5 превращают километры букв в понятные и короткие саммари.
Читать...
❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций.
На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.
После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.
⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/MZfV/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZWhgF
⚙️ Пишем свою Diffusion модель с нуля
Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.
Читать...
👩💻 Проверка, являются ли две строки анаграммами
Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.
Пример:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True
result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
def are_anagrams(str1, str2):Читать полностью…
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())
# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)
# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True
result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
🧹 Заводи «технический долг» как отдельную задачу
Фраза «потом починим» без тикета = «никогда не починим».
👉 Совет: всё, что требует доработки, выноси в явные задачи или хотя бы в отдельный трекер. Технический долг нужно видеть, чтобы его гасить. Складывать его «в голове» — значит накапливать долги втайне до катастрофы.
🤡 Endless Fun Machine: бесконечный генератор смешных картинок
Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных
Читать...
VI российский саммит и Премия CDO/CDTO Summit & Awards 2025 собрали лидеров цифровой трансформации из различных отраслей.
Это событие стало площадкой для обсуждения актуальных вопросов цифровизации, развития инфраструктуры на основе российского ПО и технологий, а также обмена опытом между представителями бизнеса и органов власти.
Сразу две награды получила МТС Web Services:
🟢 Платформа MWS Octapi получила Гран-при в номинации «Digital-платформа года». Octapi позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность.
🟢 Павел Воронин генеральный директор МТС Web Services стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».
➡️ Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML
Покажем, как связали нашу платформу ИИ и Озеро данных, чтобы модели удобно работали с витринами через Spark. Немного архитектуры, немного боли, немного магии.
Читать...
👩💻 Задачка по Python
Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле.
Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity.
Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту.
➡️ Пример:
• python app.py sales_data.csv
— создает новый файл aggregated_data.csv
с общей суммой и количеством проданных товаров по каждому продукту.
Решение задачи ⬇️
import pandas as pdЧитать полностью…
import sys
def clean_and_aggregate(file_path):
# Загружаем данные
data = pd.read_csv(file_path)
# Удаляем строки с пустыми значениями в колонках 'price' и 'quantity'
data.dropna(subset=['price', 'quantity'], inplace=True)
# Преобразуем колонки в числовой формат, ошибки игнорируем
data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce')
# Удаляем строки с некорректными значениями
data.dropna(subset=['price', 'quantity'], inplace=True)
# Агрегируем данные
aggregated_data = data.groupby('product_id').agg(
total_quantity=('quantity', 'sum'),
total_sales=('price', 'sum')
).reset_index()
# Сохраняем в новый CSV
aggregated_data.to_csv('aggregated_data.csv', index=False)
print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.")
if __name__ == "__main__":
if len(sys.argv) != 2:
print("Использование: python app.py <путь к файлу CSV>")
sys.exit(1)
file_path = sys.argv[1]
clean_and_aggregate(file_path)
👀 WorkTeam: новый мультиагентный фреймворк для автоматизации сложных бизнес-процессов
Показываю, как платформа WorkTeam превращает описания процессов на обычном языке в работающий бизнес-процесс — без кодеров, без боли и почти без магии.
Читать...
➡️ Будущее LLM в XS, S, M и других размерах
В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.
Читать...
🔥 Самые интересные статьи за последние дни:
• о3 теснит программистов? Как OpenAI снова всех удивила
• AI, который всё за нас решит
• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе
• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок
👩💻 Обучение модели классификации цветов по RGB
Напишите код на Python, который:
• Генерирует случайные RGB-цвета
• Классифицирует цвета как "Светлый" или "Тёмный"
• Обучает простую модель машинного обучения для этой задачи
Условие классификации:
Если сумма R + G + B > 382
, считаем цвет светлым, иначе — тёмным.
Решение задачи🔽
import numpy as npЧитать полностью…
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
# Генерация данных
np.random.seed(42)
X = np.random.randint(0, 256, size=(1000, 3)) # 1000 цветов RGB
y = (X.sum(axis=1) > 382).astype(int) # 1 - светлый, 0 - тёмный
# Разделение на обучение и тест
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)
# Проверка качества
y_pred = model.predict(X_test)
print("Точность модели:", accuracy_score(y_test, y_pred))
🔎 Подборка вакансий для мидлов
Data Scientist в области языковых моделей (Middle)
🟢Python, pandas, numpy, matplotlib, Hugging Face, transformers, машинное обучение, LLM
🟢от 351 000 ₽ | 3–6 лет
Middle Data Engineer
🟢SQL, Python, PostgreSQL, MongoDB, ClickHouse, Airflow, dbt, Docker, Kubernetes, Kafka
🟢от 4 000 € | 3–6 лет
Data Scientist
🟢Python, PySpark, Pandas, PyTorch, Scikit-learn, RecBole, Airflow, MLFlow
🟢Уровень дохода не указан | 3–6 лет
⚙️ Что такое Feature Scaling в ML и зачем он нужен?
Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.
Некоторые алгоритмы (например, k-NN
, SVM
, градиентный спуск) чувствительны к разнице в диапазонах данных
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[1, 100], [2, 300], [3, 500]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.
🔎 Подборка вакансий для джунов
Junior Data Engineer
🟢Python, C#, SQL, Spark, Kafka, Airflow, DeltaLake, Kubernetes
🟢до 200 000 ₽ | 1–3 года
Data Analyst (Junior) | Аналитик Данных (Младший)
🟢Python, SQL, Power BI, Grafana, PostgreSQL, ClickHouse, Docker
🟢Уровень дохода не указан | 1–3 года
Data инженер DWH Junior (Hadoop)
🟢Hadoop, Hive, Spark, SQL, Java, Airflow, Git, Jira, Confluence
🟢Уровень дохода не указан | 1–3 года
👩💻 Поиск самого часто встречающегося элемента в списке
Напишите функцию, которая принимает список и возвращает элемент, который встречается чаще всего. Если таких элементов несколько, вернуть любой из них.
Пример:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result)
# Ожидаемый результат: 3 (или 1, если в списке оба встречаются одинаково часто)
from collections import CounterЧитать полностью…
def most_frequent(lst):
count = Counter(lst)
return max(count, key=count.get)
# Пример использования:
numbers = [1, 3, 2, 3, 4, 1, 3, 2, 1]
result = most_frequent(numbers)
print(result) # Ожидаемый результат: 3
🔥 Самые интересные статьи за последние дни:
• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT
• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей
• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели
• Возможности LLM и RAG на примере реализации бота для поддержки клиентов
• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей
🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста
Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.
Читать...
🔎 Подборка зарубежных вакансий
Data Scientist рекомендательные системы (full time office)
🟢Python, pandas, sklearn, scipy, matplotlib, catboost, SQL, Git, Docker
🟢Уровень дохода не указан | 3–6 лет
Senior Data Scientist (Recommender Systems)
🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX
🟢от 5 000 до 6 500 € | 3–6 лет
Data Scientist (Кипр)
🟢Python, SQL, pandas, numpy, seaborn, ML, Big Data, Deep Learning
🟢от 4 000 € | 1–3 года
📝 Подборка вакансий для лидов
Data Architect•
Apache Hadoop, Apache Airflow, Greenplum, Apache NiFi, DWH, Apache Spark•
Уровень дохода не указан | Без опыта
Team Lead Data Platform•
Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka•
Уровень дохода не указан | Без опыта
Data Science Tech Lead/Product owner•
Python, SQL, Hadoop, Spark, Airflow•
Уровень дохода не указан | Без опыта
⚙️ Что такое data leakage в машинном обучении и почему это опасно?
Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных.
➡️ Пример:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# Пример: диагностические данные пациента
df = pd.DataFrame({
'age': [25, 40, 60, 35],
'blood_pressure': [120, 130, 150, 110],
'has_disease': [0, 1, 1, 0],
'diagnosis_code': [0, 1, 1, 0] # случайно совпадает с целевой переменной
})
X = df.drop('has_disease', axis=1)
y = df['has_disease']
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))
🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakageЧитать полностью…
⚡️ Python теперь в Telegram!
Ребята сделали крутейший канал, где на простых картинках и понятном языке обучают Python, делятся полезными фишками и инструментами
Подписывайтесь: @PythonPortal
📈 Подборка статей для вашей карьеры
• Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений
• Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю
• Все, пора увольняться: что я поняла после работы в токсичных командах
• Базовое программирование, или Почему джуны не могут пройти к нам собеседование
• Я стал аналитиком, потому что не смог быть программистом
Учите машины учиться? Тогда вам на IML
🗓️16–17 мая
📍 Питер + онлайн
IML — конференция для всех, кто использует ML в проектах. Здесь собираются ML-инженеры, дата-сайентисты, исследователи, аналитики и разработчики.
В этот раз вас ждет двухдневный технологический хардкор об NLP, RecSys, MLOps и Computer Vision. С докладами выступят спикеры из Яндекса, Positive Technologies, Т-Банка, Точки и других известных компаний.
А вот что с билетами:
→ Дают скидку 15% на билет для частных лиц по промокоду DEVSP
;
→ Есть билет для студентов и преподавателей вузов — в два раза дешевле персонального;
→ Можно попросить руководство приобрести корпоративный билет.
Бонус: в соседних залах пройдет Python-конференция PiterPy. Участники IML смогут послушать доклады PiterPy бесплатно.
За подробностями и билетами