Telegram-канал devsp - Data Science | Machinelearning [ru]: Unsorted - каталог телеграмм

devsp | Unsorted

Subscribe to a channel

Telegram-канал devsp - Data Science | Machinelearning [ru]

17987

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

29 May 2025 16:07

⚙️ Что такое Feature Scaling в ML и зачем он нужен?

Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.

Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных

➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими..

🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

29 May 2025 09:07

🤖📈 Папка Экспертов: ИИ, ИТ и Маркетинг

/channel/addlist/f_e6mA-BQio3YmJi

Ключевые инсайты, свежие новости и экспертные комментарии этой недели

Что внутри подборки:

✅ Актуальные тренды в мире ИИ и ИТ: от новых технологий до внедрения в бизнес
✅ Изменения в алгоритмах и платформах: Google, Meta, Яндекс, Telegram, SEO, таргетинг
✅ Разбор свежих кейсов: как используют ИИ в маркетинге и автоматизации
✅ Практические советы по интеграции AI-инструментов в маркетинговые процессы
✅ Наша экспертная аналитика: что эти новости значат для бизнеса и как адаптироваться

/channel/addlist/f_e6mA-BQio3YmJi

Почему это важно:
Технологии развиваются стремительно — то, что работало вчера, сегодня устаревает.
Мы отбираем действительно важное, чтобы вы не тратили время на фильтрацию потока информации, а получали только то, что помогает масштабировать бизнес и находить новые точки роста.

Для кого:
• Для предпринимателей, которые ищут новые возможности для развития
• Для маркетологов, которые хотят быть на шаг впереди рынка
• Для ИТ-специалистов, которые внедряют AI-решения в бизнес

📩 Подписывайтесь, чтобы быть в курсе ключевых изменений в ИИ, ИТ и маркетинге.

/channel/addlist/f_e6mA-BQio3YmJi

Читать полностью…

Data Science | Machinelearning [ru]

28 May 2025 16:07

👩‍💻 Предсказание уникальности пользователя

У вас есть список действий пользователей на платформе. Каждое действие представлено словарём с полями "user_id", "action", и "timestamp". Нужно реализовать функцию, которая определит, является ли пользователь "уникальным".

Уникальный пользователь — это тот, кто:

• совершал более 3 действий,
• все действия происходили в разные дни,
• не совершал одинаковые действия дважды.

Верните список user_id, соответствующих этому критерию.

Решение задачи🔽

from collections import defaultdict
from datetime import datetime

def find_unique_users(logs):
activity = defaultdict(lambda: {"actions": set(), "days": set(), "count": 0})

for log in logs:
user = log["user_id"]
action = log["action"]
date = datetime.fromisoformat(log["timestamp"]).date()

activity[user]["actions"].add(action)
activity[user]["days"].add(date)
activity[user]["count"] += 1

result = []
for user, data in activity.items():
if (
data["count"] > 3 and
len(data["days"]) == data["count"] and
len(data["actions"]) == data["count"]
):
result.append(user)

return result

# Пример использования
logs = [
{"user_id": 1, "action": "login", "timestamp": "2023-05-01T10:00:00"},
{"user_id": 1, "action": "view", "timestamp": "2023-05-02T11:00:00"},
{"user_id": 1, "action": "click", "timestamp": "2023-05-03T12:00:00"},
{"user_id": 1, "action": "logout", "timestamp": "2023-05-04T13:00:00"},

{"user_id": 2, "action": "login", "timestamp": "2023-05-01T10:00:00"},
{"user_id": 2, "action": "login", "timestamp": "2023-05-01T11:00:00"},
{"user_id": 2, "action": "click", "timestamp": "2023-05-01T12:00:00"},
]

print(find_unique_users(logs)) # Ожидаемый результат: [1]

Читать полностью…

Data Science | Machinelearning [ru]

27 May 2025 20:07

⚙️ Как все рынки мира оказались уязвимы конкуренции с любым умным айтишником

История о том, как в текущем моменте истории, по сути любой разработчик может в одиночку задизраптить любой вертикальный рынок и даже отрасль.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

27 May 2025 16:07

🧠 Что делает train_test_split в ML и зачем он нужен

Функция train_test_split() из библиотеки sklearn разбивает данные на обучающую и тестовую выборки.

Это важно, чтобы проверить, как хорошо модель работает на невидимых данных.

➡️ Пример:

from sklearn.model_selection import train_test_split

X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

print("Обучение:", X_train)
print("Тест:", X_test)

🗣️ Почему важно:

• Модель не должна учиться на тех же данных, на которых её оценивают

• test_size указывает, какой процент данных пойдёт на тест

• random_state нужен для воспроизводимости

Это один из самых базовых, но обязательных шагов в любом ML-проекте

🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

26 May 2025 20:07

⚙️ Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее

RDS — это про то, как машинке выбрать лучший вариант уведомления или карточки, чтобы ты вернулся. Объясняем, как он усиливает ML-модели и растит вовлечённость пользователей.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

26 May 2025 16:07

👩‍💻 Разделите данные на группы с помощью алгоритма K-Means

Создайте модель, которая группирует точки по признакам без использования меток.
Это задача кластеризации, где мы не обучаемся на готовых ответах, а ищем структуру в данных.

Алгоритм K-Means автоматически делит данные на 3 группы на основе близости точек.
Это полезно в задачах сегментации клиентов, поиска паттернов в данных, рекомендаций и др.

Решение задачи🔽

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# Генерация данных: 300 точек, 3 центра
X, _ = make_blobs(n_samples=300, centers=3, random_state=42)

# Модель кластеризации
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Визуализация
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1],
s=200, c='red', marker='X', label='Центры кластеров')
plt.legend()
plt.show()

Читать полностью…

Data Science | Machinelearning [ru]

26 May 2025 11:07

Яндекс поднял максимальное вознаграждение в bug bounty до 3 млн рублей.

За что? За критические уязвимости типа RCE и VM escape в Почте, Яндекс ID и Yandex Cloud.

Плюс выросли выплаты за SQL-инъекции. Это хорошая возможность для этичных хакеров проверить себя, ведь речь идет о сервисах Яндекса, которым доверяют чувствительную информацию миллионы пользователей. Так компания хочет обеспечить всестороннюю оценку безопасности своих систем.

Ну а для тех, кому этого недостаточно, в программе багбаунти Яндекса недавно появилось отдельное направление по нейросетям — там можно получить за уязвимость до 1 миллиона рублей.

Читать полностью…

Data Science | Machinelearning [ru]

25 May 2025 16:07

👩‍💻 Обучите модель для классификации текста с помощью Naive Bayes

Создайте простую модель машинного обучения, которая определяет, является ли текст позитивным или негативным. Используем sklearn и алгоритм Naive Bayes

Решение задачи🔽

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Обучающие данные
texts = ["Это отличный фильм", "Ужасный опыт", "Мне понравилось", "Очень скучно", "Прекрасная история"]
labels = ['positive', 'negative', 'positive', 'negative', 'positive']

# Модель
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(texts, labels)

# Прогноз
print(model.predict(["Фильм был ужасен"])) # ['negative']
print(model.predict(["Обожаю это кино"])) # ['positive']

Читать полностью…

Data Science | Machinelearning [ru]

24 May 2025 20:07

👩‍💻 Задачка по Python

Создайте Python-скрипт, который читает большой CSV-файл построчно, фильтрует строки по заданному критерию и подсчитывает агрегированные данные на основе указанного столбца. Скрипт должен эффективно обрабатывать файл, используя потоковое чтение (без загрузки файла целиком в память) и выводить итоговую статистику в консоль.

➡️ Пример:

• python process_data.py data.csv age 30 — фильтрует строки, где значение в столбце age больше 30, и подсчитывает общее количество таких записей и среднее значение в другом числовом столбце, например, salary.

Решение задачи ⬇️

import csv
import sys

def process_large_csv(file_path, filter_column, threshold, aggregate_column):
count = 0
total_sum = 0.0

with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.DictReader(file)

for row in reader:
# Преобразование значений для фильтрации и агрегации
try:
filter_value = float(row[filter_column])
aggregate_value = float(row[aggregate_column])
except ValueError:
continue # Пропускаем строки с некорректными данными

# Фильтрация строк по заданному условию
if filter_value > threshold:
count += 1
total_sum += aggregate_value

# Вывод итоговой статистики
if count > 0:
average = total_sum / count
print(f"Обработано записей: {count}")
print(f"Среднее значение {aggregate_column} для записей, где {filter_column} > {threshold}: {average:.2f}")
else:
print("Записи, соответствующие условиям фильтрации, не найдены.")

if __name__ == "__main__":
if len(sys.argv) < 5:
print("Использование: python process_data.py <file_path> <filter_column> <threshold> <aggregate_column>")
sys.exit(1)

file_path = sys.argv[1]
filter_column = sys.argv[2]
threshold = float(sys.argv[3])
aggregate_column = sys.argv[4]

process_large_csv(file_path, filter_column, threshold, aggregate_column)

Читать полностью…

Data Science | Machinelearning [ru]

24 May 2025 12:07

👀 Stack Overflow умирает? Как ИИ вытесняет живые сообщества разработчиков

Разбираемся, почему Stack Overflow теряет аудиторию: виноваты ли ИИ, UX или жадность? Плюс — что делает администрация и что ждёт разработчиков в пост-SO эпоху.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

23 May 2025 16:07

⚙️ Что такое токенизация в машинном обучении?

Токенизация — это процесс разбиения текста на отдельные части: слова, подслова или символы.
Часто используется на этапе предобработки текста для NLP-моделей.

Каждый токен — это минимальная смысловая единица, которую модель будет анализировать.

➡️ Пример:

from sklearn.feature_extraction.text import CountVectorizer

texts = ["Я люблю машинное обучение", "Обучение — это интересно"]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

# Вывод:
['интересно' 'люблю' 'машинное' 'обучение' 'это' 'я']
[[0 1 1 1 0 1]
 [1 0 0 1 1 0]]

🗣️ Токенизация превращает текст в числовую матрицу, понятную модели.
Это первый шаг в обработке текста перед обучением моделей на естественном языке.

🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

23 May 2025 09:07

Не имей 100 ₽, а имей 150 000 ₽ за рекомендацию друга, который прошел испыталку в Ozon Tech

Знаете senior+ DS/ML-инженера? Ozon Tech готов щедро отблагодарить, если по вашей рекомендации его возьмут на работу.

Чтобы получить вознаграждение, нужно пройти всего три простых шага:

1. Вы рекомендуете знакомого (если сами в Ozon не работаете).

2. Его берут на работу, и он успешно проходит испытательный срок.

3. Вы получаете бонус — 150 тысяч рублей.

Можно рекомендовать сколько угодно друзей — главное, чтобы они подходили под требования. Даже если вы рекрутер — тоже можете участвовать. Только нельзя рекомендовать самого себя (но можно попросить друга вас порекомендовать 😏).

Подробнее о вакансиях и условиях: https://s.ozon.ru/rjFCjAP

Читать полностью…

Data Science | Machinelearning [ru]

22 May 2025 16:07

🔎 Подборка вакансий для сеньоров

Data Engineer (Middle+/Senior)
🟢 AWS (S3, Glue, Athena, Redshift), Python, SQL, Data Lake, ETL, ClickHouse, Apache Spark, Kafka, Airflow
🟢 От 250 000 ₽ | 3–6 лет | Удалёнка / Гибрид

Senior Data Scientist LLM
🟢 Python, LLM, Transformers, RAG, NLP, SQL, MLOps, Vector DBs (pgvector, Milvus, Qdrant)
🟢 $3 500–4 000 | 6+ лет | Удалёнка

Senior Data Engineer
🟢 Python (OOP), SQL (оптимизация), FastAPI, DBT, GCP (BigQuery), Microservices, CI/CD
🟢 $4 000–6 000 | 6+ лет | Удалёнка

Читать полностью…

Data Science | Machinelearning [ru]

21 May 2025 20:07

⚙️ Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

29 May 2025 12:07

🤔 На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям

START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены..

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

28 May 2025 20:07

🖥 Играемся с RTX 5090 (GB202) для инференса

Автор тестирует RTX 5090 в хостинге, сравнивает с 3090 и A100, гоняет gpu-burn и инференс-сетку, проверяя, есть ли прирост для ML-задач. Без фанатизма, но с графиком.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

28 May 2025 12:07

🗣 Синтез речи 2025: топ-4 бесплатных нейросетей для озвучки текста

Сравниваем 4 синтеза речи: интонации, паузы, эмоции. Кто из них справится с «Хоббитом» и сможет звучать как рассказчик, а не как робот? Проверим голосом, а не графиком.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

27 May 2025 17:08

Где взять ресурсы для обучения ML-моделей и анализа больших данных?

Все эти сложные задачи можно решить на серверах с GPU от Selectel — на покупку оборудования тратиться не придется, а все ресурсы GPU только ваши.

Преимущества аренды сервера с GPU в Selectel: https://slc.tl/46jmk

☑️Оптимальный сервер под ваши задачи. Выбирайте из десятка готовых конфигураций или соберите собственную с нужной видеокартой под ваши запросы и бюджет;
☑️Более 20 моделей видеокарт в наличии: от базовой GTX 1080 до профессиональных H100 и А100;
☑️Безопасность хранения и обработки данных. Серверы соответствуют 152-ФЗ и «из коробки» имеют бесплатную защиту от DDoS-атак.

Арендуйте серверы с GPU за пару минут: https://slc.tl/46jmk

Реклама. АО «Селектел», ИНН 7810962785, ERID: 2Vtzqwia3qo

Читать полностью…

Data Science | Machinelearning [ru]

27 May 2025 12:07

⚙️ Где ИИ врёт и как с этим жить — мой гайд после фейлов

Автор копает, почему ИИ фантазирует, как это мешает в работе и чем тут помогут промпты. В финале — гайд, как писать запросы без сюрпризов.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

26 May 2025 17:07

Есть два типа обучения Data Science.
1️⃣ Смотреть лекции и повторять за ментором.
2️⃣ Сразу брать реальные задачи и учиться на практике.

Если вам ближе второй тип, симулятор Data Science от karpovꓸcourses — для вас. Этот курс для тех, кто не ищет легких путей, и знает: на одной теории мидлом не стать.

Вас ждет интенсивное погружение в аналитику с первых дней.
🔹 Решите 80+ бизнес-задач — от простых и быстрых до заданий со звездочкой.
🔹 Поработаете над кейсами из разных сфер: Retail, E-commerce, FinTech, FoodTech, EdTech.
🔹 Создадите проект для портфолио под руководством опытным аналитиков.
🔹 Прокачаете самые нужные навыки и работу с инструментами: Python, SQL, ClickHouse, FastAPI, MLFlow, DVC, Spark, LLM, рекомендательные системы, прогнозирование, метрики, A/B-тесты.

С 12 по 31 мая записываться на обучение еще выгоднее. Если купите доступ на 6 месяцев, получите 7-ой — в подарок. А если на 9 месяцев — два в подарок.

Пора решать задачи, а не смотреть, как это делают другие.
Записаться на курс

Реклама. ООО «Карпов Курсы», ИНН: 7811764627, erid: 2VtzqufjPUg

Читать полностью…

Data Science | Machinelearning [ru]

26 May 2025 12:07

⚙️ Как обойти детекторы текста, сгенерированного ИИ

Автор исследует, почему нейросети пока плохо отличают ИИ-тексты от человеческих, и делится, что реально работает (или не очень), если вы вдруг решите их «перехитрить».

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

25 May 2025 20:07

🔥 Самые интересные статьи за последние дни:

• Построение базы знаний компании и поиска документов на LLM и RAG

• Что побуждает LLM врать и как этого избежать в своих продуктах

• Ломаем капчу 4Chan

• На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

• Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

Читать полностью…

Data Science | Machinelearning [ru]

25 May 2025 12:07

⚙️ Код, железо, стратегия: в чем секрет победителей ML-соревнований?

Разбор отчёта о соревнованиях по ML за 2024 год: кто победил, как и почему. Без мотивационных цитат — только конкретные приёмы, модели и стратегии, которые реально приносят $22 млн.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

24 May 2025 16:07

⚡️ Делай «кодовые разминки» перед тяжёлыми задачами

Сложная задача сразу после кофе? Мозг ещё не включился — и ты уже залип.

👉 Совет: начни день с 15 минут лёгкой задачи: мелкий фикс, улучшение логов, небольшой рефакторинг. Это разгоняет мысль, помогает включиться в поток и потом перейти к тяжёлому коду с полной скоростью.

Читать полностью…

Data Science | Machinelearning [ru]

23 May 2025 20:07

⚙️ Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025

В этом выпуске: Codex от OpenAI, GPT‑4.1, токсичный Grok, генератор от Tencent и агент DeepMind, который сам изобретает алгоритмы. ИИ неделя на максималках.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

23 May 2025 12:07

⚙️ Что у меня за распределение

Василий из Т-Банка объясняет, почему классические критерии согласия не всегда подходят для симуляции колл-центра. Покажет подводные камни и как не влететь в ловушку распределений.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

22 May 2025 20:07

📈 Подборка статей для вашей карьеры

• Мои Red-Flags при устройстве в IT-компании: Как не стать гребцом. Часть 2

• Как строить карьеру в корпорации

• История: работа в чешском Red Hat

• Циничные заметки о карьере в IT от «гейткипера»

• Моя петиция EB-1A на грин-карту талантов, одобренная с первой попытки

Читать полностью…

Data Science | Machinelearning [ru]

22 May 2025 12:07

⚙️ Машинное обучение в Apache Spark с помощью MLlib

Показываем, как применить MLlib из Apache Spark в своих проектах, и делимся советами, чтобы не сжечь кластеры раньше времени. Всё просто, даже если вы не Data Jedi.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

21 May 2025 16:07

👩‍💻 Оценка точности модели классификации (Accuracy Score)

Напишите функцию, которая вычисляет accuracy score — долю правильных предсказаний модели классификации. Это базовая метрика, часто используемая для оценки качества модели.

Функция работает следующим образом:

• Сравнивает каждую пару истинного (y_true) и предсказанного (y_pred) значения.

• Считает количество совпадений.

• Делит число правильных предсказаний на общее количество примеров

Решение задачи🔽

def accuracy_score(y_true, y_pred):
correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
return correct / len(y_true)

# Примеры использования
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 0, 1, 0, 1]

print(accuracy_score(y_true, y_pred))
# Ожидаемый результат: 0.8

Читать полностью…

Subscribe to a channel