Telegram-канал devsp - Data Science | Machinelearning [ru]: Unsorted - каталог телеграмм

devsp | Unsorted

Subscribe to a channel

Telegram-канал devsp - Data Science | Machinelearning [ru]

17988

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

12 August 2025 20:07

⚙️ Выжимаем максимум из ChatGPT-5

Разбираем, как устроен запуск GPT-5, какие лимиты и настройки ввела OpenAI, и на что обратить внимание подписчикам ChatGPT Plus, чтобы выбрать оптимальную модель и избежать проблем

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

12 August 2025 17:07

Меньше месяца до окончания приема заявок в магистратуру ЦУ с грантом до 75% на все время обучения!

Если хочешь двигаться в новую роль, но не хватает уверенности и структуры — начни обучение на одном из четырех ИТ-направлений магистратуры ЦУ.

Ты сможешь прокачаться:
— в продуктовой аналитике;
— машинном обучении;
— продуктовом менеджменте;
— backend-разработке.

Партнеры университета — ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе, а средняя зарплата достигает 195 000 ₽.

Обучение можно совмещать с работой, так как занятия проводятся по вечерам и выходным.

Успей подать заявку до 24 августа: ссылка

Читать полностью…

Data Science | Machinelearning [ru]

12 August 2025 12:07

🤡 Endless Fun Machine: бесконечный генератор смешных картинок

Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

11 August 2025 20:08

⚙️ Gartner's AI Tech Sandwich: Едим ИИ-бутерброд правильно

Рассказываю, как ИИ перестал быть модной фишкой и стал бизнес-необходимостью. Плюс — что за AI Technology Sandwich придумали в Gartner и зачем им слоёная метафора.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

11 August 2025 16:07

👩‍💻 Поиск коррелирующих признаков

Вам дана матрица признаков (таблица) в виде списка списков. Каждый вложенный список — это объект, каждый столбец — признак.

Нужно реализовать функцию highly_correlated_features(data, threshold), которая вернёт список пар индексов признаков, корреляция между которыми по модулю превышает указанный threshold (от 0 до 1, не включительно).

Использовать можно только корреляцию Пирсона. Повторы пар и зеркальные дубли учитывать не нужно ((1, 2) и (2, 1) — одно и то же).

Цель:

Выявить признаки, которые слишком сильно "повторяют" друг друга и могут вызвать мультиколлинеарность в моделях.

Решение задачи🔽

import numpy as np
from itertools import combinations

def pearson_corr(x, y):
x = np.array(x)
y = np.array(y)
return np.corrcoef(x, y)[0, 1]

def highly_correlated_features(data, threshold=0.9):
arr = np.array(data)
n_features = arr.shape[1]
result = []

for i, j in combinations(range(n_features), 2):
corr = pearson_corr(arr[:, i], arr[:, j])
if abs(corr) > threshold:
result.append((i, j))

return result

# Пример использования
X = [
[1, 2, 10],
[2, 4, 20],
[3, 6, 30],
[4, 8, 40],
[5, 10, 50]
]

print(highly_correlated_features(X, threshold=0.95))
# Ожидаемый результат: [(0, 1), (0, 2), (1, 2)]

Читать полностью…

Data Science | Machinelearning [ru]

10 August 2025 20:07

⚙️ Великая иллюзия Copilot

Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

10 August 2025 12:07

➡️ Что забирает до 90% времени на созвонах и как перестать проводить их впустую

Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

09 August 2025 16:07

⚙️ Отлаживай систему целиком, а не по кускам

Баг может прятаться не в отдельной функции, а в том, как модули взаимодействуют между собой.

👉 Совет: проверяй сценарии целиком — от входных данных до финального результата. Иногда проблема не в коде, а в том, как части системы «разговаривают» между собой.

Читать полностью…

Data Science | Machinelearning [ru]

08 August 2025 20:07

🗺 Решение задачи коммивояжера (TSP) в реальных приложениях

Покажу, как задача коммивояжёра перекочевала из учебников в жизнь курьеров, таксистов и логистов, и какие алгоритмы реально помогают пройти маршрут быстро и без лишних кругов.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

08 August 2025 12:07

❌ Защитим вдов и сирот от хищных ИИ-стартаперов

Расскажу про свою AI-задачку по SystemVerilog для EDA, на которой одни тулы падают, а другие халтурят. Это способ фильтровать стартаперов-болтунов и экономить деньги VC, а значит — и пенсионеров.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

07 August 2025 20:07

🔝 Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам

Покажу, как мы в Яндекс Погоде боремся с самой ускользающей частью прогноза — осадками. Расскажу, почему всё сложно, как меняем модели и почему теперь гроза не застанет врасплох.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

07 August 2025 12:07

🔝 Топ-5 бесплатных AI-сервисов для генерации 3D-моделей

Я протестил 5 AI-сервисов для генерации 3D-моделей — без навыков и софта. Закинул туда героев детства и теперь знаю: быть 3D-дизайнером — не боль, а фан. Модели вышли… ну, сами увидите.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

06 August 2025 16:07

👩‍💻 Задачка по Python

Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.

➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd
import sys

if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)

input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]

try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")

Читать полностью…

Data Science | Machinelearning [ru]

05 August 2025 20:07

🧱 MCP — новый кирпичик в фундаменте AI-разработки

Расскажу, как MCP меняет работу IDE: LLM напрямую ходят в базы и сервисы, без костылей и отдельных тулов. Немного истории, сравнение с LSP и разбор, зачем это нужно девелоперам.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

05 August 2025 16:07

👀 Отечественные Open Source-инструменты для ИИ-разработки

Покажу, как Open Source меняет ИИ: от библиотек и моделей до датасетов. Разберём, как открытый код помогает строить, обучать и тестировать системы без барьеров и закрытых лицензий.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

12 August 2025 18:54

Облачный сервер в аренду в России и Турции.

Отказоустойчивый виртуальный облачный сервер / дата центр IaaS на базе виртуализаций VMWARE, РУСТЭК по модели подписки. Аналог Elastic Cloud EC2.

- Доступность сервиса — от 99,982% SLA
- Дата центры Tier III в России (Москва, Новосибирск) и Турции
- Резервное копирование на удаленную площадку (ок. 10 км)
- Размещение персональных данных и ГИС по ФЗ-152
- Лицензированные решения Microsoft
- Почасовой биллинг и постоплата
- Оплата в рублях, турецких лирах, Euro
- 30 дней бесплатное тестирование для юр. лиц

Подключите услугу сегодня со скидкой 50% на инфраструктуру.

Подать заявку

#реклама 16+
cloud4y.ru
О рекламодателе

Читать полностью…

Data Science | Machinelearning [ru]

12 August 2025 16:07

⚙️ Что такое data leakage в машинном обучении и почему это опасно?

Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных.

➡️ Пример:

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Пример: диагностические данные пациента
df = pd.DataFrame({
    'age': [25, 40, 60, 35],
    'blood_pressure': [120, 130, 150, 110],
    'has_disease': [0, 1, 1, 0],
    'diagnosis_code': [0, 1, 1, 0]  # случайно совпадает с целевой переменной
})

X = df.drop('has_disease', axis=1)
y = df['has_disease']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))

🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakage

Читать полностью…

Data Science | Machinelearning [ru]

12 August 2025 09:19

Надежная облачная платформа для вашего бизнеса

Дата-центры Tier III обеспечивают 99,98% аптайма, стабильную работу и защиту от сбоев, гарантируя бесперебойную доступность вашего проекта. Бесплатное резервное копирование защищает ваши данные, а техническая поддержка 24/7 всегда готова помочь. Размещайте сервер в удобной локации (Россия, Казахстан или Европа) и подключайте его всего в несколько кликов.

Узнать больше

#реклама 16+
beget.com
О рекламодателе

Читать полностью…

Data Science | Machinelearning [ru]

11 August 2025 17:32

E-CODE'25 — IT-событие для опытных инженеров

Ozon Tech собирает экспертное комьюнити на главную конференцию осени. Два дня докладов, лекции от учёных, нетворк в формате 1х1 и неформальное общение. И, конечно, вечеринки. В лайнапе НТР, Нейромонах Феофан, ILWT и Заточка.

Звучит, как лучший 256 день года. И это так и есть.
📅 13–14 сентября
🏠 Москва Loft Hall + онлайн
💻 Регистрация обязательна.

Успейте забронировать место — они уже заканчиваются.

Зарегистрироваться

#реклама 16+
ecode.ozon.tech
О рекламодателе

Читать полностью…

Data Science | Machinelearning [ru]

11 August 2025 12:07

⚙️ Нейросети без градиентов: спектральное моделирование и построение решений

Пробую собрать нейросеть без backpropagation — только спектр, только хардкор. Показываю на XOR и друзьях, как активации влияют на частоты и как строить модели в лоб. Будет странно, но интересно.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

10 August 2025 16:07

👩‍💻 Вычисление “стабильных” признаков

Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак.
Ваша задача — определить, какие признаки можно считать стабильными.

Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.

Реализуйте функцию find_stable_features(matrix, threshold), которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию.

Решение задачи🔽

import numpy as np

def find_stable_features(matrix, threshold=0.1):
data = np.array(matrix)
stds = np.std(data, axis=0)
stable_indices = [i for i, std in enumerate(stds) if std < threshold]
return stable_indices

# Пример входных данных
X = [
[1.0, 0.5, 3.2],
[1.0, 0.49, 3.1],
[1.0, 0.52, 3.0],
[1.0, 0.5, 3.3],
]

print(find_stable_features(X, threshold=0.05))
# Ожидаемый результат: [0, 1]

Читать полностью…

Data Science | Machinelearning [ru]

09 August 2025 20:07

❓ Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

09 August 2025 12:07

➡️ Объяснимый ИИ в ML и DL

Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

08 August 2025 16:07

⚙️ Что такое Feature Scaling в ML и зачем он нужен?

Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.

Некоторые алгоритмы (например, k-NN, SVM, градиентный спуск) чувствительны к разнице в диапазонах данных

➡️ Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[1, 100], [2, 300], [3, 500]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.

Без масштабирования одна "большая" переменная может полностью доминировать над другими..

🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

08 August 2025 09:07

🧠 Компании уходят от пилотов к продуктиву

В беседе Роман Стятюгин пояснил: VK Predict — это команда более ста специалистов. Решения выпускают в двух форматах: модели по API и продукты с интерфейсом для бизнес-пользователей, включая дашборды, тепловые карты и чат-боты на LLM.

Среди сервисов: «Рейтинг» для прогнозирования признаков аудитории, «Телеком Радар», которым пользуются три из четырех крупнейших операторов, «ГеоКурсор» с гравитационными моделями, «Девелопер» для квартирографии, платформа Predict AutoML и AI Persona для персонализации коммуникаций.

Читать интервью

Читать полностью…

Data Science | Machinelearning [ru]

07 August 2025 17:07

Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.

27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.

В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.

📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации

Читать полностью…

Data Science | Machinelearning [ru]

06 August 2025 20:07

🔥 Самые интересные статьи за последние дни:

• Пишем Wake-on-LAN сервис на ESP8266 при помощи ChatGPT

• Необычные вкусы покупателей: что такое товарные пары и как их исследовать

• Сгенерированный ИИ код сделает вас плохим программистом

• Словари в Python: обзор и как пользоваться

• Поиск жулика: Как понять, что перед вами ChatGPT 4?

Читать полностью…

Data Science | Machinelearning [ru]

06 August 2025 12:07

📉 RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты

В статье собираю торгового агента на Dueling Double DQN с приоритетным реплеем. Тестирую на Binance Futures с учётом комиссий и проскальзывания, чтобы PnL выглядел как в реальной торговле.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

05 August 2025 17:07

🔍 Как трансформеры меняют область NLP и что стоит за LLM?

На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.

Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.

🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://vk.cc/cOihwd

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Читать полностью…

Data Science | Machinelearning [ru]

05 August 2025 12:07

⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️ Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥 Подробнее тут

Читать полностью…

Subscribe to a channel