Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
⚙️ Выжимаем максимум из ChatGPT-5
Разбираем, как устроен запуск GPT-5, какие лимиты и настройки ввела OpenAI, и на что обратить внимание подписчикам ChatGPT Plus, чтобы выбрать оптимальную модель и избежать проблем
Читать...
Меньше месяца до окончания приема заявок в магистратуру ЦУ с грантом до 75% на все время обучения!
Если хочешь двигаться в новую роль, но не хватает уверенности и структуры — начни обучение на одном из четырех ИТ-направлений магистратуры ЦУ.
Ты сможешь прокачаться:
— в продуктовой аналитике;
— машинном обучении;
— продуктовом менеджменте;
— backend-разработке.
Партнеры университета — ведущие компании на рынке РФ: ВТБ, Сбер, Т-Банк, Яндекс, Avito, Ozon, Х5 Tech и другие. 62% магистрантов ЦУ находят новую работу с ростом зарплаты в 1,6 раза уже на первом курсе, а средняя зарплата достигает 195 000 ₽.
Обучение можно совмещать с работой, так как занятия проводятся по вечерам и выходным.
Успей подать заявку до 24 августа: ссылка
🤡 Endless Fun Machine: бесконечный генератор смешных картинок
Расскажу про проект Endless Fun Machine: как я собрал генератор, где ИИ сам придумывает шутки и рисует их в мемы. И заодно покажу, как это можно адаптировать для синтетических данных
Читать...
⚙️ Gartner's AI Tech Sandwich: Едим ИИ-бутерброд правильно
Рассказываю, как ИИ перестал быть модной фишкой и стал бизнес-необходимостью. Плюс — что за AI Technology Sandwich придумали в Gartner и зачем им слоёная метафора.
Читать...
👩💻 Поиск коррелирующих признаков
Вам дана матрица признаков (таблица) в виде списка списков. Каждый вложенный список — это объект, каждый столбец — признак.
Нужно реализовать функцию highly_correlated_features(data, threshold)
, которая вернёт список пар индексов признаков, корреляция между которыми по модулю превышает указанный threshold
(от 0 до 1, не включительно).
Использовать можно только корреляцию Пирсона. Повторы пар и зеркальные дубли учитывать не нужно ((1, 2)
и (2, 1)
— одно и то же).
Цель:
Выявить признаки, которые слишком сильно "повторяют" друг друга и могут вызвать мультиколлинеарность в моделях.
import numpy as npЧитать полностью…
from itertools import combinations
def pearson_corr(x, y):
x = np.array(x)
y = np.array(y)
return np.corrcoef(x, y)[0, 1]
def highly_correlated_features(data, threshold=0.9):
arr = np.array(data)
n_features = arr.shape[1]
result = []
for i, j in combinations(range(n_features), 2):
corr = pearson_corr(arr[:, i], arr[:, j])
if abs(corr) > threshold:
result.append((i, j))
return result
# Пример использования
X = [
[1, 2, 10],
[2, 4, 20],
[3, 6, 30],
[4, 8, 40],
[5, 10, 50]
]
print(highly_correlated_features(X, threshold=0.95))
# Ожидаемый результат: [(0, 1), (0, 2), (1, 2)]
⚙️ Великая иллюзия Copilot
Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл.
Читать...
➡️ Что забирает до 90% времени на созвонах и как перестать проводить их впустую
Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно.
Читать...
⚙️ Отлаживай систему целиком, а не по кускам
Баг может прятаться не в отдельной функции, а в том, как модули взаимодействуют между собой.
👉 Совет: проверяй сценарии целиком — от входных данных до финального результата. Иногда проблема не в коде, а в том, как части системы «разговаривают» между собой.
🗺 Решение задачи коммивояжера (TSP) в реальных приложениях
Покажу, как задача коммивояжёра перекочевала из учебников в жизнь курьеров, таксистов и логистов, и какие алгоритмы реально помогают пройти маршрут быстро и без лишних кругов.
Читать...
❌ Защитим вдов и сирот от хищных ИИ-стартаперов
Расскажу про свою AI-задачку по SystemVerilog для EDA, на которой одни тулы падают, а другие халтурят. Это способ фильтровать стартаперов-болтунов и экономить деньги VC, а значит — и пенсионеров.
Читать...
🔝 Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам
Покажу, как мы в Яндекс Погоде боремся с самой ускользающей частью прогноза — осадками. Расскажу, почему всё сложно, как меняем модели и почему теперь гроза не застанет врасплох.
Читать...
🔝 Топ-5 бесплатных AI-сервисов для генерации 3D-моделей
Я протестил 5 AI-сервисов для генерации 3D-моделей — без навыков и софта. Закинул туда героев детства и теперь знаю: быть 3D-дизайнером — не боль, а фан. Модели вышли… ну, сами увидите.
Читать...
👩💻 Задачка по Python
Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.
➡️ Пример:
python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35
import pandas as pdЧитать полностью…
import sys
if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)
input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]
try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")
🧱 MCP — новый кирпичик в фундаменте AI-разработки
Расскажу, как MCP меняет работу IDE: LLM напрямую ходят в базы и сервисы, без костылей и отдельных тулов. Немного истории, сравнение с LSP и разбор, зачем это нужно девелоперам.
Читать...
👀 Отечественные Open Source-инструменты для ИИ-разработки
Покажу, как Open Source меняет ИИ: от библиотек и моделей до датасетов. Разберём, как открытый код помогает строить, обучать и тестировать системы без барьеров и закрытых лицензий.
Читать...
Облачный сервер в аренду в России и Турции.
Отказоустойчивый виртуальный облачный сервер / дата центр IaaS на базе виртуализаций VMWARE, РУСТЭК по модели подписки. Аналог Elastic Cloud EC2.
- Доступность сервиса — от 99,982% SLA
- Дата центры Tier III в России (Москва, Новосибирск) и Турции
- Резервное копирование на удаленную площадку (ок. 10 км)
- Размещение персональных данных и ГИС по ФЗ-152
- Лицензированные решения Microsoft
- Почасовой биллинг и постоплата
- Оплата в рублях, турецких лирах, Euro
- 30 дней бесплатное тестирование для юр. лиц
Подключите услугу сегодня со скидкой 50% на инфраструктуру.
Подать заявку
#реклама 16+
cloud4y.ru
О рекламодателе
⚙️ Что такое data leakage в машинном обучении и почему это опасно?
Data leakage (утечка данных) — это ситуация, когда модель случайно получает информацию о будущем (о целевой переменной), которая недоступна на момент предсказания. Это приводит к переоценке качества модели во время обучения и к плохой работе на реальных данных.
➡️ Пример:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# Пример: диагностические данные пациента
df = pd.DataFrame({
'age': [25, 40, 60, 35],
'blood_pressure': [120, 130, 150, 110],
'has_disease': [0, 1, 1, 0],
'diagnosis_code': [0, 1, 1, 0] # случайно совпадает с целевой переменной
})
X = df.drop('has_disease', axis=1)
y = df['has_disease']
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
model = LogisticRegression()
model.fit(X_train, y_train)
print("Train accuracy:", model.score(X_train, y_train))
🗣️ В этом примере diagnosis_code напрямую связан с целевой переменной has_disease. Модель «угадывает» ответы на тренировке, но это не работает в реальности. Такое скрытое совпадение — типичный пример data leakageЧитать полностью…
Надежная облачная платформа для вашего бизнеса
Дата-центры Tier III обеспечивают 99,98% аптайма, стабильную работу и защиту от сбоев, гарантируя бесперебойную доступность вашего проекта. Бесплатное резервное копирование защищает ваши данные, а техническая поддержка 24/7 всегда готова помочь. Размещайте сервер в удобной локации (Россия, Казахстан или Европа) и подключайте его всего в несколько кликов.
Узнать больше
#реклама 16+
beget.com
О рекламодателе
E-CODE'25 — IT-событие для опытных инженеров
Ozon Tech собирает экспертное комьюнити на главную конференцию осени. Два дня докладов, лекции от учёных, нетворк в формате 1х1 и неформальное общение. И, конечно, вечеринки. В лайнапе НТР, Нейромонах Феофан, ILWT и Заточка.
Звучит, как лучший 256 день года. И это так и есть.
📅 13–14 сентября
🏠 Москва Loft Hall + онлайн
💻 Регистрация обязательна.
Успейте забронировать место — они уже заканчиваются.
Зарегистрироваться
#реклама 16+
ecode.ozon.tech
О рекламодателе
⚙️ Нейросети без градиентов: спектральное моделирование и построение решений
Пробую собрать нейросеть без backpropagation — только спектр, только хардкор. Показываю на XOR и друзьях, как активации влияют на частоты и как строить модели в лоб. Будет странно, но интересно.
Читать...
👩💻 Вычисление “стабильных” признаков
Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак.
Ваша задача — определить, какие признаки можно считать стабильными.
Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.
find_stable_features(matrix, threshold)
, которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию.import numpy as npЧитать полностью…
def find_stable_features(matrix, threshold=0.1):
data = np.array(matrix)
stds = np.std(data, axis=0)
stable_indices = [i for i, std in enumerate(stds) if std < threshold]
return stable_indices
# Пример входных данных
X = [
[1.0, 0.5, 3.2],
[1.0, 0.49, 3.1],
[1.0, 0.52, 3.0],
[1.0, 0.5, 3.3],
]
print(find_stable_features(X, threshold=0.05))
# Ожидаемый результат: [0, 1]
❓ Как работает кросс-валидация в ML?
Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.
➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()
scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.
➡️ Объяснимый ИИ в ML и DL
Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии.
Читать...
⚙️ Что такое Feature Scaling в ML и зачем он нужен?
Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.
Некоторые алгоритмы (например, k-NN
, SVM
, градиентный спуск) чувствительны к разнице в диапазонах данных
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[1, 100], [2, 300], [3, 500]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.
🧠 Компании уходят от пилотов к продуктиву
В беседе Роман Стятюгин пояснил: VK Predict — это команда более ста специалистов. Решения выпускают в двух форматах: модели по API и продукты с интерфейсом для бизнес-пользователей, включая дашборды, тепловые карты и чат-боты на LLM.
Среди сервисов: «Рейтинг» для прогнозирования признаков аудитории, «Телеком Радар», которым пользуются три из четырех крупнейших операторов, «ГеоКурсор» с гравитационными моделями, «Девелопер» для квартирографии, платформа Predict AutoML и AI Persona для персонализации коммуникаций.
Читать интервью
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
🔥 Самые интересные статьи за последние дни:
• Пишем Wake-on-LAN сервис на ESP8266 при помощи ChatGPT
• Необычные вкусы покупателей: что такое товарные пары и как их исследовать
• Сгенерированный ИИ код сделает вас плохим программистом
• Словари в Python: обзор и как пользоваться
• Поиск жулика: Как понять, что перед вами ChatGPT 4?
📉 RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты
В статье собираю торгового агента на Dueling Double DQN с приоритетным реплеем. Тестирую на Binance Futures с учётом комиссий и проскальзывания, чтобы PnL выглядел как в реальной торговле.
Читать...
🔍 Как трансформеры меняют область NLP и что стоит за LLM?
На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.
Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.
🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://vk.cc/cOihwd
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?
PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.
➡️ Пример:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
# Загрузка данных
data = load_iris()
X = data.data
# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print(X_pca[:5]) # Преобразованные данные
🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.