Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
⚙️ Великая иллюзия Copilot
Рассказываю, как Copilot в парном программировании может быть опаснее любой нейросети — баги, хаос, StackOverflow-копипасты и моя потерянная вера в здравый смысл.
Читать...
➡️ Что забирает до 90% времени на созвонах и как перестать проводить их впустую
Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно.
Читать...
⚙️ Отлаживай систему целиком, а не по кускам
Баг может прятаться не в отдельной функции, а в том, как модули взаимодействуют между собой.
👉 Совет: проверяй сценарии целиком — от входных данных до финального результата. Иногда проблема не в коде, а в том, как части системы «разговаривают» между собой.
🗺 Решение задачи коммивояжера (TSP) в реальных приложениях
Покажу, как задача коммивояжёра перекочевала из учебников в жизнь курьеров, таксистов и логистов, и какие алгоритмы реально помогают пройти маршрут быстро и без лишних кругов.
Читать...
❌ Защитим вдов и сирот от хищных ИИ-стартаперов
Расскажу про свою AI-задачку по SystemVerilog для EDA, на которой одни тулы падают, а другие халтурят. Это способ фильтровать стартаперов-болтунов и экономить деньги VC, а значит — и пенсионеров.
Читать...
🔝 Как мы учимся решать одну из самых сложных задач в метеорологии — прогнозирование количества осадков по часам
Покажу, как мы в Яндекс Погоде боремся с самой ускользающей частью прогноза — осадками. Расскажу, почему всё сложно, как меняем модели и почему теперь гроза не застанет врасплох.
Читать...
🔝 Топ-5 бесплатных AI-сервисов для генерации 3D-моделей
Я протестил 5 AI-сервисов для генерации 3D-моделей — без навыков и софта. Закинул туда героев детства и теперь знаю: быть 3D-дизайнером — не боль, а фан. Модели вышли… ну, сами увидите.
Читать...
👩💻 Задачка по Python
Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.
➡️ Пример:
python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35
import pandas as pdЧитать полностью…
import sys
if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)
input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]
try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")
🧱 MCP — новый кирпичик в фундаменте AI-разработки
Расскажу, как MCP меняет работу IDE: LLM напрямую ходят в базы и сервисы, без костылей и отдельных тулов. Немного истории, сравнение с LSP и разбор, зачем это нужно девелоперам.
Читать...
👀 Отечественные Open Source-инструменты для ИИ-разработки
Покажу, как Open Source меняет ИИ: от библиотек и моделей до датасетов. Разберём, как открытый код помогает строить, обучать и тестировать системы без барьеров и закрытых лицензий.
Читать...
🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году
Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
Читать...
👨💻Хранилища данных. Обзор технологий и подходов к проектированию
В этой статье будут рассмотрены основные подходы к проектированию архитектуры хранилищ данных (DWH), эволюция архитектур, взаимосвязь Data Lake, Data Factory, Data Lakehouse, Data Mesh c DWH, преимущества и недостатки подходов к моделированию данных.
Читать...
👩💻 Генератор случайных паролей с настройками
Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:•
Использовать ли цифры.•
Использовать ли буквы верхнего и/или нижнего регистра.•
Использовать ли специальные символы.
➡️ Пример:
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6
import randomЧитать полностью…
import string
def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")
# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"
if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")
# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))
# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)
➡️ Будущее LLM в XS, S, M и других размерах
В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.
Читать...
🤔 Будущее LLM: 7 прогнозов на 2025 год
Что нового ждёт языковые модели в 2025 году? Обсудим прогнозы: расширение возможностей ИИ, их внедрение в бизнес и жизнь. Узнайте, чего ожидать и почему Джарвис пока останется мечтой.
Читать...
👩💻 Вычисление “стабильных” признаков
Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак.
Ваша задача — определить, какие признаки можно считать стабильными.
Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.
find_stable_features(matrix, threshold)
, которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию.import numpy as npЧитать полностью…
def find_stable_features(matrix, threshold=0.1):
data = np.array(matrix)
stds = np.std(data, axis=0)
stable_indices = [i for i, std in enumerate(stds) if std < threshold]
return stable_indices
# Пример входных данных
X = [
[1.0, 0.5, 3.2],
[1.0, 0.49, 3.1],
[1.0, 0.52, 3.0],
[1.0, 0.5, 3.3],
]
print(find_stable_features(X, threshold=0.05))
# Ожидаемый результат: [0, 1]
❓ Как работает кросс-валидация в ML?
Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.
➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()
scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.
➡️ Объяснимый ИИ в ML и DL
Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии.
Читать...
⚙️ Что такое Feature Scaling в ML и зачем он нужен?
Feature Scaling (масштабирование признаков) — это приведение всех признаков к одному масштабу, чтобы модель обучалась корректно.
Некоторые алгоритмы (например, k-NN
, SVM
, градиентный спуск) чувствительны к разнице в диапазонах данных
➡️ Пример:
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([[1, 100], [2, 300], [3, 500]])
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
🗣️ В этом примере признаки приводятся к виду с нулевым средним и единичным стандартным отклонением.
🧠 Компании уходят от пилотов к продуктиву
В беседе Роман Стятюгин пояснил: VK Predict — это команда более ста специалистов. Решения выпускают в двух форматах: модели по API и продукты с интерфейсом для бизнес-пользователей, включая дашборды, тепловые карты и чат-боты на LLM.
Среди сервисов: «Рейтинг» для прогнозирования признаков аудитории, «Телеком Радар», которым пользуются три из четырех крупнейших операторов, «ГеоКурсор» с гравитационными моделями, «Девелопер» для квартирографии, платформа Predict AutoML и AI Persona для персонализации коммуникаций.
Читать интервью
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
🔥 Самые интересные статьи за последние дни:
• Пишем Wake-on-LAN сервис на ESP8266 при помощи ChatGPT
• Необычные вкусы покупателей: что такое товарные пары и как их исследовать
• Сгенерированный ИИ код сделает вас плохим программистом
• Словари в Python: обзор и как пользоваться
• Поиск жулика: Как понять, что перед вами ChatGPT 4?
📉 RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты
В статье собираю торгового агента на Dueling Double DQN с приоритетным реплеем. Тестирую на Binance Futures с учётом комиссий и проскальзывания, чтобы PnL выглядел как в реальной торговле.
Читать...
🔍 Как трансформеры меняют область NLP и что стоит за LLM?
На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.
Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.
🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://vk.cc/cOihwd
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?
PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.
➡️ Пример:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
# Загрузка данных
data = load_iris()
X = data.data
# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print(X_pca[:5]) # Преобразованные данные
🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.
👩💻 Задачка по Python
Напишите функцию, которая принимает список email-адресов и возвращает уникальные домены из этого списка. Домен — это часть адреса после символа @
.
➡️ Пример:
["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]
#{"example.com", "test.com", "sample.com"}
def get_unique_domains(emails):Читать полностью…
domains = {email.split('@')[1] for email in emails}
return domains
# Пример использования:
emails = ["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]
result = get_unique_domains(emails)
print(result) # Ожидаемый результат: {'example.com', 'test.com', 'sample.com'}
🔥 Самые интересные статьи за последние дни:
• KAN: Kolmogorov–Arnold Networks
• Стандартное отклонение для полных чайников
• Почему галлюцинируют нейросети [и что с этим делают]
• Понимает ли Vision Llama импрессионистов?
• Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL
💎Кратко про Ensemble методы с примерами
В этой статье мы рассмотрим три основных подхода: Bagging, Boosting и Stacking, и посмотрим, как их реализовать на Python.
Читать...
⚡️ Ошибки должны быть громкими
Тихие ошибки — это как протечка трубы: они долго не видны, пока не станет плохо.
👉 Совет: логируй и сигнализируй о любых неожиданных ситуациях. Лучше пусть код упадёт с понятным сообщением в деве, чем тихо сломает данные в проде.
✔️ Системы ценностей больших языковых моделей
Разбираю, как LLM умудряются обзавестись политикой, любимыми расами и списками «жертв». От первых восторгов до шока прошло меньше двух лет — теперь копаем, что внутри.
Читать...