Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
➡️ Multichannel Keyword Spotting for Noisy Conditions.
Исследователи Яндекса рассказали о технологии, которая распознает голосовые команды даже на фоне сильного шума. Ключевая идея — attention-механизм, который обрабатывает сразу два входных сигнала: один — после шумоподавления, второй — после эхоподавления. Технология уже работает в устройствах Яндекса, а теперь доступна и разработчикам по всему миру. Исследование приняли на Interspeech 2025 — ведущую конференцию по речевым технологиям.
Читать...
⚙️ Пишем сервис инференса ML-модели на go, на примере BERT-а
Статья объясняет, как внедрить ML-модель, обученную на Python, в сервис на Go, используя ONNX. Рассматривается пример работы с моделью seara/rubert-tiny2-russian-sentiment для анализа сентимента текста.
Читать...
🤖 Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота
Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ.
Читать...
☝ Машинное обучение для начинающих: Введение в нейронные сети
Этот пост предназначен для абсолютных новичков и предполагает НУЛЕВЫЕ предварительные знания машинного обучения. Мы разберемся, как работают нейронные сети, и реализуем одну из них с нуля на Python.
Читать...
👩💻 Удаление выбросов из набора данных
Напишите функцию, которая принимает pandas.DataFrame
и название столбца, а затем возвращает новый DataFrame
, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.
Пример:
import pandas as pd
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})
cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16
import pandas as pdЧитать полностью…
def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})
cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
🚀 Анализ текстов задерживает скорость разработки?
Разбираемся, как классический трансформер BERT справляется с миллионами документов за доли секунды!
На открытом уроке «Решаем задачи текстовой классификации с помощью BERT» мы расскажем:
🔹 Внутреннее устройство BERT
🔹 Методы дообучения и интеграции в реальные проекты
🔹 Практические примеры от эксперта OTUS
📅 Когда: 30 июля, 18:00 МСК
🎟 Регистрация бесплатная — зарегистрируйтесь сейчас и получите скидку на программу обучения «NLP / Natural Language Processing»: https://vk.cc/cO4sa6
Не пропустите шанс повысить свою экспертизу в области NLP!
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
👩💻 Поиск числа с максимальной суммой цифр
Напишите функцию, которая принимает список положительных чисел и возвращает число с наибольшей суммой цифр. Если таких чисел несколько, вернуть первое из них.
Пример:
numbers = [123, 456, 789, 234]
result = max_digit_sum(numbers)
print(result)
# Ожидаемый результат: 789 (7+8+9=24, это максимальная сумма)
def max_digit_sum(numbers):Читать полностью…
def digit_sum(n):
return sum(int(digit) for digit in str(n))
return max(numbers, key=digit_sum)
# Пример использования:
numbers = [123, 456, 789, 234]
result = max_digit_sum(numbers)
print(result) # Ожидаемый результат: 789
➡️ Машинное обучение: общие принципы и концепции
В этой статье я рассказываю про основные концепции, типы обучения, типы задач в машинном обучении и также делаю постановку задачи машинного обучения (МО). Все это я рассказываю в своем стиле и понимании.
Читать...
🤖 Псст, ИИ нужен? 5 полезных инструментов для разработчика
Статья предлагает подборку инструментов, платформ и шаблонов для работы с языковыми моделями и создания ИИ-ассистентов. Рассматриваются протестированные в МТС решения, упрощающие разработку и интеграцию.
Читать...
Qwen3‑235B — новая языковая модель от Яндекса, доступная в облаке.
Подходит для создания ассистентов, автоматизации клиентской поддержки, генерации текстов и внедрения ИИ в e‑commerce.
Работает через Yandex Cloud AI Studio, без сложной настройки. Возможна интеграция по API. Технология уже доступна для тестирования и подключения.
Реклама. ООО Яндекс.Облако. ИНН 7704458262
💳 Как мы провели ИИ-трансформацию стратегических процессов Сбера
Статья рассказывает об ИИ-трансформации Сбера, включая ключевые задачи, такие как стресс-тестирование, анализ рынков и прогнозирование эффективности сотрудников. Рассматривается использование ИИ до и после трансформации.
Читать...
⚡Эксклюзивный временный доступ к папке «AI & TECH & IT» — это уникальная коллекция каналов по интересным статьям и способам заработка в сфере искусственного интеллекта и технологий.
В папке можно найти:
🟠 Как продавать и записывать на услуги 24/7 с помощью ИИ?
🟠 Создание вирусных, захватывающих ИИ-видео.
🟠 Актуальные новости в сфере информационных технологий.
📎 Подписывайтесь на папку «AI & TECH & IT» прямо сейчас — изучайте каналы и прокачивайте свои скиллы в сфере ИИ и технологий!
ПОДПИСАТЬСЯ
⚙️ KAN 2.0: Kolmogorov-Arnold Networks Meet Science
Статья представляет перевод работы о нейронных сетях на основе алгоритма Колмогорова-Арнольда (KAN). Рассматриваются новые исследования, связь с наукой и использование библиотеки pykan на Python для практических задач.
Читать...
👩💻 Проверка, являются ли две строки анаграммами
Напишите функцию, которая принимает две строки и проверяет, являются ли они анаграммами. Анаграммы — это слова, которые содержат одинаковые буквы в одинаковом количестве, но в разном порядке. Игнорируйте регистр и пробелы.
Пример:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True
result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
def are_anagrams(str1, str2):Читать полностью…
# Удаляем пробелы и приводим к одному регистру
str1 = ''.join(str1.lower().split())
str2 = ''.join(str2.lower().split())
# Проверяем, равны ли отсортированные символы
return sorted(str1) == sorted(str2)
# Пример использования:
result1 = are_anagrams("listen", "silent")
print(result1) # Ожидаемый результат: True
result2 = are_anagrams("hello", "world")
print(result2) # Ожидаемый результат: False
⚙️ Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов
Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.
Читать...
👩💻 Удаление выбросов из набора данных
Напишите функцию, которая принимает pandas.DataFrame
и название столбца, а затем возвращает новый DataFrame
, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.
Пример:
import pandas as pd
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})
cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16
import pandas as pdЧитать полностью…
def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})
cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
Компьютерное зрение, студкемп, Нижний Новгород
Яндекс Образование совместно с Неймарком и ФКН ВШЭ подготовили программу теории и практики ввода компьютерного зрения в робототехнику и автономные системы. Лекции и личное общение с экспертами, командные проекты и практические задания.
После студкемпа получите возможность начать карьеру в computer science и практические навыки работы.
Чтобы участвовать, нужно зарегистрироваться по ссылке до 14 августа. На студкемп может попасть любой студент, из любой точки РФ, но есть отбор. Победителям организаторы оплатят и дорогу, и проживание.
⚙️ Что такое модуль shutil
в Python и зачем он используется?
Модуль shutil
предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.
➡️ Пример:
import shutil
# Копирование файла
shutil.copy('source.txt', 'destination.txt')
# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')
🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.
➡️ DeepSeek AI: От инъекции промпта до захвата аккаунта
Статья рассказывает о новой AI-модели DeepSeek-R1-Lite, созданной для логических рассуждений. Рассматриваются её возможности, тестирование и перспективы применения в задачах анализа и вычислений.
Читать...
➡️ Машинное обучение: Линейная регрессия. Теория и реализация. С нуля. На чистом Python
В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Кроме чистой теории я показываю как это все реализовать. Я рассказываю все в своем стиле и понимании - с инженерной точки зрения, с точки зрения того, как реализовывать с нуля.
Читать...
🔥 Самые интересные статьи за последние дни:
• Не бойтесь потоков в Python, они не кусаются
• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM
• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?
• Семантический веб: краткий обзор технологий и инструментов
• Инструмент обеспечения качества данных: от теории к практике
⚙️ Physics-based и data-driven моделирование
Статья объясняет различия между физически обоснованными моделями и моделями, основанными на данных, с примерами задач машинного обучения. Рассматривается подход к обработке данных, выбору моделей и их обучению.
Читать...
📋 Документация — это не про "всё", а про "важное"
Ты не обязан описывать каждую кнопку, каждый метод. Но ты обязан объяснить, как с этим жить.
👉 Совет: документируй не детали, а маршруты: как запустить, как добавить фичу, как починить баг. Хорошая документация — это не энциклопедия, а инструкция к выживанию.
📖 «Охота на электроовец: большая книга искусственного интеллекта» или как написать книгу про ИИ без регистрации и SMS
История о том, как за 6 лет я написал двухтомник, посвящённый искусственному интеллекту и машинному обучению.
Читать...
⚙️ Что такое генераторы в Python и зачем они нужны?
Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield
, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.
➡️ Пример:
# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b
# Используем генератор
for num in fibonacci(5):
print(num)
# Вывод: 0, 1, 1, 2, 3
🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.
🤖 Как удалить Excel навсегда: делегируем юнит-экономику на Wildberries нейронке
Статья объясняет, как нейросети помогают оптимизировать юнит-экономику продавцов на WB, особенно при работе с большим ассортиментом. Рассматриваются подходы к автоматизации анализа и принятию решений.
Читать...
📈 Подборка статей для вашей карьеры
• «Снова упала?» Как поднять самооценку и зачем мы сравниваем себя с другими, даже если от этого больно
• Из учителя в QA: мой путь в IT
• Рынок дата-инженеров и прогноз на 2025
• Как сделать резюме, которое дойдёт до работодателя. Фильтры ATS в 2025 году
• Ошибайся смело: жизненные уроки из мира machine learning
🔥 Самые интересные статьи за последние дни:
• о3 теснит программистов? Как OpenAI снова всех удивила
• AI, который всё за нас решит
• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе
• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок
⚙️ Альфа-Банк оплатит студентам магистратуру по HR-Tech
Он запустил программу совместно с ВШЭ. Эксперты научат разрабатывать HR-технологии и управлять цифровыми продуктами. Расскажут, как формировать, развивать и мотивировать команды.
Студенты пройдут оплачиваемую стажировку в Альфе, лучших позовут в команду. Подать заявку можно до 8 августа.
⚙️ Пишем свою Diffusion модель с нуля
Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.
Читать...