devsp | Unsorted

Telegram-канал devsp - Data Science | Machinelearning [ru]

17987

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

🚀 Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для сеньоров

Системный аналитик (Data Office)
SQL, BPMN, REST, анализ требований
Уровень дохода не указан | опыт не указан​

Senior Data Scientist в команду антифрода
Python, SQL, TensorFlow, PyTorch, машинное обучение
Уровень дохода не указан | от 2 лет​

Продуктовый аналитик
Yandex DataLens, Python, Amplitude, ClickHouse, Oracle, Microsoft Excel, Tableau, Metabase, PowerBI, анализ данных
Уровень дохода не указан | от 2 лет

Читать полностью…

Data Science | Machinelearning [ru]

📈 Подборка статей для вашей карьеры

Продуктивность и почему «сделать много всего» — это не про неё

Куда выйти из айти?

Как я боролся с выгоранием в ИТ: лайфхаки и личный опыт

ИТ-пенсионеры и где они обитают

Почему мне нужно, чтобы ты вкатился в айти

Читать полностью…

Data Science | Machinelearning [ru]

⚡️Разбираем тестовое задание в Альфа Банк на позицию Junior Аналитика данных

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в Альфа Банке.

Что будем делать на вебинаре:
🟠Напишем сложные SQL-запросы для банковских данных;
🟠Вспомним, как правильно использовать оконные функции;
🟠Узнаем, как создавать разметку, из чего она состоит и для чего она нужна;
🟠На реальных данных проведем когортный анализ и сделаем выводы;
🟠Расскажем, как доставать инсайты из данных.

Вебинар проведет Денис Иванов, ведущий продуктовый аналитик

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))
# Ожидаемый результат: ('B', 'D')


Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Читать полностью…

Data Science | Machinelearning [ru]

Ваша карьера в аналитике данных может выйти на новый уровень

DWH — это основа качественной аналитики. Без правильно спроектированного хранилища данные хаотичны, отчеты несистемны, а решения принимаются вслепую.

📍 На открытом уроке 26 марта в 20:00 мск разберем, какие существуют подходы к построению хранилищ, как они влияют на скорость обработки данных и какие задачи решают.

После урока вы:

- Разберетесь в ключевых архитектурах DWH.
- Научитесь выбирать подходящую под задачи бизнеса.
- Поймете, как архитектура влияет на масштабируемость и производительность.

Спикер Алексей Железной — Senior Data Engineer с большим опытом и широким технологическим стеком.

➡️ Регистрируйтесь и получите скидку на большое обучение «Data Warehouse Analyst»: https://vk.cc/cKdonV

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️ Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
print(num)

# Вывод: 0, 1, 1, 2, 3


🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

Искусственный интеллект — будущее, которое уже наступило.

Компании и государства активно инвестируют в развитие ИИ, делая навыки в этой сфере одними из самых востребованных.
А Deep Learning и Computer Vision — две ключевые технологии, которые лежат в основе современных AI-решений. Это основа, так сказать база, based.

Приходите на бесплатный онлайн-вебинар от Karpov Courses, чтобы в дружеской атмосфере познакомиться с Deep Learning и Computer Vision, понять, как стартовать в профессии инженера глубокого обучения и какие задачи вас ждут — всё это на реальных примерах, которые можно решить с помощью нейросетей.

Вебинар пройдет 27 марта в 19:00 мск: https://clc.to/P2LoVw

Читать полностью…

Data Science | Machinelearning [ru]

IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub

Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей.

Регистрация открыта до 11 апреля: https://cnrlink.com/itonecupmldevsp

Твоя формула победы:
Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи.
Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей.
Готов создавать комплексные решения для автоматизации процессов. 

Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек. 

Задачи IT_ONE Cup. ML Challenge:

🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.

4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах. 

Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge: https://cnrlink.com/itonecupmldataportal

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Функция property() в Python: добавляем управляемые атрибуты в классы

Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

cgroups и namespaces в Linux: как это работает?

ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Читать полностью…

Data Science | Machinelearning [ru]

📊 ИИ в Крипто-Торговле: Возможен ли Успех?

Статья описывает процесс создания успешных ИИ-моделей для автоматизированной крипто-торговли на ByBit. Рассматриваются три стратегии, их разработка, оптимизация и результаты, превысившие убытки.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🧠 Задачи быстрее решаются на бумаге

Залип на архитектуре или не можешь построить логическую цепочку? Иногда монитор — не лучший инструмент.

👉 Совет: возьми ручку и лист. Нарисуй схему, напиши шаги алгоритма, обозначь зависимости. Физическое взаимодействие с задачей включает другие области мозга и часто помогает увидеть то, что ускользает на экране. Старый трюк, который работает всегда.

Читать полностью…

Data Science | Machinelearning [ru]

✔️ Big Data мертвы, да здравствуют Smart Data

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Инфраструктура для Data-Engineer BI-tools

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
▫️ презентация платформы для работы с AI&ML — от идеи до результата
▫️ анонс новых сервисов для работы с GenAI
▫️ реальный кейс трансформации клиентского сервиса с помощью AI
▫️ анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈

Читать полностью…

Data Science | Machinelearning [ru]

🤖 ChatGPT VS DeepSeek

Приглашаем на открытый урок.

🗓 01 апреля в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP. Advanced».

ChatGPT, DeepSeek, Gemini… Что у них внутри и какие технологии их создают?

На открытом уроке разберем архитектуру современных LLM, методы их обучения и принципы, которые двигают индустрию NLP вперед.

Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.

Если вы хотите глубже понять работу LLM, разобраться в ключевых концепциях DeepSeek и узнать о будущих трендах, этот вебинар для вас.

Участвуйте и получите скидку для обучения на курсе «NLP. Advanced».

🔗 Ссылка на регистрацию: https://vk.cc/cKhpfL

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxCbVse

Читать полностью…

Data Science | Machinelearning [ru]

МТС True Tech Hack 2025 — создай новое решение на базе The Platform от МТС и поборись за призовой фонд в 1 500 000 рублей.

Регистрация открыта до 16 апреля.

Твоя формула успеха:
✅ Хочешь внести вклад в продукты, которые приносят пользу разработчикам по всей России
✅ Знаешь, как превратить идею в работающий прототип
✅ Любишь работать в команде.

На хакатон приглашают разработчиков, Data Scientists, Data Engineers, системных и бизнес-аналитиков, UI/UX-дизайнеров и других специалистов. Участие — командное, в каждой будет от 2 до 5 человек.

Треки МТС True Tech Hack 2025:
✅ DataOps Pipeline: оптимизация от сбора до отчета
✅ AI Schema Builder: генерация схем
✅ Цифровизация через True Tabs: интеграция данных и процессов в единую экосистему
✅ TouchVision: AI-ассистент для незрячих и слабовидящих пользователей
✅ Золотая середина: дистилляция моделей MWS GPT

Не пропусти митап 9 апреля с экспертами хакатона — задай вопросы и узнай больше о задачах.

Регистрируйся на МТС True Tech Hack 2025

Читать полностью…

Data Science | Machinelearning [ru]

↗️ Как я с помощью нейросетей обогнала инфляцию

В статье рассказывается, как использовать нейросети для оптимизации работы, если ваш доход в рублях, а расходы — в валюте. Спойлер: полное делегирование задач ИИ — миф, но с его помощью можно значительно упростить рутину и повысить продуктивность. Поделены реальные кейсы из жизни автора.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🌞 Автоэнкодеры простыми словами

Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для мидлов

Data Analyst
Python, R, Java, SQL, NoSQL
Уровень дохода не указан | от 2 лет

Data Engineer (Middle)
Python, PostgreSQL, MongoDB, ClickHouse, AWS, Kafka, Spark
Уровень дохода не указан | от 2 лет

Python разработчик (Трайб Data Office)
Python, HTML, JavaScript, CSS, Vue.js, Linux
Уровень дохода не указан | опыт не указан

Читать полностью…

Data Science | Machinelearning [ru]

🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для джунов

Data Scientist в области языковых моделей (Junior)
🟢Python, pandas, numpy, matplotlib, transformers, Hugging Face
🟢от 247 000 ₽ | 1–3 года​

Junior analyst/Младший аналитик
🟢Google Analytics, Google Tag Manager, Data Studio, SQL
🟢от 90 000 до 100 000 ₽ | 1–3 года​

Младший аналитик данных
🟢Python (pandas), Google Sheets, Google Colab, GitHub, API
🟢от 30 000 до 40 000 ₽ | Без опыта

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant

Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.

➡️ Пример:

text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
# Ожидаемый результат: "data"


Решение задачи ⬇️

import re
from collections import Counter

def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]

# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка зарубежных вакансий

Team Lead Data Scientist
🟢Python, SQL, Machine Learning, Big Data
🟢от 5 000 до 7 250 $ | более 6 лет

Аналитик данных (Data Analyst)
🟢SQL, Yandex DataLens, Tableau, Power BI
🟢от 150 000 до 200 000 ₽ | 1–3 года

Junior Marketplace Researcher/Team Assistant
🟢Google Sheets, English (basic), Data Analysis
🟢500 $ | Без опыта

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Дообучаем языковую модель GPT2 с помощью Torch

Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое декораторы в Python и как они работают?

Декораторы — это функции в Python, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с добавленным поведением. Это удобный способ модификации или расширения функциональности без изменения исходного кода функции.

➡️ Пример:

# Декоратор для логирования вызовов функции
def log_call(func):
def wrapper(*args, **kwargs):
print(f"Вызов функции {func.__name__} с аргументами: {args}, {kwargs}")
result = func(*args, **kwargs)
print(f"Результат: {result}")
return result
return wrapper

# Применение декоратора
@log_call
def add(a, b):
return a + b

add(3, 5)


🗣️ В этом примере декоратор log_call добавляет логирование вызовов и результатов функции add. Декораторы позволяют делать код более модульным и удобным для повторного использования.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

🤖 Новые тренды среди последних LLM

🗓 24 марта в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing».

LLM и трансформерные модели такие как ChatGPT, GPT4, GigaChat стали не только стандартом в области языкового моделирования, но и незаменимыми помощниками для решения огромного числа задач: от написания кода, до генерации сказок.
На вебинаре мы расскажем про последние тренды в этой области: чего уже достигли современные LLM сегодня и что нас ждет в ближайшем будущем.

Данный открытый урок будет особенно интересен:
- IT-специалистам, которые хотят расширить свои знания в Data Science
- Дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов
- Тем кто самостоятельно изучает Data Science

В результате вебинара вы:
- поймете основные технологии за современными LLM сегодня
- узнаете про основные тренды в области больших языковых моделей
- узнаете, что ждет область LLM в ближайшие годы

🔗 Ссылка на регистрацию: https://vk.cc/cJUFSY

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxJXghW

Читать полностью…
Subscribe to a channel