Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
❓ Как работает кросс-валидация в ML?
Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.
➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()
scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.
🚀 Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector
Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.
Читать...
📝 Подборка вакансий для сеньоров
Системный аналитик (Data Office)•
SQL, BPMN, REST, анализ требований•
Уровень дохода не указан | опыт не указан
Senior Data Scientist в команду антифрода•
Python, SQL, TensorFlow, PyTorch, машинное обучение•
Уровень дохода не указан | от 2 лет
Продуктовый аналитик•
Yandex DataLens, Python, Amplitude, ClickHouse, Oracle, Microsoft Excel, Tableau, Metabase, PowerBI, анализ данных•
Уровень дохода не указан | от 2 лет
📈 Подборка статей для вашей карьеры
• Продуктивность и почему «сделать много всего» — это не про неё
• Куда выйти из айти?
• Как я боролся с выгоранием в ИТ: лайфхаки и личный опыт
• ИТ-пенсионеры и где они обитают
• Почему мне нужно, чтобы ты вкатился в айти
⚡️Разбираем тестовое задание в Альфа Банк на позицию Junior Аналитика данных
Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.
Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем разбирать реальное тестовое задание, которое дают аналитикам в Альфа Банке.
Что будем делать на вебинаре:
🟠Напишем сложные SQL-запросы для банковских данных;
🟠Вспомним, как правильно использовать оконные функции;
🟠Узнаем, как создавать разметку, из чего она состоит и для чего она нужна;
🟠На реальных данных проведем когортный анализ и сделаем выводы;
🟠Расскажем, как доставать инсайты из данных.
Вебинар проведет Денис Иванов, ведущий продуктовый аналитик
😶Зарегистрироваться на бесплатный вебинар
👩💻 Задачка по Python
Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.
➡️ Пример:
data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})
print(find_highest_correlation(data))
# Ожидаемый результат: ('B', 'D')
def find_highest_correlation(df):Читать полностью…
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)
for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)
return columns
# Пример использования:
import pandas as pd
data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})
print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')
Ваша карьера в аналитике данных может выйти на новый уровень
DWH — это основа качественной аналитики. Без правильно спроектированного хранилища данные хаотичны, отчеты несистемны, а решения принимаются вслепую.
📍 На открытом уроке 26 марта в 20:00 мск разберем, какие существуют подходы к построению хранилищ, как они влияют на скорость обработки данных и какие задачи решают.
После урока вы:
- Разберетесь в ключевых архитектурах DWH.
- Научитесь выбирать подходящую под задачи бизнеса.
- Поймете, как архитектура влияет на масштабируемость и производительность.
Спикер Алексей Железной — Senior Data Engineer с большим опытом и широким технологическим стеком.
➡️ Регистрируйтесь и получите скидку на большое обучение «Data Warehouse Analyst»: https://vk.cc/cKdonV
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
⚙️ Что такое генераторы в Python и зачем они нужны?
Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield
, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.
➡️ Пример:
# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b
# Используем генератор
for num in fibonacci(5):
print(num)
# Вывод: 0, 1, 1, 2, 3
🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.
Искусственный интеллект — будущее, которое уже наступило.
Компании и государства активно инвестируют в развитие ИИ, делая навыки в этой сфере одними из самых востребованных.
А Deep Learning и Computer Vision — две ключевые технологии, которые лежат в основе современных AI-решений. Это основа, так сказать база, based.
Приходите на бесплатный онлайн-вебинар от Karpov Courses, чтобы в дружеской атмосфере познакомиться с Deep Learning и Computer Vision, понять, как стартовать в профессии инженера глубокого обучения и какие задачи вас ждут — всё это на реальных примерах, которые можно решить с помощью нейросетей.
Вебинар пройдет 27 марта в 19:00 мск: https://clc.to/P2LoVw
IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub
Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей.
Регистрация открыта до 11 апреля: https://cnrlink.com/itonecupmldevsp
Твоя формула победы:
✅ Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи.
✅ Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей.
✅ Готов создавать комплексные решения для автоматизации процессов.
Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек.
Задачи IT_ONE Cup. ML Challenge:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.
4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах.
Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge: https://cnrlink.com/itonecupmldataportal
🔥 Самые интересные статьи за последние дни:
• Разбей и властвуй: как создать кастомный токенизатор в SpaCy
• Функция property() в Python: добавляем управляемые атрибуты в классы
• Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году
• cgroups и namespaces в Linux: как это работает?
• ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя
📊 ИИ в Крипто-Торговле: Возможен ли Успех?
Статья описывает процесс создания успешных ИИ-моделей для автоматизированной крипто-торговли на ByBit. Рассматриваются три стратегии, их разработка, оптимизация и результаты, превысившие убытки.
Читать...
🧠 Задачи быстрее решаются на бумаге
Залип на архитектуре или не можешь построить логическую цепочку? Иногда монитор — не лучший инструмент.
👉 Совет: возьми ручку и лист. Нарисуй схему, напиши шаги алгоритма, обозначь зависимости. Физическое взаимодействие с задачей включает другие области мозга и часто помогает увидеть то, что ускользает на экране. Старый трюк, который работает всегда.
✔️ Big Data мертвы, да здравствуют Smart Data
Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.
Читать...
⚙️ Инфраструктура для Data-Engineer BI-tools
В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.
Читать...
Готов увидеть будущее искусственного интеллекта? 🧠
GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.
В программе:
▫️ презентация платформы для работы с AI&ML — от идеи до результата
▫️ анонс новых сервисов для работы с GenAI
▫️ реальный кейс трансформации клиентского сервиса с помощью AI
▫️ анонс сервиса для простого и быстрого запуска ML-моделей в облаке
30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈
🤖 ChatGPT VS DeepSeek
Приглашаем на открытый урок.
🗓 01 апреля в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP. Advanced».
ChatGPT, DeepSeek, Gemini… Что у них внутри и какие технологии их создают?
На открытом уроке разберем архитектуру современных LLM, методы их обучения и принципы, которые двигают индустрию NLP вперед.
Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.
Если вы хотите глубже понять работу LLM, разобраться в ключевых концепциях DeepSeek и узнать о будущих трендах, этот вебинар для вас.
Участвуйте и получите скидку для обучения на курсе «NLP. Advanced».
🔗 Ссылка на регистрацию: https://vk.cc/cKhpfL
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxCbVse
МТС True Tech Hack 2025 — создай новое решение на базе The Platform от МТС и поборись за призовой фонд в 1 500 000 рублей.
Регистрация открыта до 16 апреля.
Твоя формула успеха:
✅ Хочешь внести вклад в продукты, которые приносят пользу разработчикам по всей России
✅ Знаешь, как превратить идею в работающий прототип
✅ Любишь работать в команде.
На хакатон приглашают разработчиков, Data Scientists, Data Engineers, системных и бизнес-аналитиков, UI/UX-дизайнеров и других специалистов. Участие — командное, в каждой будет от 2 до 5 человек.
Треки МТС True Tech Hack 2025:
✅ DataOps Pipeline: оптимизация от сбора до отчета
✅ AI Schema Builder: генерация схем
✅ Цифровизация через True Tabs: интеграция данных и процессов в единую экосистему
✅ TouchVision: AI-ассистент для незрячих и слабовидящих пользователей
✅ Золотая середина: дистилляция моделей MWS GPT
Не пропусти митап 9 апреля с экспертами хакатона — задай вопросы и узнай больше о задачах.
Регистрируйся на МТС True Tech Hack 2025
↗️ Как я с помощью нейросетей обогнала инфляцию
В статье рассказывается, как использовать нейросети для оптимизации работы, если ваш доход в рублях, а расходы — в валюте. Спойлер: полное делегирование задач ИИ — миф, но с его помощью можно значительно упростить рутину и повысить продуктивность. Поделены реальные кейсы из жизни автора.
Читать...
🌞 Автоэнкодеры простыми словами
Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?
Читать...
⚙️ Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа
Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.
Читать...
📝 Подборка вакансий для мидлов
Data Analyst•
Python, R, Java, SQL, NoSQL•
Уровень дохода не указан | от 2 лет
Data Engineer (Middle)•
Python, PostgreSQL, MongoDB, ClickHouse, AWS, Kafka, Spark•
Уровень дохода не указан | от 2 лет
Python разработчик (Трайб Data Office)•
Python, HTML, JavaScript, CSS, Vue.js, Linux•
Уровень дохода не указан | опыт не указан
🤔 Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста
Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.
Читать...
🔎 Подборка вакансий для джунов
Data Scientist в области языковых моделей (Junior)
🟢Python, pandas, numpy, matplotlib, transformers, Hugging Face
🟢от 247 000 ₽ | 1–3 года
Junior analyst/Младший аналитик
🟢Google Analytics, Google Tag Manager, Data Studio, SQL
🟢от 90 000 до 100 000 ₽ | 1–3 года
Младший аналитик данных
🟢Python (pandas), Google Sheets, Google Colab, GitHub, API
🟢от 30 000 до 40 000 ₽ | Без опыта
⚙️ Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant
Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место.
Читать...
👩💻 Задачка по Python
Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.
➡️ Пример:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
# Ожидаемый результат: "data"
import reЧитать полностью…
from collections import Counter
def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]
# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
🔎 Подборка зарубежных вакансий
Team Lead Data Scientist
🟢Python, SQL, Machine Learning, Big Data
🟢от 5 000 до 7 250 $ | более 6 лет
Аналитик данных (Data Analyst)
🟢SQL, Yandex DataLens, Tableau, Power BI
🟢от 150 000 до 200 000 ₽ | 1–3 года
Junior Marketplace Researcher/Team Assistant
🟢Google Sheets, English (basic), Data Analysis
🟢500 $ | Без опыта
🔥 Дообучаем языковую модель GPT2 с помощью Torch
Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.
Читать...
⚙️ Что такое декораторы в Python и как они работают?
Декораторы — это функции в Python, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с добавленным поведением. Это удобный способ модификации или расширения функциональности без изменения исходного кода функции.
➡️ Пример:
# Декоратор для логирования вызовов функции
def log_call(func):
def wrapper(*args, **kwargs):
print(f"Вызов функции {func.__name__} с аргументами: {args}, {kwargs}")
result = func(*args, **kwargs)
print(f"Результат: {result}")
return result
return wrapper
# Применение декоратора
@log_call
def add(a, b):
return a + b
add(3, 5)
🗣️ В этом примере декоратор log_call добавляет логирование вызовов и результатов функции add. Декораторы позволяют делать код более модульным и удобным для повторного использования.
🤖 Новые тренды среди последних LLM
🗓 24 марта в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing».
LLM и трансформерные модели такие как ChatGPT, GPT4, GigaChat стали не только стандартом в области языкового моделирования, но и незаменимыми помощниками для решения огромного числа задач: от написания кода, до генерации сказок.
На вебинаре мы расскажем про последние тренды в этой области: чего уже достигли современные LLM сегодня и что нас ждет в ближайшем будущем.
Данный открытый урок будет особенно интересен:
- IT-специалистам, которые хотят расширить свои знания в Data Science
- Дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов
- Тем кто самостоятельно изучает Data Science
В результате вебинара вы:
- поймете основные технологии за современными LLM сегодня
- узнаете про основные тренды в области больших языковых моделей
- узнаете, что ждет область LLM в ближайшие годы
🔗 Ссылка на регистрацию: https://vk.cc/cJUFSY
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxJXghW