Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
📝 Подборка вакансий для мидлов
Data-аналитик•
SQL, Tableau, Amplitude, PostgreSQL•
от 200 000 до 300 000 ₽ на руки | 1–3 года
Data Scientist (генерация графических изображений)•
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs•
от 200 000 до 500 000 ₽ на руки | 3–6 лет
Data Scientist (модели PD)•
Python, SQL, Machine Learning, A/B Testing, Risk Modeling•
Уровень дохода не указан | 3–6 лет
⚙️ Пишем свою Diffusion модель с нуля
Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.
Читать...
👩💻 Задачка по Python
Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.
➡️ Пример:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
# Ожидаемый результат: "data"
import reЧитать полностью…
from collections import Counter
def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]
# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
🔥 Самые интересные статьи за последние дни:
• о3 теснит программистов? Как OpenAI снова всех удивила
• AI, который всё за нас решит
• Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе
• Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок
➡️ Будущее LLM в XS, S, M и других размерах
В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.
Читать...
Уголок AI-энтузиастов от Сбера 🤖
Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити.
✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины.
✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере
✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub.
Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.
🤔 Будущее LLM: 7 прогнозов на 2025 год
Что нового ждёт языковые модели в 2025 году? Обсудим прогнозы: расширение возможностей ИИ, их внедрение в бизнес и жизнь. Узнайте, чего ожидать и почему Джарвис пока останется мечтой.
Читать...
🧠 Прогнозы развития ИИ в 2025 году: версия «Ведомости. Технологии»
Статья рассказывает об основных трендах в развитии искусственного интеллекта. Эксперты считают, что ИИ будет двигаться в сторону мультимодальности, гиперперсонализации и автономных систем. Также на рынке будет больше решений с открытым кодом, которые, по словам эксперта из Яндекса, поспособствуют повышению скорости разработки инновационных продуктов и созданию более доступных технологий.
Читать…
📈 Подборка статей для вашей карьеры
• «Снова упала?» Как поднять самооценку и зачем мы сравниваем себя с другими, даже если от этого больно
• Из учителя в QA: мой путь в IT
• Рынок дата-инженеров и прогноз на 2025
• Как сделать резюме, которое дойдёт до работодателя. Фильтры ATS в 2025 году
• Ошибайся смело: жизненные уроки из мира machine learning
➡️ Добро пожаловать в CAMELoT
В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.
Читать...
👩💻 Выявление тренда в временном ряде
Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series
и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.
➡️ Пример:
import pandas as pd
import numpy as np
# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)
result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"
import numpy as npЧитать полностью…
def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"
# Пример использования
import pandas as pd
import numpy as np
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)
print(detect_trend(time_series))
7 вещей, которые я понял, работая в ML
Ребята из ML-команды Купера рассказали о главных инсайтах, которые они извлекли за время работы, дали советы начинающим специалистам, разобрали, как справляться с вызовами этой профессии.
💫Какими компетенциями обладает ML-специалист?
💫Как помнить про цель и искать свой путь?
💫Какие вызовы могут возникнуть при смене карьерного трека?
💫Почему важно думать про бизнес и решать правильные задачи?
Ответы на эти и другие вопросы вы найдете в ролике на YouTube и в VK Видео!
Возможно, вы узнаете себя в этих историях и получите вдохновение для новых карьерных свершений!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFJiu8SC
⚙️ Что такое logging
в Python?logging
— это встроенный модуль Python для создания логов, которые помогают отлаживать и мониторить работу приложений.
➡️ Пример:
import logging
# Настройка базового уровня логирования
logging.basicConfig(level=logging.INFO)
# Создание лога
logging.info("Приложение запущено")
logging.warning("Это предупреждение!")
logging.error("Произошла ошибка")
🗣️ В этом примере модуль logging создаёт сообщения разного уровня важности. Логирование позволяет отслеживать работу приложений и находить проблемы в коде.
🔎 Подборка вакансий для джунов
Junior Аналитик данных
🟢MySQL, Metabase, Python (pandas, NumPy)
🟢от 30 000 до 50 000 ₽ | 1–3 года опыта
Junior Data Engineer (Analyst)
🟢SQL, Qlik Sense, Grafana, Python, PostgreSQL
🟢от 250 000 ₸ до вычета налогов | Без опыта
Junior Python Backend разработчик
🟢Python, FastAPI, PostgreSQL, SQLAlchemy
🟢от 40 000 ₽ | Без опыта
🧠 Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц
Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.
Читать...
⚙️ Что такое @staticmethod
и @classmethod
в Python, и чем они отличаются?
Декораторы @staticmethod
и @classmethod
используются для создания методов, которые не требуют экземпляра класса. @staticmethod
— это метод, который не зависит от экземпляра или самого класса, а @classmethod
получает доступ к самому классу через первый параметр cls
.
➡️ Пример:
class MyClass:
@staticmethod
def static_method():
return "Это статический метод"
@classmethod
def class_method(cls):
return f"Это метод класса {cls.__name__}"
# Использование
print(MyClass.static_method()) # Это статический метод
print(MyClass.class_method()) # Это метод класса MyClass
🗣️ В этом примере static_method ничего не знает о классе, в то время как class_method может взаимодействовать с классом, к которому он принадлежит. Используйте их в зависимости от того, нужно ли вам взаимодействие с классом.
📝 Подборка вакансий для джунов
Младший аналитик•
Python, SQL, Microsoft Excel, Анализ данных, Машинное обучение, Нейронные сети•
от 130 000 ₽ на руки | 1–3 года
Консультант-аналитик [ССД Oracle]•
SQL, Oracle, Английский язык, Аналитика, Системное тестирование•
Уровень дохода не указан | 1–3 года
Инженер данных/Data Engineer в Управление анализа данных•
SQL, Apache Hadoop, Bitbucket, Jira, Confluence•
Уровень дохода не указан | 1–3 года
✔️ Big Data мертвы, да здравствуют Smart Data
Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.
Читать...
👩💻 Генератор случайных паролей с настройками
Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:•
Использовать ли цифры.•
Использовать ли буквы верхнего и/или нижнего регистра.•
Использовать ли специальные символы.
➡️ Пример:
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6
import randomЧитать полностью…
import string
def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")
# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"
if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")
# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))
# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)
🔎 Подборка зарубежных вакансий
Python developer в ML
🟢Python, PyTorch, FastAPI
🟢Уровень дохода не указан | 3–6 лет
Ai Specialist
🟢Python, Java, C++, TensorFlow, Keras, PyTorch, Excel, Tableau
🟢Уровень дохода не указан | 3–6 лет
Senior QA Engineer (Server Team)
🟢Python, Тестирование, Тестирование back-end, API
🟢Уровень дохода не указан | 3–6 лет
⚙️ Делай задачи «гибкими» для будущего
Пишешь решение, которое идеально подходит для текущей задачи, но через месяц оно уже устарело? Это классика.
👉 Совет: думай на шаг вперёд. Вместо жёсткой привязки к конкретным условиям добавь настройку, сделай код модульным или оставь место для расширения. Так ты сэкономишь время себе и коллегам, когда задача внезапно изменится.
🔎 Подборка вакансий для лидов
Senior Data Engineer (Python, Spark, SQL)
🟢Python, SQL, PySpark, ETL, ELT, AWS, GCP, Azure, BigQuery, RDS, Azure SQL DB
🟢Уровень дохода не указан | 3–6 лет
Data Domain Leader
🟢SQL, Python, Spark, ETL, Data Architecture, Data Warehousing, Agile, Scrum
🟢до 400 000 ₽ до вычета налогов | более 6 лет
Lead Financial Data Engineer / Analyst
🟢SQL, SSIS, Visual Studio, Microsoft Excel
🟢от 500 000 ₽ до вычета налогов | более 6 лет
⚙️ Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна
Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ.
Читать...
🔎 Подборка вакансий для сеньоров
Senior Data Engineer
🟢Python, Spark, Hadoop, Docker, Kubernetes, SQL, CI/CD
🟢от 400 000 ₽ на руки | 3–6 лет
Senior Data Analyst (Medtech)
🟢SQL, Tableau, Power BI, Python, R, Data Warehousing, Statistics
🟢до 330 000 ₽ на руки | 3–6 лет
Senior Data Scientist (Recommender Systems)
🟢Python, PyTorch, Recommender Systems, A/B Testing, ClickHouse, Jenkins, Airflow
🟢от 5 000 до 6 500 € до вычета налогов | 3–6 лет
⚙️ Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%
Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.
Читать...
🔫 Claude сопротивляется
Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.
Читать...
📝 Подборка вакансий для мидлов
Data Scientist (Реком. системы)•
Python, SQL, Keras, PyTorch, Docker, Airflow, ClickHouse, A/B Testing, Recommender Systems•
Уровень дохода не указан | 1–3 года
Data Analyst (F&R)•
SQL, Python, Microsoft Excel, BI, Apache Superset, Математическая статистика, Анализ данных•
Уровень дохода не указан | Более 6 лет
Data Scientist (генерация графических изображений)•
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs•
от 200 000 до 500 000 ₽ на руки | 3–6 лет
👩💻 Пишем свой PyTorch на NumPy. Часть 1
PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.
В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!
Читать...
👩💻 Парсинг и подсчёт количества слов в текстовом файле
Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.
Пример:
# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."
result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}
import stringЧитать полностью…
from collections import Counter
def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text = f.read().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))
# Пример использования
result = count_words_in_file("example.txt")
print(result)
🔥 Самые интересные статьи за последние дни:
• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT
• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей
• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели
• Возможности LLM и RAG на примере реализации бота для поддержки клиентов
• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей