devsp | Unsorted

Telegram-канал devsp - Data Science | Machinelearning [ru]

17987

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin

Subscribe to a channel

Data Science | Machinelearning [ru]

📝 Подборка вакансий для мидлов

Data-аналитик
SQL, Tableau, Amplitude, PostgreSQL
от 200 000 до 300 000 ₽ на руки | 1–3 года

Data Scientist (генерация графических изображений)
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs
от 200 000 до 500 000 ₽ на руки | 3–6 лет

Data Scientist (модели PD)
Python, SQL, Machine Learning, A/B Testing, Risk Modeling
Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Пишем свою Diffusion модель с нуля

Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Задачка по Python

Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.

➡️ Пример:

text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
# Ожидаемый результат: "data"


Решение задачи ⬇️

import re
from collections import Counter

def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]

# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

о3 теснит программистов? Как OpenAI снова всех удивила

AI, который всё за нас решит

Второе пришествие мейнфреймов. Всё больше компаний хотят запускать ИИ у себя в офисе

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Читать полностью…

Data Science | Machinelearning [ru]

➡️ Будущее LLM в XS, S, M и других размерах

В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

Уголок AI-энтузиастов от Сбера 🤖

Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити.

✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины.

✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере

✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub.

Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

Читать полностью…

Data Science | Machinelearning [ru]

🤔 Будущее LLM: 7 прогнозов на 2025 год

Что нового ждёт языковые модели в 2025 году? Обсудим прогнозы: расширение возможностей ИИ, их внедрение в бизнес и жизнь. Узнайте, чего ожидать и почему Джарвис пока останется мечтой.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🧠 Прогнозы развития ИИ в 2025 году: версия «Ведомости. Технологии»

Статья рассказывает об основных трендах в развитии искусственного интеллекта. Эксперты считают, что ИИ будет двигаться в сторону мультимодальности, гиперперсонализации и автономных систем. Также на рынке будет больше решений с открытым кодом, которые, по словам эксперта из Яндекса, поспособствуют повышению скорости разработки инновационных продуктов и созданию более доступных технологий.

Читать…

Читать полностью…

Data Science | Machinelearning [ru]

📈 Подборка статей для вашей карьеры

«Снова упала?» Как поднять самооценку и зачем мы сравниваем себя с другими, даже если от этого больно

Из учителя в QA: мой путь в IT

Рынок дата-инженеров и прогноз на 2025

Как сделать резюме, которое дойдёт до работодателя. Фильтры ATS в 2025 году

Ошибайся смело: жизненные уроки из мира machine learning

Читать полностью…

Data Science | Machinelearning [ru]

➡️ Добро пожаловать в CAMELoT

В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"


Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))

Читать полностью…

Data Science | Machinelearning [ru]

7 вещей, которые я понял, работая в ML

Ребята из ML-команды Купера рассказали о главных инсайтах, которые они извлекли за время работы, дали советы начинающим специалистам, разобрали, как справляться с вызовами этой профессии.

💫Какими компетенциями обладает ML-специалист? 

💫Как помнить про цель и искать свой путь? 

💫Какие вызовы могут возникнуть при смене карьерного трека?

💫Почему важно думать про бизнес и решать правильные задачи? 

Ответы на эти и другие вопросы вы найдете в ролике на YouTube и в VK Видео!

Возможно, вы узнаете себя в этих историях и получите вдохновение для новых карьерных свершений!

Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFJiu8SC

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое logging в Python?

logging — это встроенный модуль Python для создания логов, которые помогают отлаживать и мониторить работу приложений.

➡️ Пример:

import logging

# Настройка базового уровня логирования
logging.basicConfig(level=logging.INFO)

# Создание лога
logging.info("Приложение запущено")
logging.warning("Это предупреждение!")
logging.error("Произошла ошибка")


🗣️ В этом примере модуль logging создаёт сообщения разного уровня важности. Логирование позволяет отслеживать работу приложений и находить проблемы в коде.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для джунов

Junior Аналитик данных
🟢MySQL, Metabase, Python (pandas, NumPy)
🟢от 30 000 до 50 000 ₽ | 1–3 года опыта

Junior Data Engineer (Analyst)
🟢SQL, Qlik Sense, Grafana, Python, PostgreSQL
🟢от 250 000 ₸ до вычета налогов | Без опыта

Junior Python Backend разработчик
🟢Python, FastAPI, PostgreSQL, SQLAlchemy
🟢от 40 000 ₽ | Без опыта

Читать полностью…

Data Science | Machinelearning [ru]

🧠 Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Что такое @staticmethod и @classmethod в Python, и чем они отличаются?

Декораторы @staticmethod и @classmethod используются для создания методов, которые не требуют экземпляра класса. @staticmethod — это метод, который не зависит от экземпляра или самого класса, а @classmethod получает доступ к самому классу через первый параметр cls.

➡️ Пример:

class MyClass:
@staticmethod
def static_method():
return "Это статический метод"

@classmethod
def class_method(cls):
return f"Это метод класса {cls.__name__}"

# Использование
print(MyClass.static_method()) # Это статический метод
print(MyClass.class_method()) # Это метод класса MyClass


🗣️ В этом примере static_method ничего не знает о классе, в то время как class_method может взаимодействовать с классом, к которому он принадлежит. Используйте их в зависимости от того, нужно ли вам взаимодействие с классом.


🖥 Подробнее тут

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для джунов

Младший аналитик
Python, SQL, Microsoft Excel, Анализ данных, Машинное обучение, Нейронные сети
от 130 000 ₽ на руки | 1–3 года

Консультант-аналитик [ССД Oracle]
SQL, Oracle, Английский язык, Аналитика, Системное тестирование
Уровень дохода не указан | 1–3 года

Инженер данных/Data Engineer в Управление анализа данных
SQL, Apache Hadoop, Bitbucket, Jira, Confluence
Уровень дохода не указан | 1–3 года

Читать полностью…

Data Science | Machinelearning [ru]

✔️ Big Data мертвы, да здравствуют Smart Data

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Генератор случайных паролей с настройками

Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:

Использовать ли цифры.
Использовать ли буквы верхнего и/или нижнего регистра.
Использовать ли специальные символы.

➡️ Пример:

password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6


Решение задачи🔽

import random
import string

def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")

# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"

if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")

# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))

# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка зарубежных вакансий

Python developer в ML
🟢Python, PyTorch, FastAPI
🟢Уровень дохода не указан | 3–6 лет

Ai Specialist
🟢Python, Java, C++, TensorFlow, Keras, PyTorch, Excel, Tableau
🟢Уровень дохода не указан | 3–6 лет

Senior QA Engineer (Server Team)
🟢Python, Тестирование, Тестирование back-end, API
🟢Уровень дохода не указан | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Делай задачи «гибкими» для будущего

Пишешь решение, которое идеально подходит для текущей задачи, но через месяц оно уже устарело? Это классика.

👉 Совет: думай на шаг вперёд. Вместо жёсткой привязки к конкретным условиям добавь настройку, сделай код модульным или оставь место для расширения. Так ты сэкономишь время себе и коллегам, когда задача внезапно изменится.

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для лидов

Senior Data Engineer (Python, Spark, SQL)
🟢Python, SQL, PySpark, ETL, ELT, AWS, GCP, Azure, BigQuery, RDS, Azure SQL DB
🟢Уровень дохода не указан | 3–6 лет

Data Domain Leader
🟢SQL, Python, Spark, ETL, Data Architecture, Data Warehousing, Agile, Scrum
🟢до 400 000 ₽ до вычета налогов | более 6 лет

Lead Financial Data Engineer / Analyst
🟢SQL, SSIS, Visual Studio, Microsoft Excel
🟢от 500 000 ₽ до вычета налогов | более 6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна

Как применять ИИ и цифровизацию в гигантской промышленной компании с десятками заводов? Узнайте, как СИБУР реализует более 30 успешных кейсов и работает с сотнями гипотез в Лаборатории ИИ.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔎 Подборка вакансий для сеньоров

Senior Data Engineer
🟢Python, Spark, Hadoop, Docker, Kubernetes, SQL, CI/CD
🟢от 400 000 ₽ на руки | 3–6 лет

Senior Data Analyst (Medtech)
🟢SQL, Tableau, Power BI, Python, R, Data Warehousing, Statistics
🟢до 330 000 ₽ на руки | 3–6 лет

Senior Data Scientist (Recommender Systems)
🟢Python, PyTorch, Recommender Systems, A/B Testing, ClickHouse, Jenkins, Airflow
🟢от 5 000 до 6 500 € до вычета налогов | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

⚙️ Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

🔫 Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

📝 Подборка вакансий для мидлов

Data Scientist (Реком. системы)
Python, SQL, Keras, PyTorch, Docker, Airflow, ClickHouse, A/B Testing, Recommender Systems
Уровень дохода не указан | 1–3 года

Data Analyst (F&R)
SQL, Python, Microsoft Excel, BI, Apache Superset, Математическая статистика, Анализ данных
Уровень дохода не указан | Более 6 лет

Data Scientist (генерация графических изображений)
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs
от 200 000 до 500 000 ₽ на руки | 3–6 лет

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...

Читать полностью…

Data Science | Machinelearning [ru]

👩‍💻 Парсинг и подсчёт количества слов в текстовом файле

Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.

Пример:

# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."

result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}


Решение задачи🔽

import string
from collections import Counter

def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text =
f.read().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))

# Пример использования
result = count_words_in_file("example.txt")
print(result)

Читать полностью…

Data Science | Machinelearning [ru]

🔥 Самые интересные статьи за последние дни:

Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Читать полностью…
Subscribe to a channel