17988
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
🧠 Распознавание орхоно-енисейских рунических надписей методами машинного обучения
В статье рассказывают о расшифровке орхоно-енисейских рун: древние тексты на камне, трудности интерпретации и идеи автоматизации для точности и скорости анализа.
Читать...
🔎 Подборка вакансий для сеньоров
Senior Data Scientist (Recommender Systems)
🟢Python, PyTorch, PySpark, ClickHouse, Jenkins, Airflow, ONNX
🟢от 5 000 до 6 500 € | 3–6 лет
Senior Data Analyst - BI Developer
🟢SQL, Power BI, Python, DataLens, Jupyter
🟢Уровень дохода не указан | 3–6 лет
Senior Data Engineer
🟢SQL, Python, GreenPlum, ClickHouse, Kafka, RabbitMQ, Docker, Kubernetes, Scala, Java
🟢Уровень дохода не указан | более 6 лет
Вебинар по техническому анализу финансовых рынков 📊
Приглашаем Data Scientist’ов, разработчиков и аналитиков данных на бесплатный вебинар 14 мая, начало в 18:00 мск.
🔍 На вебинаре вы научитесь анализировать графики и применять ключевые индикаторы для прогнозирования. Освоите типы графиков, тренды, паттерны и важнейшие технические индикаторы, такие как MA, MACD, RSI и многие другие.
Урок поможет вам повысить точность ваших торговых решений, используя надежные методы анализа.
Запишитесь на открытый урок и получите скидку на большой онлайн-курс «ML для финансового анализа»: https://vk.cc/cLJ4fQ
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👩💻 Задачка по Python
Создайте Python-приложение, которое принимает путь к CSV-файлу с историческими данными о ценах акций (дата, цена закрытия) и предсказывает, будет ли цена акций расти или падать на следующий день, используя простую линейную регрессию. Программа должна выводить прогноз в консоль и сохранять модель в файл model.pkl.
➡️ Пример:
• python app.py predict_stock prices.csv — предсказывает изменение цены акций на следующий день.
Решение задачи ⬇️
import sysЧитать полностью…
import pandas as pd
from sklearn.linear_model import LinearRegression
import pickle
def predict_stock(file):
data = pd.read_csv(file)
X = data.index.values.reshape(-1, 1)
y = data['Close'].values
model = LinearRegression()
model.fit(X, y)
next_day = [[len(X)]]
prediction = model.predict(next_day)
with open('model.pkl', 'wb') as f:
pickle.dump(model, f)
print(f'Прогноз на следующий день: {"Рост" if prediction > y[-1] else "Падение"}')
if __name__ == "__main__":
if len(sys.argv) != 3 or sys.argv[1] != 'predict_stock':
print('Использование: python app.py predict_stock <файл.csv>')
else:
predict_stock(sys.argv[2])
🔎 Подборка вакансий для мидлов
Middle Data Analyst
🟢SQL, Python, Power BI, Tableau, FineBI
🟢Уровень дохода не указан | 1–3 года
Аналитик данных / Data Analyst
🟢SQL, Python, Apache Airflow, Clickhouse, Jupyter, Git, DataLens
🟢от 150 000 до 300 000 ₽ | 3–6 лет
Data Scientist (Ranking&Search)
🟢Python, PySpark, Hive, SQL, PyTorch, CatBoost, Airflow, Docker, Hadoop
🟢Уровень дохода не указан | 3–6 лет
❓ Как обработать пропущенные данные?
Пропущенные данные — частая проблема в Data Science, особенно в реальных данных. Чтобы правильно обработать такие данные, можно использовать стратегии заполнения пропусков (например, средним значением или медианой) или удалить строки/столбцы с пропусками.
➡️ Пример:
import pandas as pd
import numpy as np
data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# Заполнение пропусков средним значением
df['A'].fillna(df['A'].mean(), inplace=True)
print(df)
🗣️ Пропущенные данные могут искажать результаты анализа, поэтому их нужно обрабатывать перед моделированием.Читать полностью…
➡️ Что такое технология TTS, как устроена и каких сферах используется синтез речи
Вместе с Григорием Стерлингом, лидом команды TTS в SberDevices, разбираемся, как устроена технология, как разрабатывают синтезаторы речи и что нужно знать, чтобы работать в этой сфере.
Читать...
👩💻 Линейная регрессия и её регуляризация в Scikit-learn
Линейная регрессия — это метод обучения с учителем, который предсказывает значение y на основе признаков X. Основное допущение — линейная зависимость y от Xi, что позволяет оценить y через математическое выражение.
Читать...
🔥 Самые интересные статьи за последние дни:
• Не бойтесь потоков в Python, они не кусаются
• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM
• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?
• Семантический веб: краткий обзор технологий и инструментов
• Инструмент обеспечения качества данных: от теории к практике
⚙️ Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос
В статье показывают, как HiddenLayer обошли защиту топовых ИИ-моделей с помощью хитрой промт-инъекции и получили доступ к запрещённым темам и внутренним системным промтам.
Читать...
🧩 Строй собственную «библиотеку решений»
Каждый раз искать, как настроить nginx или написать paginated API — это трата энергии.
👉 Совет: собирай свои удачные решения в одном месте: фрагменты кода, полезные настройки, готовые сниппеты. Через пару месяцев ты получишь личную базу готовых решений, которая будет экономить тебе часы работы на каждом проекте.
🤔Машинное обучение и криптография: знакомимся с CipherGAN
В этой статье мы рассмотрим генеративно‑состязательную сеть CipherGAN, используемую для определения базового шифровального отображения по банкам непарного зашифрованного текста и открытого текста.
Читать...
❓ Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии
Как нейросети распознают лица и управляют авто? Всё это благодаря разметчикам данных, которые учат ИИ видеть и понимать мир. Узнайте, сколько они зарабатывают и какие навыки нужны для работы.
Читать...
📂 Мы делимся с вами папкой «IT», в которой собрали статьи с полезными советами от экспертов в сфере IT.
⚙️ Внутри вас ждет:
🟠 Статья "Экономика инференса LLM: локальный vs облако"
🟠 Вайб-кодинг что это ?
🟠 Качество требований в IT-проектах.
🟠 И еще 28 полезные статьи, которые прокачают ваши навыки.
🔗 А мы с вами делимся статьёй: «СЮДА ВСТАВИТЬ ТЕМУ СТАТЬИ / ПОСТА».
✔️ Сохраняйте папку « IT», чтобы быть в курсе всех новостей в мире IT и не только!
⚡️ ПОДПИСАТЬСЯ ⚡️
➡️ Будущее LLM в XS, S, M и других размерах
В статье обсуждаются подходы к обучению ИИ оптимально использовать свои ресурсы: от минимальной мощности для простых задач до максимума для сложных. Разбираем концепции «я не знаю» и запросов помощи.
Читать...
📈 Подборка статей для вашей карьеры
• «Снова упала?» Как поднять самооценку и зачем мы сравниваем себя с другими, даже если от этого больно
• Из учителя в QA: мой путь в IT
• Рынок дата-инженеров и прогноз на 2025
• Как сделать резюме, которое дойдёт до работодателя. Фильтры ATS в 2025 году
• Ошибайся смело: жизненные уроки из мира machine learning
🚀 Правда или нет, что Google победил Cursor?
В статье сравнивают два AI-инструмента для разработки: Firebase Studio от Google и Cursor от Anysphere. Кто круче — облачная платформа или интегрированный редактор?
Читать...
➡️ Самые интересные статьи за последние дни:
• Эксперимент: даём ChatGPT полный доступ к компьютеру
• Правильный путь создания python-библиотеки: от создания до публикации
• Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini
• Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения
• Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито
☁️ Как обучить ИИ в облаке
Сегодня мы хотим поделиться с вами нашим успешным кейсом, который наглядно демонстрирует, как облачные технологии могут значительно улучшить и ускорить процессы разработки и обучения ИИ.
Читать...
🧑🏻💻Как улучшить точность рекомендаций в своих проектах?
На открытом вебинаре 12 мая в 20:00 МСК вы узнаете, как работает обучение ранжированию, что такое функции потерь и как они влияют на качество рекомендаций. Понимание этих функций — ключ к эффективному предсказанию предпочтений пользователей.
Освойте практику на реальных данных с использованием модели BPRMF и получите ценные знания, которые помогут улучшить ваши результаты.
⚡️Присоединяйтесь к открытому уроку и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/BECI8/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxFS5mV
📨 Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ
Сегодня делимся программой для парсинга e-mail с сайтов, созданной за 30 минут с помощью ИИ от Rokitok. Это показывает, как ИИ ускоряет задачи, на которые раньше уходили дни или большие бюджеты.
Читать...
👩💻 Задачка по Python
Создайте Python-приложение, которое принимает набор данных с несколькими признаками и определяет наиболее важные признаки для предсказания целевой переменной с помощью модели RandomForest. Программа должна выводить результаты в виде списка признаков, отсортированных по важности.
➡️ Пример:
• python app.py data.csv — выводит важные признаки.
Решение задачи ⬇️
import pandas as pdЧитать полностью…
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
def feature_importance(file):
data = pd.read_csv(file)
X = data.drop(columns=['target'])
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = RandomForestClassifier()
model.fit(X_train, y_train)
importance = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
print("Важные признаки:\n", importance)
if __name__ == "__main__":
import sys
if len(sys.argv) != 2:
print("Использование: python app.py <файл.csv>")
else:
feature_importance(sys.argv[1])
True Tech Day 2025 — фестиваль технологий для ИТ-специалистов
6 июня в Москве соберутся эксперты из ведущих ИТ-компаний, чтобы обсудить кейсы внедрения ИИ в бигтехах и будущее разработки.
В программе:
— 40+ спикеров и 4 трека докладов об AI&ML, науке, архитектуре, облачных технологиях и бэкенд-разработке;
— большой разговор о трансформации профессий и ИИ-революции;
— взгляд на ИИ со стороны науки и бизнеса: тренды 2025 года;
— опыт применения ИИ от зарубежных ИТ-экспертов;
— нетворкинг и мастер-классы.
Участвуй очно или онлайн, обменивайся опытом и знакомься с ведущими специалистами со всей страны.
Ждем тебя и коллег 6 июня в МТС Live Холл.
Участие бесплатное, но офлайн-места ограничены. Регистрируйтесь по ссылке: https://truetechday.ru/
👩💻 Предсказание цены дома по площади
Напишите модель линейной регрессии, которая будет предсказывать цену дома на основе его площади в квадратных метрах.
Сгенерируйте искусственные данные, обучите модель и сделайте предсказание для нового значения.
Решение задачи🔽
import numpy as npЧитать полностью…
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
# Генерация данных
np.random.seed(0)
area = np.random.randint(30, 150, size=100).reshape(-1, 1) # площадь от 30 до 150 м²
price = area * 1000 + np.random.normal(0, 10000, size=area.shape) # цена с шумом
# Обучение модели
model = LinearRegression()
model.fit(area, price)
# Предсказание
new_area = np.array([[100]])
predicted_price = model.predict(new_area)
print(f"Ожидаемая цена дома 100 м²: {predicted_price[0][0]:,.0f}₽")
# Визуализация
plt.scatter(area, price, label='Данные')
plt.plot(area, model.predict(area), color='red', label='Линейная модель')
plt.xlabel('Площадь (м²)')
plt.ylabel('Цена (₽)')
plt.legend()
plt.show()
⚙️ Бинарная классификация одним простым искусственным нейроном. Личный опыт
Статья о том, как я обучал один простой искусственный нейрон проводить бинарную классификацию линейно-разделимого множества объектов. Рассуждения, результаты, выявленные особенности.
Читать...
🌞 Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
В статье рассказывают, как в Яндексе развивали мультимодальную нейросеть для Алисы: от первых шагов в поиске по картинкам до живого распознавания объектов через камеру
Читать...
❓ Как работает кросс-валидация в ML?
Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.
➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()
scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')
🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.
📈 Подборка статей для вашей карьеры
• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?
• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях
• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы
• Как гуманитарию подойти к IT: из переводчика в технические писатели
• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ
👩💻 Генератор случайных паролей с настройками
Напишите функцию, которая генерирует случайный пароль заданной длины. Пароль должен быть сформирован на основе пользовательских требований:• Использовать ли цифры.• Использовать ли буквы верхнего и/или нижнего регистра.• Использовать ли специальные символы.
➡️ Пример:
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=False)
print(password)
# Пример вывода: A1b2C3d4E5f6
import randomЧитать полностью…
import string
def generate_password(length, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True):
if length < 1:
raise ValueError("Длина пароля должна быть больше 0")
# Формируем набор символов
character_pool = ""
if use_digits:
character_pool += string.digits
if use_uppercase:
character_pool += string.ascii_uppercase
if use_lowercase:
character_pool += string.ascii_lowercase
if use_specials:
character_pool += "!@#$%^&*()-_=+[]{}|;:,.<>?/"
if not character_pool:
raise ValueError("Нужно выбрать хотя бы один тип символов")
# Генерация пароля
return ''.join(random.choice(character_pool) for _ in range(length))
# Пример использования
password = generate_password(length=12, use_digits=True, use_uppercase=True, use_lowercase=True, use_specials=True)
print(password)
Снова радуем вас подборкой самых популярных каналов на тему IT и технологий🤖
В современном мире технологии становятся неотъемлемой частью нашей жизни. В этом посте мы расскажем о ключевых моментах, на которые стоит обратить внимание и представим коллекцию каналов, которые помогут вам оставаться в курсе последних тенденций.
- Технологические достижения
Технологический прогресс стремительно движется вперед. Каждый день мы становимся свидетелями новых прорывов в области IT. Следите за последними новостями и анализами, чтобы понимать, как они могут повлиять на ваш бизнес или личную жизнь.
- Влияние на повседневность
IT делают нашу жизнь проще и удобнее. Персонализированные приложения помогают нам управлять временем, финансами и даже здоровьем. Узнайте, как эти технологии могут улучшить качество вашей жизни и повысить вашу продуктивность.
- Оптимизация бизнеса
Компании по всему миру активно внедряют современные технологии для оптимизации своих процессов. Исследуйте успешные кейсы их использования в различных отраслях и узнайте, как вы можете применить эти решения в своем бизнесе.
- Образование
IT также меняет подход к обучению. Узнайте, как новые технологии помогают студентам и преподавателям достигать лучших результатов и как вы можете использовать их в своем обучении.
- Этические вопросы
С развитием технологий возникают и новые этические вопросы. Как обеспечить безопасность данных пользователей? Как избежать предвзятости алгоритмов? Обсуждение этих тем становится все более актуальным.
- Будущее IT
Технологии продолжают развиваться, и важно следить за новыми трендами. Ознакомьтесь с новыми возможностями и подумайте о том, как они могут изменить ваш бизнес или повседневную жизнь.
Чтобы быть в курсе всех этих изменений подписывайтесь на наши каналы.
Мы собрали лучшие ресурсы, которые помогут вам оставаться на передовой технологических новшеств!
👉 Подписаться на каналы
Следите за новыми трендами в IT! 🌐