Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
🤖 Обзор 4 новых инструментов AI для программирования: v0, Bolt.new, Cursor, Windsurf
Обзор четырёх инструментов для разработчиков: v0, Bolt.new, Cursor и Windsurf. Сравнение функций, сценариев использования и цен поможет выбрать подходящее решение для повышения продуктивности и оптимизации процессов.
Читать...
🔎 Подборка зарубежных вакансий
Data Scientist | Data Analyst
🟢Python, SQL, Power BI, AI (GPT, AutoGPT, Langchain), DWH, BigQuery, Snowflake, Redshift
🟢от 2 000 $ на руки | 1–3 года
Marketing Analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API
🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года
Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет
🔎 Подборка вакансий для лидов
AI Data Group Lead
🟢Python, TensorFlow, PyTorch, Scikit-learn, Oracle DWH, Hadoop, SQL, Jupyter, Pandas, Matplotlib
🟢Уровень дохода не указан | 1–3 года
Team Lead Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢Уровень дохода не указан | Более 6 лет
Team Lead Data Analyst
🟢SQL, Python, ClickHouse, Power BI, Redash, Superset, Metabase, dbt, Airflow
🟢от 300 000 до 450 000 ₽ на руки | 3–6 лет
⚙️ Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?
PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.
➡️ Пример:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
# Загрузка данных
data = load_iris()
X = data.data
# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print(X_pca[:5]) # Преобразованные данные
🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.
Весь декабрь в Яндекс Образовании посвящают математическим наукам — специально ко дню математика вместе с факультетом компьютерных наук НИУ ВШЭ запустили хендбук.
Это бесплатный онлайн-учебник по математике для увлеченных IT — с квизами, самостоятельными заданиями, примерами кода. Пригодится всем, кто хочет к новому году подтянуть знания для аналитики, машинного и глубинного обучения.
Первая глава посвящена графам, с помощью которых можно описать все вокруг — от сети друзей ВКонтакте до связи между философскими концепциями. А еще решать реальные задачи бизнеса. Например, строить оптимальные маршруты перевозок.
🔎 Подборка вакансий для сеньоров
Senior Data Engineer (MedTech)
🟢Python, SQL, Java, ETL, Docker, Kubernetes, Redshift, BigQuery
🟢до 350 000 ₽ на руки | 3–6 лет
Data Architect (MedTech)
🟢SQL, ETL, PostgreSQL, Docker, Kubernetes, Data Warehousing, BI, Agile
🟢до 450 000 ₽ на руки | Более 6 лет
Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет
Senior Python Dev (AI, Big Data, LLM)
🟢Python, Big Data, ClickHouse, Time Series Analysis, Golang, AI, LLM, WebSocket
🟢от 3 000 $ до вычета налогов | 3–6 лет
Как FELIX экономит время на подготовке фич? И при чём здесь LLM?
Об этом рассказали ребята из финтеха Точка в своём канале .ml
Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂
Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +
Data Science повсюду🙌
Лента рекомендаций в соцсетях, плейлист с треками под ваш вкус в стриминговом сервисе и умные голосовые помощники — всё это результат работы Data Scientist. Специалист решает бизнес-задачи с помощью данных.
Освоить востребованную и высокооплачиваемую IT-профессию с нуля можно на курсе «Data Scientist». В программе много практики: бизнес-игры, хакатоны, соревнования Kaggle, прожарки и конкурсы от партнёров. 20+ проектов можно добавить в портфолио и искать работу уже через 5 месяцев занятий.
В программе 3 траектории обучения:
1. Базовая — для быстрого старта в профессии.
2. Расширенная — для углублённой работы с нейросетями и big data.
3. Продвинутая — для специализации в медицине или промышленности.
Сейчас программу можно освоить выгоднее — повышенная скидка 45% действует по промокоду BIGDATA45.
Начинайте обучение и становитесь перспективным IT-специалистом
Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5yeddTW
➡️ Google представила ИИ-генератор видео Veo 2.0: лучше ли, чем Sora и как получить доступ
Google выпустила Veo 2.0 — ИИ-модель для генерации видео с улучшенным разрешением 4K, контролем камеры и лучшим качеством. Вопрос: лучше ли она, чем Sora от OpenAI?
Читать...
⚙️ Что такое модуль datetime
в Python и зачем он используется?
Модуль datetime
позволяет работать с датами и временем, включая их создание, форматирование и вычисление разницы между ними. Это полезно для задач, связанных с обработкой временных данных.
➡️ Пример:
from datetime import datetime, timedelta
# Текущая дата и время
now = datetime.now()
print("Сейчас:", now)
# Добавляем 7 дней к текущей дате
future_date = now + timedelta(days=7)
print("Через неделю:", future_date.strftime("%Y-%m-%d"))
🗣️ В этом примере datetime.now() получает текущую дату и время, а timedelta позволяет прибавить 7 дней. Метод strftime() форматирует дату в читаемый строковый формат.
Как просто верстать отчёты в PowerBI и не страдать?
На бесплатном вебинаре расскажет Мария Гришина - ведущий BI аналитик в ООО Салаир (РЖД) и автор телеграмм-канала «Power BI Design» создаст отчёт, который будет не только ровным, но и сочным, а главное — удобным для восприятия!
Что будет на вебинаре:
- раскроем секреты грамотной верстки
- поделимся полезными приёмами и лайфхаками
- узнаем, как правильно расставлять акценты, использовать цветовые схемы и шрифты так, чтобы ваши отчёты вызывали восторг у коллег и руководства.
🕗 Встречаемся 17 декабря в 19:00 по мск
Зарегистрироваться на вебинар
👩💻 Поиск подстроки в строках файла
Напишите функцию, которая принимает путь к текстовому файлу и строку для поиска, а затем выводит все строки файла, содержащие эту строку (игнорируя регистр). Если совпадений нет, функция должна вывести сообщение об отсутствии результатов.
Пример:
search_in_file('example.txt', 'python')
•
Если в example.txt
есть строки, содержащие слово "python" (в любом регистре), они будут напечатаны.def search_in_file(file_path, query):Читать полностью…
query_lower = query.lower()
found = False
with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
if query_lower in line.lower():
print(line.strip())
found = True
if not found:
print("Ничего не найдено.")
# Пример использования
# search_in_file('example.txt', 'python')
🤔 Правда ли, что развитие ИИ замедлилось?
Масштабирование ИИ-систем долго считалось ключом к их развитию. Однако последние отчёты ставят это под сомнение: ROI от увеличения мощности снижается, а гипотеза «чем больше, тем лучше» теряет актуальность.
Читать...
👩💻 Классификация данных с использованием k-Nearest Neighbors (kNN)
Напишите функцию на Python, которая принимает обучающий набор данных, тестовый набор данных и значение 𝑘, а затем использует алгоритм k-ближайших соседей (kNN) для классификации тестовых данных. Функция должна возвращать предсказанные метки для тестового набора данных.
Пример:
import numpy as np
X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])
predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]
from sklearn.neighbors import KNeighborsClassifierЧитать полностью…
def knn_classification(X_train, y_train, X_test, k=3):
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)
return model.predict(X_test)
# Пример использования:
import numpy as np
X_train = np.array([[1, 2], [2, 3], [3, 4], [5, 5]])
y_train = np.array([0, 0, 1, 1])
X_test = np.array([[2, 2], [4, 4]])
predictions = knn_classification(X_train, y_train, X_test, k=3)
print(predictions) # Ожидаемый результат: [0, 1]
🔎 Подборка зарубежных вакансий
Data Analyst
🟢Excel, Google Sheets, Power BI, Python, SQL, API
🟢от 1 400 до 1 600 $ до вычета налогов | 1–3 года
Head of Data Insight and Partnership (Game Dev)
🟢Research, Insights, Media Relations, Английский C1
🟢до 6 000 $ до вычета налогов | Более 6 лет
Senior Machine Learning Engineer
🟢Python, C++, R, TensorFlow, NumPy, SciPy, Pandas, MongoDB, Elastic, Hadoop, ClickHouse, Ansible, Shell Scripting, Chef
🟢от 5 500 до 7 000 € до вычета налогов | Более 6 лет
DevOps Engineer/Infrastructure Engineer
🟢Linux, Python, Docker, Kubernetes, Bash, CI/CD, Zabbix, C++, MacOS, OSI
🟢от 4 500 до 5 700 $ на руки | 3–6 лет
Новогодний коллаб Cloud.ru х Самокат
Cloud․ru — это провайдер облачных сервисов и AI-технологий, который делает доступ к облакам и искусственному интеллекту простым и удобным. Компания заботится о клиентах во всех аспектах: от сохранности их инфраструктуры в облаке до предоставления простых и удобных сервисов.
Cloud․ru вместе с Самокатом позаботились о здоровом перекусе айтишников. Для этого создали специальный снек-бокс, который до 31.12 получат 22 000 счастливчиков в Москве и Питере вместе со своими заказами. А для всех пользователей Самоката заботливо собрали подборку быстрых перекусов. Переходите по ссылке и по промокоду CLOUDRU вы получите скидку 100 рублей при заказе товаров из подборки от 500 рублей.
Реклама. ООО "Умный ритейл", ИНН 7811657720. erid: 2VtzqwfLH2r
🤔 Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели
В статье предлагается протестировать новую модель o1 в режиме pro, сравнить её с ChatGPT o1 и ChatGPT 4o. Разберёмся, насколько она оправдывает свою стоимость и как показывает себя на практике.
Читать...
Большая языковая модель от MTS AI выйдет уже в первом квартале 2025 года. О завершении бета-теста нейронки упомянул председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.
Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач.
В открытом доступе модель появится в начале 2025 года.
🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году
Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
Читать...
📈 Подборка статей для вашей карьеры
• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?
• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях
• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы
• Как гуманитарию подойти к IT: из переводчика в технические писатели
• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ
Как LLM могут помочь в классическом ML?
По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.
Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:
✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
🤖 Возможности LLM и RAG на примере реализации бота для поддержки клиентов
Техподдержка — важный контакт с клиентами, но небольшие отделы не всегда справляются с нагрузкой. В статье обсуждаются чат-боты и нейросети (LLM и RAG) для автоматизации процессов и улучшения работы поддержки.
Читать...
👩💻 Конвертер CSV в JSON
Напишите скрипт, который принимает путь к файлу CSV, конвертирует его содержимое в формат JSON и сохраняет результат в новый файл с тем же именем, но с расширением .json.
Пример:
id,name,age
1,Alice,30
2,Bob,25
3,Charlie,35
python csv_to_json.py data.csv
[
{"id": "1", "name": "Alice", "age": "30"},
{"id": "2", "name": "Bob", "age": "25"},
{"id": "3", "name": "Charlie", "age": "35"}
]
import csvЧитать полностью…
import json
import sys
import os
def csv_to_json(csv_file_path):
try:
json_file_path = os.path.splitext(csv_file_path)[0] + ".json"
with open(csv_file_path, 'r', encoding='utf-8') as csv_file:
reader = csv.DictReader(csv_file)
data = [row for row in reader]
with open(json_file_path, 'w', encoding='utf-8') as json_file:
json.dump(data, json_file, indent=4, ensure_ascii=False)
print(f"Файл успешно конвертирован: {json_file_path}")
except FileNotFoundError:
print(f"Ошибка: Файл {csv_file_path} не найден.")
except Exception as e:
print(f"Ошибка: {e}")
# Пример использования:
if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python csv_to_json.py <путь_к_csv>")
else:
csv_to_json(sys.argv[1])
📝 Подборка вакансий для мидлов
Data-аналитик•
Python, SQL, Apache Hadoop, Kubernetes, Docker•
Уровень дохода не указан | 1–3 года
Data-инженер•
Python, Greenplum, Apache Airflow, Apache Spark, ETL, Apache Hadoop, Linux, PostgreSQL, Kubernetes, SQL•
Уровень дохода не указан | 1–3 года
Data Scientist•
Python, pandas, NumPy, scikit-learn, matplotlib, SQL, Hadoop, PySpark, BitBucket, Jira, Agile•
Уровень дохода не указан | 3–6 лет
➡️ Лучшие крупные языковые модели в ноябре 2024 г
В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.
Читать...
🔎 Подборка вакансий для джунов
Младший специалист отдела разработки (Python) / Специалист по парсингу данных
🟢Python, Django, Celery, Linux, PostgreSQL, Git
🟢от 70 000 ₽ на руки | 1–3 года
Младший Python-разработчик (FastAPI)
🟢Python, FastAPI, SQL, Git, Docker, Redis, Celery
🟢до 100 000 ₽ на руки | 1–3 года
Junior Аналитик данных
🟢SQL, Metabase, Python (pandas, NumPy), A/B тесты
🟢от 150 000 до 250 000 ₸ на руки | 1–3 года
Продуктовый аналитик / Data Analyst (junior)
🟢Python, SQL, Amplitude, Анализ данных, Английский язык
🟢до 800 $ до вычета налогов | 1–3 года
BI-аналитик (junior)
🟢SQL, Python, Metabase, MySQL, Airflow, DBT, Yandex.Metrica, ClickHouse
🟢от 80 000 ₽ на руки | Без опыта
❓ Знаете, что делает код на C++ мощным? Правильная работа с библиотеками!
👉 Если вы хотите стать востребованным C++ разработчиком, пора прокачивать навыки работы с библиотеками. Это ваш ключ к написанию профессионального и оптимизированного кода!
Что вас ждет на открытом уроке:
- узнаете, какие бывают библиотеки и чем они отличаются;
- научитесь подключать сторонние библиотеки и собирать свои;
- поймете, как библиотеки упрощают вашу работу и делают код эффективнее.
⭐️ Спикер Денис Злобин — старший инженер-программист в Astra Linux, опытный наставник разработчиков.
⏰ 18 декабря в 20:00 мск. Для начинающих и Junior-разработчиков, готовых к карьерному росту. Вебинар проходит в преддверии старта курса «C++ Developer», участники урока получат скидку на большое обучение.
👉 Для участия зарегистрируйтесь: https://vk.cc/cG5lzl
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
🔥 Самые интересные статьи за последние дни:
• Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь
• Сбер выкладывает GigaChat Lite в открытый доступ
• История YOLO – самой известной архитектуры компьютерного зрения
• Магия простоты: как мы улучшили отображение общественного транспорта на карте
• Обучение и fine-tuning моделей простым языком: зачем, как, где
⚙️ Запускаем 8B LLM в браузере: AQLM.rs
Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.
Читать...
🔗 Технический долг? Закрывай его по «принципу кафе»
Технический долг копится, как грязная посуда в раковине. Кажется, что решишь его «когда-нибудь», но это «когда-нибудь» не наступает.
👉 Совет: применяй «принцип кафе» — каждый раз, когда работаешь с файлом или модулем, оставь его в лучшем состоянии, чем нашёл. Понемногу рефакторь, добавляй комментарии или улучшай структуру. В итоге долг будет сокращаться без больших затрат времени.