Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence) Англоязычный канал по DS и Machinelearning -https://t.me/ds_international По сотрудничеству - @g_abashkin
👩💻 Задачка по Python
Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.
➡️ Пример:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
# Ожидаемый результат: "data"
import reЧитать полностью…
from collections import Counter
def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]
# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))
🔎 Подборка зарубежных вакансий
Team Lead Data Scientist
🟢Python, SQL, Machine Learning, Big Data
🟢от 5 000 до 7 250 $ | более 6 лет
Аналитик данных (Data Analyst)
🟢SQL, Yandex DataLens, Tableau, Power BI
🟢от 150 000 до 200 000 ₽ | 1–3 года
Junior Marketplace Researcher/Team Assistant
🟢Google Sheets, English (basic), Data Analysis
🟢500 $ | Без опыта
🔥 Дообучаем языковую модель GPT2 с помощью Torch
Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.
Читать...
⚙️ Что такое декораторы в Python и как они работают?
Декораторы — это функции в Python, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с добавленным поведением. Это удобный способ модификации или расширения функциональности без изменения исходного кода функции.
➡️ Пример:
# Декоратор для логирования вызовов функции
def log_call(func):
def wrapper(*args, **kwargs):
print(f"Вызов функции {func.__name__} с аргументами: {args}, {kwargs}")
result = func(*args, **kwargs)
print(f"Результат: {result}")
return result
return wrapper
# Применение декоратора
@log_call
def add(a, b):
return a + b
add(3, 5)
🗣️ В этом примере декоратор log_call добавляет логирование вызовов и результатов функции add. Декораторы позволяют делать код более модульным и удобным для повторного использования.
🤖 Новые тренды среди последних LLM
🗓 24 марта в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing».
LLM и трансформерные модели такие как ChatGPT, GPT4, GigaChat стали не только стандартом в области языкового моделирования, но и незаменимыми помощниками для решения огромного числа задач: от написания кода, до генерации сказок.
На вебинаре мы расскажем про последние тренды в этой области: чего уже достигли современные LLM сегодня и что нас ждет в ближайшем будущем.
Данный открытый урок будет особенно интересен:
- IT-специалистам, которые хотят расширить свои знания в Data Science
- Дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов
- Тем кто самостоятельно изучает Data Science
В результате вебинара вы:
- поймете основные технологии за современными LLM сегодня
- узнаете про основные тренды в области больших языковых моделей
- узнаете, что ждет область LLM в ближайшие годы
🔗 Ссылка на регистрацию: https://vk.cc/cJUFSY
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxJXghW
📝 Подборка вакансий для сеньоров
Product Analyst•
SQL, Amplitude, Анализ данных, Веб-аналитика•
от 2 000 $ | более 3 лет
Дата инженер•
Python, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka•
Уровень дохода не указан | от 2–3 лет
Senior Data Scientist в команду ценообразования•
Python, SQL•
Уровень дохода не указан | от 3 лет
🤔 Прогнозирование продаж с использованием библиотеки Prophet
Статья посвящена прогнозированию продаж FTTB-FMC для ежедневной отчетности. Рассматриваются подходы к анализу данных, ключевые KPI и методы, используемые для прогнозирования продаж в сегменте ШПД и конвергентных продуктов.
Читать...
✔️ 30k аудиозаписей: наводим порядок
Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных.
Читать...
📝 Подборка вакансий для мидлов
Скоринг Middle Data Scientist•
Git, Python, базы данных•
Уровень дохода не указан | от 1 года
Data Scientist в команду RecSys (middle)•
Машинное обучение, SQL, Python, PostgreSQL, Git, TensorFlow, ClickHouse, Apache Airflow, Pandas•
Уровень дохода не указан | от 2 лет
Аналитик данных в сфере HR, middle•
SQL, Power BI, анализ данных, математическая статистика•
Уровень дохода не указан | от 2 лет
✔️ Как нейросети меняют работу дизайнеров
Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей.
Читать...
👩💻 Задачка по Python
Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.
➡️ Пример:
python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35
import pandas as pdЧитать полностью…
import sys
if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)
input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]
try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")
Ранее мы обсуждали с вами RoPE, а теперь поговорим о его модификациях. Собрали много интересного, поэтому будет целых три поста по этой теме. Enjoy!
Для начала напомним, что Positional Encoding (кодирование позиций слов/токенов) нужен, чтобы передать модели или трансформеру информацию о позициях слов — относительную или же абсолютную.
🔥 Самые интересные статьи за последние дни:
• Не бойтесь потоков в Python, они не кусаются
• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM
• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?
• Семантический веб: краткий обзор технологий и инструментов
• Инструмент обеспечения качества данных: от теории к практике
⚙️ Умножение троичных матриц для нейросетей
Статья исследует использование троичных значений (-1, 0, 1) в нейросетевых матрицах. Рассматриваются методы хранения тритов с использованием 32-битной арифметики и подходы к их быстрому умножению через оптимизацию памяти.
Читать...
🧩 Работай с кодом, как с историей
Читаешь старый код и не понимаешь, как он дошёл до жизни такой?
👉 Совет: анализируй коммиты, историю изменений и комментарии к задачам. Это поможет понять, почему код стал таким, а не просто принять его как данность. Иногда не код плохой — просто контекст утерян.
📊 ИИ в Крипто-Торговле: Возможен ли Успех?
Статья описывает процесс создания успешных ИИ-моделей для автоматизированной крипто-торговли на ByBit. Рассматриваются три стратегии, их разработка, оптимизация и результаты, превысившие убытки.
Читать...
🧠 Задачи быстрее решаются на бумаге
Залип на архитектуре или не можешь построить логическую цепочку? Иногда монитор — не лучший инструмент.
👉 Совет: возьми ручку и лист. Нарисуй схему, напиши шаги алгоритма, обозначь зависимости. Физическое взаимодействие с задачей включает другие области мозга и часто помогает увидеть то, что ускользает на экране. Старый трюк, который работает всегда.
✔️ Big Data мертвы, да здравствуют Smart Data
Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.
Читать...
⚙️ Инфраструктура для Data-Engineer BI-tools
В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.
Читать...
📈 Подборка статей для вашей карьеры
• Больше чем книга
• Как поставить цель на обучение, чтобы дойти до конца
• Движение вверх: как стать CTO — на примере пяти историй ИТ-директоров
• Найм дизайнеров глазами лида
• Software Architect vs Solution Architect
🚀 Качайте английский за счёт компании для работы в IT!
🌍 Хотите выйти на международный уровень в сфере разработки, аналитики, проектного управления или дата-сайенса?
Яндекс Практикум предлагает курсы, которые помогут уверенно общаться на английском языке в профессиональной среде:
✅ Вместо зубрёжки — симуляции интервью, рабочих созвонов и даже смолтока возле кулера
✅ Вас ждут встречи с иностранными IT‑специалистами и много разговорной практики
✅ Мы взяли за основу опыт работы Яндекса с международными партнёрами, чтобы вы освоили навыки, которые ценят зарубежные работодатели
✅ Поможем эффективно совмещать учёбу с работой
✅ Выдадим сертификат об окончании курса
👉 Курс может оплатить ваш работодатель, заполните форму, расскажем, как это устроено.
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2Vtzqwp8UPz
👩💻 Задачка по Python
Напишите функцию, которая принимает строку и возвращает новую строку, из которой удалены все гласные буквы (a
, e
, i
, o
, u
в любом регистре).
➡️ Пример:
print(remove_vowels("Hello World")) # Ожидаемый результат: "Hll Wrld"
print(remove_vowels("Python is great")) # Ожидаемый результат: "Pythn s grt"
def remove_vowels(s):Читать полностью…
vowels = "aeiouAEIOU"
return ''.join(char for char in s if char not in vowels)
# Пример использования:
print(remove_vowels("Hello World")) # Ожидаемый результат: "Hll Wrld"
print(remove_vowels("Python is great")) # Ожидаемый результат: "Pythn s grt"
🚀 Самая мощная база экспертов в ИИ, бизнесе и IT — доступна уже сейчас!
Знаешь, что ИИ уже генерирует миллиарды долларов в бизнесе, но не каждый эксперт умеет его внедрять так, чтобы это реально работало?
Мы собрали тех, кто умеет:
🤖 ИИ-специалистов, которые делают решения, а не шум
📈 IT-разработчиков, которые не исчезают перед дедлайном
💡 Бизнес-экспертов, которые знают, как масштабироваться
⚡ Забирай доступ: 👉 /channel/addlist/dIy7Hza_1jgzYjFi
💼 Хочешь попасть в этот список? Оставь заявку здесь 👉 @RyabovaM
/channel/addlist/dIy7Hza_1jgzYjFi
👁Настройка dev-окружения для команды компьютерного зрения.
Что будет на вебинаре?
- Аренда и базовая настройка сервера для работы команды.
- Установка и настройка инструментов для ML-экспериментов
- Развертывание сервиса для разметки изображений CVAT.
Узнаете, как арендовать и настроить сервер для командной работы, что позволит им быстро развертывать инфраструктуру для новых проектов.
Научитесь настраивать MLFlow для отслеживания экспериментов, JupiterLab для удобной разработки и MinIO для создания общего файлового хранилища, что упростит совместную работу с датасетами и другими файлами.
Сможете развернуть CVAT для разметки изображений, что пригодится в проектах, связанных с обработкой и анализом изображений, таких как распознавание объектов, сегментация и т.д.
👉 Регистрация и подробности вебинара
https://vk.cc/cJPHvo
Вебинар проходит в рамках подписки OTUS, благодаря которой можно приобрести 3 курса по цене одного!
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
🔎 Подборка вакансий для джунов
Junior Data Analyst
🟢SQL, Python, опыт в медицине
🟢от 1 500 до 2 000 $ | 1–3 года
Data Scientist
🟢GA4, Shopify, ClickFunnels, Klaviyo, Kajabi
🟢от 1 000 до 1 350 $ | 1–3 года
Junior Data Scientist
🟢Python (pandas, numpy, scikit-learn), статистика, комбинаторика
🟢от 70 000 до 100 000 ₽ | 1–3 года
🤖 Как развернуть LLM с помощью vLLM и TorchServe
Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.
Читать...
Команда из финтех-компании Точка разобрала тему позиционного кодирования, чтобы понять, зачем оно нужно и как помогает увеличивать длину контекста в моделях обработки языков. Вопросы о позиционном кодировании часто возникают на собеседованиях по глубокому обучению, поэтому эта информация будет полезна, даже если вы не планируете реализовывать RoPE самостоятельно.
В серии из трёх статей рассматриваются все важные аспекты развития позиционного кодирования, включая RoPE, а также упоминаются такие модели, как BERT и LLM, даже Reddit. Если вас не устраивает текущая длина контекста в языковых моделях или энкодерах, рекомендуем почитать и попробовать внедрить предложенные решения.
Если вам интересны анализ инструментов, обзоры фреймворков и краткие изложения статей, подписывайтесь на канал Точки .ml!
👩💻 Задачка по Python
Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений.
➡️ Пример:
feature1 feature2 feature3
0 1.0 10.0 NaN
1 2.0 NaN NaN
2 NaN 30.0 NaN
3 4.0 40.0 NaN
feature1 feature2 feature3
0 1.00 10.0 NaN
1 2.00 26.7 NaN
2 2.33 30.0 NaN
3 4.00 40.0 NaN
import pandas as pdЧитать полностью…
def fill_missing_with_mean(df):
numeric_columns = df.select_dtypes(include=['float', 'int'])
for column in numeric_columns:
if df[column].notna().any(): # Проверяем, есть ли значения не NaN
df[column] = df[column].fillna(df[column].mean())
return df
# Пример использования:
data = pd.DataFrame({
'feature1': [1.0, 2.0, None, 4.0],
'feature2': [10.0, None, 30.0, 40.0],
'feature3': [None, None, None, None]
})
result = fill_missing_with_mean(data)
print(result)
🔎 Подборка зарубежных вакансий
ML Engineer / AI Data Scientist (AI Intent Marketing)
🟢Python, Trino/Spark
🟢от 3 000 до 7 000 $ | более 6 лет
Game Data Analyst
🟢SQL, Python, R
🟢Уровень дохода не указан | 1–3 года
Data Engineer
🟢AirFlow, Python, Linux
🟢Уровень дохода не указан | 3–6 лет
🖥 Руководство по созданию приложения для поиска данных на основе агента GraphRAG
Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс.
Читать...