Telegram-канал sqlhub - Data Science. SQL hub: Unsorted - каталог телеграмм

sqlhub | Unsorted

Subscribe to a channel

Telegram-канал sqlhub - Data Science. SQL hub

36043

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo

Subscribe to a channel

Data Science. SQL hub

27 February 2026 09:00

Как правильно установить и использовать браузер в Linux.

Если браузер работает медленно или ломается после обновлений - проблема часто не в Linux, а в установке. Многие ставят браузер из случайных источников или вручную скачивают архивы, из-за чего нет автообновлений, слетают зависимости и появляются ошибки.

Правильный подход - устанавливать браузер из официального репозитория или через пакетный менеджер системы. Тогда вы получаете:
• автоматические обновления безопасности
• корректные зависимости
• стабильную работу
• удобный запуск из системы

Для примера установим Google Chrome официальным способом.


Установка Google Chrome (Ubuntu / Debian)
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo apt install -y ./google-chrome-stable_current_amd64.deb

Запуск браузера
google-chrome

Обновление системы (включая браузер)
sudo apt update && sudo apt upgrade -y

Проверка версии
google-chrome --version

Читать полностью…

Data Science. SQL hub

26 February 2026 14:04

📊 Real-time SQL Traffic Viewer

sql-tap — это прокси-демон, который перехватывает SQL-запросы между вашим приложением и базой данных (PostgreSQL или MySQL), отображая их в интерактивном терминальном интерфейсе. Позволяет анализировать запросы и транзакции без изменения кода приложения.

🚀Основные моменты:
- Перехват SQL-запросов в реальном времени
- Поддержка PostgreSQL и MySQL
- Интерактивный интерфейс для анализа запросов
- Возможность использования EXPLAIN для оптимизации запросов

📌 GitHub: https://github.com/mickamy/sql-tap

#go

Читать полностью…

Data Science. SQL hub

24 February 2026 09:13

🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

Читать полностью…

Data Science. SQL hub

23 February 2026 13:01

🎯Продвинутая миграция в SQL, которая спасает продакшен от падения

Самая частая проблема при миграциях - блокировки.

Обычный CREATE INDEX или ALTER TABLE на большой таблице может:
остановить записи
заморозить сервис
создать очередь запросов
и положить базу.

Продвинутый подход - выполнять изменения без блокировки.

В PostgreSQL для этого есть режим CONCURRENTLY.

Он создаёт индекс в фоне,
не блокирует INSERT и UPDATE,
и позволяет делать миграции без даунтайма.

Если таблица большая - это не оптимизация.
Это обязательная практика.

-- Создание индекса без блокировки таблицы
CREATE INDEX CONCURRENTLY idx_payments_user_id
ON payments(user_id);

-- Удаление индекса без блокировки
DROP INDEX CONCURRENTLY idx_payments_user_id;

Читать полностью…

Data Science. SQL hub

19 February 2026 10:03

📌 EXISTS РАБОТАЕТ БЫСТРЕЕ COUNT

SQL-совет: перестаньте считать всё через COUNT(*)

Многие пишут так:

SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

Чтобы проверить — есть ли записи.

Проблема:
COUNT(*) считает все строки, даже если нужна просто проверка существования.
На больших таблицах это лишняя нагрузка и медленный запрос.

Правильнее использовать EXISTS.

Почему это лучше:
- База останавливается на первой найденной строке
- Меньше чтения данных
- Быстрее на больших таблицах
- Использует индексы эффективнее

Пример:


-- Плохо
SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

-- Хорошо
SELECT EXISTS (
    SELECT 1
    FROM orders
    WHERE user_id = 123
);

-- Или в условии
SELECT *
FROM users u
WHERE EXISTS (
    SELECT 1
    FROM orders o
    WHERE o.user_id = u.id
);

Читать полностью…

Data Science. SQL hub

18 February 2026 14:03

📌 UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприятием и управлением интерфейсом.

Что это и зачем:

🤖 AI-агент, который видит и кликает
Проект основан на модели UI-TARS (User Interface — Task Automation & Reasoning System). Агент реально *видит экран*, распознаёт элементы интерфейса и может управлять мышью, клавиатурой и браузером по простым естественным командам.

🖥️ Контроль компьютера на естественном языке
Вместо интеграций через API вы пишете команды, а модель сама ищет кнопки, поля ввода и прочие UI-элементы, затем *выполняет действия*. Это работает с приложениями, браузером и элементами рабочего стола.

⚙️ Open-source и кросс-платформа
Проект распространяется под Apache-лицензией, есть релизы, активная история версий и документация для запуска на Windows и macOS. :

📦 Цели проекта
UI-TARS-desktop — это не просто демонстрация: это полноценный мультимодальный AI-агентный стек, который можно использовать для автоматизации повседневных задач без ручного вмешательства.

Страница репозитория: github.com/bytedance/UI-TARS-desktop

Читать полностью…

Data Science. SQL hub

18 February 2026 09:01

Импортозамещение СУБД: как не прогадать и выбрать подходящую отечественную платформу?

При миграции на российскую СУБД очень важно выбрать решение, которое не просто подходит по определенным критериям, а действительно впишется в вашу инфраструктуру и не подведет в долгосрочной перспективе.

Команда K2Тех поучаствовала в исследовании рынка СУБД, организованном аналитическим порталом «ИТ-инфраструктура». На портале вы найдете таблицы сравнения ключевых отечественных СУБД по 30+ критически важным параметрам, в том числе:
• Надежность и High Availability
• Производительность
• Управление и мониторинг
• Особенности эксплуатации

Таблицы позволят сопоставить решения по архитектурным и эксплуатационным характеристикам и станут основой для технической оценки перед пилотом.
🔗 Получите доступ к материалам портала «ИТ-инфраструктура» для первичного анализа решений по ссылке

Читать полностью…

Data Science. SQL hub

17 February 2026 11:00

Oracle на самом деле ушел из России? И может ли PostgreSQL заменить его в корпоративных системах? Обсуждаем в первом выпуске подкаста «Слон в IT-лавке» с генеральным директором Postgres Professional Иваном Панченко и Марком Ривкиным.

Марк много лет работал в Oracle и был одним из авторов внутреннего документа «Почему PostgreSQL никогда не заменит Oracle». Сейчас он руководит отделом технического консалтинга Postgres Professional.

Postgres Professional — российская компания-разработчик СУБД Postgres Pro и решений на базе PostgreSQL для бизнеса и государства.

В подкасте:

Разберем, что изменилось после ухода Oracle: офис, техподдержка и облачные сервисы, и почему Oracle как СУБД продолжает жить в ряде компаний.

Обсудим, когда PostgreSQL и Postgres Pro могут заменить Oracle, а когда все упирается в масштаб, архитектуру и требования к системе.

Поговорим про зависимость от Oracle и про переход на PostgreSQL и Postgres Pro. Коротко пройдемся по этапам миграции и местам, где чаще всего возникают сложности.

За час узнаете, что именно Oracle обрубил в России, где он все еще незаменим и почему. И услышите взгляд человека, который много лет продвигал Oracle, а теперь помогает компаниям переходить на Postgres Pro.

Смотрите подкаст на VK Видео.

Реклама ООО «ППГ» Инн: 7707083893 Erid: 2VtzqvsViVa

Читать полностью…

Data Science. SQL hub

16 February 2026 19:00

Последний шанс подать доклад на PGConf.Russia 2026

Прием заявок закрывается уже сегодня!

Если хотите выступить на PGConf.Russia 2026 — присылайте тему и тезисы: программный комитет рассмотрит заявку, свяжется с вами и поможет подготовиться.

🐘 PGConf.Russia 2026 — крупнейшая российская конференция по PostgreSQL и решениям на ее основе, главная встреча сообщества в России.

📍 23-24 марта, онлайн и офлайн в Москве: обсудим новые фичи СУБД, обменяемся практикой, идеями и опытом эксплуатации. Будут доклады ведущих российских специалистов, практические мастер-классы и демо-стенды разработчиков Postgres Pro.

Будет более 40 докладов на разные темы:

✔️ Новости PostgreSQL

✔️ Оптимизация запросов, мониторинг, отказоустойчивость и безопасность

✔️ Облегченная миграция с Oracle, Microsoft SQL Server и других систем

✔️ Искусственный интеллект в СУБД

✔️ Масштабируемость, шардирование и секционирование

✔️ Совместимость PostgreSQL с другим ПО

✔️ И другие темы

Подайте доклад до 16 февраля: поделитесь опытом и сделайте вклад в сообщество.

Если не планируете выступать, а хотите прийти послушать — регистрируйтесь до 28 февраля со скидкой 15%.

Реклама ООО «ППГ» Инн: 7707083893 Erid: 2Vtzqw9iCtU

Читать полностью…

Data Science. SQL hub

16 February 2026 10:02

🌟 Zvec: встраиваемая векторная база данных для RAG без внешних сервисов.

Alibaba открыла исходный код Zvec - встраиваемой векторной СУБД, которую авторы называют «SQLite для векторных баз данных».

Проект заточен на локальные RAG-пайплайны, семантический поиск и агентские сценарии на ноутбуках, мобильных устройствах или другом edge-железе.

Идея в том, что разворачивать отдельный сервер ради векторного поиска и фильтрации по метаданным избыточно. Zvec встраивается в процесс Python-приложения и не требует ни отдельного демона, ни сетевых вызовов.

Существующие решения не подходят для маломощных устройств: Faiss дает только ANN-индекс без скалярного хранилища и крэш-рекавери; DuckDB-VSS ограничен в опциях индексирования; Milvus и облачные векторные хранилища требуют сеть.

Под капотом - Proxima, векторный движок продакшен-уровня, который Alibaba сама использует в собственных сервисах. Поверх него сделали лаконичный Python API:

🟢полный CRUD и поддержка схем;

🟢поиск по нескольким векторам для комбинации разных эмбеддинг-моделей;

🟢встроенный реранкер с weighted и RRF;

🟢гибридный поиск (векторный + фильтры по скалярным полям) с инвертированными индексами.

Это позволяет собирать локальных ассистентов, которые одновременно используют семантический поиск, множественную фильтрацию и несколько эмбеддинг-моделей - все в одном движке.

По производительности Zvec заявляет победу на бенче VectorDBBench с датасетом Cohere 10M - более 8 000 QPS при сопоставимом реколле. Это вдвое больше, чем у лидера ZillizCloud и с более быстрым построением индекса.

Авторы объясняют успех глубокой оптимизацией под CPU: SIMD, кэш-эффективные структуры, многопоточность и prefetching.

Пока платформенная поддержка ограничена (Windows отсутствует), но для Linux x86/ARM64 и macOS Zvec уже готов к экспериментам на Python 3.10–3.12.

📌Лицензирование: Apache 2.0 License.

🟡Статья
🟡Документация
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #VDB #ZVEC #Alibaba

Читать полностью…

Data Science. SQL hub

13 February 2026 15:03

Мошенники использовали данные ФССП для незаконного взыскания долга: разбор схемы🧐

Специалисты вскрыли изощренную схему, где преступники, используя технологии социальной инженерии, представились судебными приставами.
Цель — запугать жертву и вынудить к «срочному» платежу.
В ходе расследования был детально разобран случай, когда сотрудник компании-клиента получил SMS от «пристава» с угрозой немедленного ареста имущества за долг родственницы.

Злоумышленники, владея информацией о реальных сотрудниках ФССП и процедурах, создали психологическое давление. Жертве передавалась ссылка на оплату, ведущая на поддомен сайта МФО.

Эксперты Securizor провели цифровую верификацию, оперативно выявили предлог совместно с настоящими приставами и установили связь мошенников с коллекторами.
Данный кейс — не просто история о мошенничестве. Он демонстрирует важность социальной инженерии как инструмента кибератаки и необходимость проактивного аудита информационной безопасности для сотрудников.
❗️Читайте полный разбор расследования по ссылке

Реклама. ООО "Секьюризор", ОРГН 1247700543694
Erid: 2W5zFFzBkTs

Читать полностью…

Data Science. SQL hub

13 February 2026 09:03

🖥 Новый курс на Stepik - PostgreSQL для разработчиков: от основ к созданию API

Здесь на пальцах объясняют не только как писать SQL-запросы, а строить настоящие backend-сервисы с базой данных как у профи.

В этом курсе ты шаг за шагом создашь REST API на FastAPI + PostgreSQL:
от установки среды и первых таблиц - до масштабируемого приложения с безопасностью и CRUD-операциями.

🔹 На практике разберете:
• SQL-запросы, фильтры, агрегаты и подзапросы
• Связи между таблицами и нормализацию БД
• Взаимодействие Python и PostgreSQL
• Реализацию REST API и подключение базы
• Оптимизацию и разбор реальных задач с собеседований

⚡ После курса у вас будет свой работающий API-проект и реальные навыки работы с PostgreSQL в продакшене.

🎁 Торопись пока действует скидка в честь нвого года!

🚀 Прокачаю свои знания: https://stepik.org/course/255542/

Читать полностью…

Data Science. SQL hub

10 February 2026 08:31

🚨 Когда пайплайнов становится больше одного, ручные скрипты и cron перестают работать. Ошибки теряются, зависимости ломаются, контроль исчезает.

🚀 На открытом вебинаре разберём оркестрацию data-pipelines с помощью Prefect — современного инструмента для управления ETL-процессами, мониторинга и автоматизации. Покажем, как устроен оркестратор изнутри, чем Prefect отличается от классических решений и в каких сценариях он действительно оправдан. Вы увидите создание flow, настройку расписаний, деплой и управление задачами через Prefect UI.

🦾 После урока у вас будет чёткое понимание, как внедрять Prefect в существующую инфраструктуру, контролировать выполнение пайплайнов и масштабировать процессы без хаоса.

📅Встречаемся 18 февраля в 18:00 МСК в преддверии старта курса «Data Engineer». Регистрация открыта: https://otus.pw/8e01/?erid=2W5zFHfwisS

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Data Science. SQL hub

09 February 2026 07:35

🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

Читать полностью…

Data Science. SQL hub

07 February 2026 13:13

💨 Тормозят SQL-запросы и дашборды? Освободите своё время и нервы!

Устали каждый раз пить кофе, пока выполняется запрос? Раздражает, когда дашборд висит на последнем проценте загрузки? Пора это прекратить!

Приглашаем вас на практический вебинар «Аналитика без тормозов» 11 февраля в 19:00.
Мы разберем, как радикально ускорить вашу работу.

На вебинаре вы:

🔸 Узнаете об эффективных подходах — от тактических SQL-приёмов до стратегических архитектурных решений.
🔸 Разберёте конкретные методы, применимые к любой СУБД, и тонкие нюансы оптимизации.
🔸 Получите готовый набор фишек для ускорения запросов и витрин уже на следующий день.

Проведет вебинар Георгий Семенов, руководитель команды Analytics Engineering в Яндексе. Его опыт (VK, Wildberries, ЦУМ, ВТБ) и 14 лет в управлении IT-проектами — это концентрат практических знаний без воды.

Все участники получат в подарок практический урок из курса SQL Pro про оптимизацию запросов — навсегда.

Ускорьте свою аналитику одним кликом: simulative.ru/web-sql-speedup

Читать полностью…

Data Science. SQL hub

27 February 2026 08:00

Устали от бесконечных миграций схемы под каждый новый атрибут в логах? Выбираете между скоростью запросов и гибкостью хранения динамических JSON?

На живом примере разберем стратегии работы с полуструктурированными данными в ClickHouse:

✅Schema-on-Read vs Schema-on-Write: Когда и какой подход выбрать для баланса скорости, гибкости и стоимости.
✅Гибридные модели и Native JSON: Практическое использование современных возможностей ClickHouse.
✅Настройка и типичные запросы: Пишем DDL и сравниваем производительность разных подходов на реальных данных.

Спикер — Никита Елисеев, Senior Data Engineer. Узнайте из первых рук, как строить эффективные решения, а не костыли.

Зарегистрируйтесь, чтобы получить работающие решения и перестать «ломать» данные под базу: регистрация

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Data Science. SQL hub

24 February 2026 11:13

Создатель Linux
— обычный стол, минимум техники, ничего лишнего.

Обычный «тех-бро»
— три монитора, RGB, мощный ПК, студийный свет, полный сетап.

Иногда разница между «легендой» и «тех-инфлюенсером» - не в железе, а в том, что у тебя в голове.

Читать полностью…

Data Science. SQL hub

24 February 2026 06:39

DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC).

И рынок уже нервничает.

NASDAQ находится под давлением — инвесторы закладывают сценарий, при котором новый релиз может резко усилить конкуренцию и изменить расклад в AI-индустрии.

Почему такая реакция?

DeepSeek V4, по слухам, должен стать серьёзным скачком вперёд:
- более сильное reasoning
- лучшая эффективность
- более низкая стоимость

Если это подтвердится, давление на американские AI-компании и их оценки может усилиться.

Контекст становится ещё интереснее на фоне недавнего заявления Anthropic, где компания сообщила о масштабных попытках distillation через API.

Во времени это выглядит как совпадение:
- готовится крупный релиз DeepSeek
- рынок нервничает
- и одновременно звучат обвинения в копировании возможностей моделей

Если V4 действительно окажется сильным, это может означать новую фазу AI-гонки.

Ответ узнаем очень скоро.

Следующий релиз может повлиять не только на технологии -
но и на рынок.

https://www.cnbc.com/2026/02/23/deepseek-to-release-new-ai-model-a-rough-period-for-nasdaq-stocks-could-follow.html

Читать полностью…

Data Science. SQL hub

21 February 2026 13:02

В Python 3.14 появилось решение, которое помогает избавиться от SQL-инъекций - t-strings 🔒

Проблема

Когда вы используете f-strings для SQL:


query = f"SELECT * FROM users WHERE name = '{user_input}'"

пользовательский ввод напрямую попадает в запрос.

Если злоумышленник передаст:


admin'; DROP TABLE users; --

— база выполнит вредоносную команду.

Это классическая SQL injection.

Почему это неудобно сейчас

Безопасный способ — параметризованные запросы:


cursor.execute(
    "SELECT * FROM users WHERE name = %s",
    (user_input,)
)

Но приходится:

• запускать шаблон отдельно
• передавать значения отдельно
• поддерживать две структуры

Что изменилось в Python 3.14

Появились template string literals (t-strings).

В отличие от f-strings, они:

• не возвращают готовую строку

• возвращают объект Template

• отдельно хранят текст и подставленные значения

Пример:


query = t"SELECT * FROM users WHERE name = {user_input}"

Теперь можно:

• получить все интерполяции
• проверить значения
• экранировать или валидировать их
• и только потом собрать финальный SQL


safe = safe_sql(query)

Результат:

• вредоносный ввод очищается
• SQL-инъекции блокируются
• таблицы остаются на месте

Почему это важно

f-strings - быстрые, но опасные для SQL.

t-strings позволяют сохранить удобство шаблонов и добавить контроль безопасности.

Python движется к безопасным шаблонам по умолчанию, меньше ручной защиты, меньше уязвимостей в продакшене.

Читать полностью…

Data Science. SQL hub

19 February 2026 08:02

Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙

Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).

Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.

Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion!

➡ Не пропустите, регистрируйтесь.

*Data Fusion — Объединение данных
Информация о рекламодателе

Читать полностью…

Data Science. SQL hub

18 February 2026 11:03

🖥 Большие таблицы в SQL - сначала план, потом запрос

Самый полезный апгрейд, который реально экономит часы: не "оптимизировать запрос на глаз", а заставить базу самой показать, что она делает.

На больших таблицах скорость почти всегда решают 3 вещи: правильный индекс, правильная форма запроса и правильный JOIN-порядок.

Железное правило: прежде чем трогать код, запускают EXPLAIN ANALYZE и смотрят две красные зоны - Seq Scan на большой таблице и огромные строки после JOIN. Если видишь Seq Scan - значит фильтр не поддержан индексом или условие написано так, что индекс не используется. Если после JOIN получаются миллионы строк - значит нужно сначала отфильтровать и/или агрегировать, а потом соединять.

Самый мощный прием для больших таблиц: сначала выбрать маленький набор ключей (CTE или подзапрос), и только потом JOIN к тяжелой таблице. Это резко уменьшает работу базы, потому что она перестает "перемножать" всё со всем.


ПЛОХО: тяжелый JOIN сразу, база тащит миллионы строк
SELECT u.id, COUNT(e.*) AS events_30d
FROM users u
JOIN events e ON e.user_id = u.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
  AND u.country = 'TH'
GROUP BY u.id;

-- ХОРОШО: сначала сузить пользователей до маленького набора, потом JOIN
WITH target_users AS (
  SELECT id
  FROM users
  WHERE country = 'TH'
)
SELECT tu.id, COUNT(*) AS events_30d
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

-- Индексы, которые реально помогают этому паттерну
CREATE INDEX IF NOT EXISTS idx_users_country_id ON users (country, id);
CREATE INDEX IF NOT EXISTS idx_events_user_time ON events (user_id, created_at);

-- Всегда проверяй, что база использует индекс, а не Seq Scan
EXPLAIN (ANALYZE, BUFFERS)
WITH target_users AS (
  SELECT id FROM users WHERE country = 'TH'
)
SELECT tu.id, COUNT(*)
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

Читать полностью…

Data Science. SQL hub

17 February 2026 13:33

⚡ Anthropic выложили 6 полноценных курсов по ИИ - бесплатно.

По уровню это легко заменяет обучение на десятки или даже сотни тысяч рублей.

Внутри:
- сотни уроков и практики
- интерактивные задания и квизы
- реальные кейсы работы с Claude
- сертификаты после прохождения

Если работаешь с AI, агентами или API - это база, которую сейчас проходят разработчики в топ-компаниях.

Что можно изучить:

• Работа с Claude API
https://anthropic.skilljar.com/claude-with-the-anthropic-api

• Введение в Model Context Protocol (MCP)
https://anthropic.skilljar.com/introduction-to-model-context-protocol

• Claude в Amazon Bedrock
https://anthropic.skilljar.com/claude-in-amazon-bedrock

• Claude в Google Cloud (Vertex AI)
https://anthropic.skilljar.com/claude-with-google-vertex

• Продвинутый MCP
https://anthropic.skilljar.com/model-context-protocol-advanced-topics

• Claude Code на практике
https://anthropic.skilljar.com/claude-code-in-action

Это не «обзорные лекции».
Это реальные навыки для тех, кто хочет строить AI-продукты, агентов и автоматизацию.

Читать полностью…

Data Science. SQL hub

17 February 2026 10:20

🌟 Топ-10 open-source AI-моделей на февраль 2026.

Открытые модели больше не «облегчённая версия».

Сегодня многие из них уже конкурируют с коммерческими решениями и подходят для реальных продуктов, агентов и локального запуска.

Вот модели, на которые стоит обратить внимание:

1. GLM-5 — автономная разработка и создание приложений
https://github.com/THUDM/GLM-5

2. MiniMax M2.5 — мощная модель для кодинга (80%+ на SWE-bench)
https://github.com/MiniMax-AI

3. Kimi K2.5 — мультимодальность, код и продвинутое reasoning
https://github.com/MoonshotAI

4. DeepSeek V3.2 — эффективная sparse-архитектура, конкурент GPT-уровня
https://github.com/deepseek-ai

5. Qwen 3 — сильная логика и отличная поддержка множества языков
https://github.com/QwenLM

6. MiMo V2 Flash — высокая эффективность и низкая стоимость инференса
https://github.com/MiMo-AI

7. Mistral Large 3 — большой контекст и удобная коммерческая лицензия
https://github.com/mistralai

8. LongCat Flash Chat — для сверхдлинных диалогов и памяти контекста
https://github.com/LongCatAI

9. Gemma 3 — открытая модель от Google с хорошим качеством диалогов
https://github.com/google/gemma

10. INTELLECT-3 — полностью открытый стек обучения модели
https://github.com/IntellectAI

Почему это важно:

- open-weights ≈ уровень топ-моделей
- можно запускать локально
- полный контроль над данными
- база для своих AI-агентов и продуктов
- экономия на API при масштабировании

Читать полностью…

Data Science. SQL hub

16 February 2026 17:04

⚡️ Могут ли LLM переводить код Polars в SQL?

Да - и это начинает менять то, как мы работаем с данными.

Идея простая, но мощная: большие языковые модели могут переводить натуральный язык и выражения из Polars DataFrame API в эквивалентный SQL. Это мост между Python-подходом к анализу данных и миром аналитических баз.

Что это даёт на практике:

Пишешь трансформации в стиле Polars - быстро, in-memory, удобно для Python-разработчика

LLM превращает логику в SQL - можно запускать в DWH, BI-системах, дата-платформах

Не нужно вручную переписывать логику из DataFrame-цепочек в SELECT, JOIN, GROUP BY

Особенно полезно, когда:

прототип делается локально в Polars, а прод работает на SQL-движке

аналитики думают SQL, а инженеры - DataFrame API

нужно быстро объяснить, что делает код, в виде SQL-запроса

Комбинация Polars (скорость и удобство in-memory) + LLM (понимание семантики кода) позволяет использовать знакомые SQL-паттерны, даже если ты изначально не писал сырой SQL.

Это не просто перевод синтаксиса. Модель восстанавливает семантику трансформаций - фильтры, агрегации, группировки, оконные операции - и выражает их в терминах SQL.

По сути LLM становится слоем совместимости между DataFrame-мышлением и SQL-мышлением. И это серьёзный сдвиг для аналитических пайплайнов.

https://labs.quansight.org/blog/llm_polars_to_sql

Читать полностью…

Data Science. SQL hub

13 February 2026 16:00

Postgres: best practices для AI-агентов (и почему это важно)

Supabase выпустили Postgres Best Practices - набор правил/“скиллов” для AI coding agents (Claude Code, Cursor, Copilot и т.д.), чтобы они писали не просто рабочий SQL, а нормальный продовый Postgres.

Потому что классическая проблема такая:
агент сгенерит “правильный” запрос, тесты пройдут,
а через 2 недели это превратится в:
- медленные JOIN’ы
- seq scan на миллионы строк
- взрыв коннектов
- блокировки
- RLS, которая внезапно тормозит всё

Что внутри “Postgres Best Practices”
Это структурированный набор правил по 8 темам (от самых критичных к менее критичным):

- Query Performance (Critical) - как писать запросы, чтобы не убивать базу
- Connection Management (Critical) - пулы, лимиты, правильная работа с коннектами
- Schema Design (High) - индексы, типы, ключи, нормальные схемы
- Concurrency & Locking (Medium-High) - как не словить дедлоки и долгие locks
- Security & RLS (Medium-High) - RLS без боли и сюрпризов
- Data Access Patterns (Medium) - как правильно читать/писать данные в приложении
- Monitoring & Diagnostics (Low-Medium) - что мониторить и как дебажить
- Advanced Features (Low) - продвинутые приёмы

Самое полезное:
это не “статья”, а готовый набор инструкций, который агент может автоматически применять, когда он:
- пишет SQL
- проектирует схему
- предлагает индексы
- оптимизирует запросы
- настраивает RLS / connection pooling

То есть агент начинает думать ближе к DBA, а не как генератор SQL.

https://supabase.com/blog/postgres-best-practices-for-ai-agents

Читать полностью…

Data Science. SQL hub

13 February 2026 11:04

🖥 Хотите освоить SQL и PostgreSQL без курсов и подписок? Есть мощный бесплатный репозиторий, который проведёт вас от нуля до уверенного уровня всего за пару месяцев.

Это полноценный учебник + практика в одном месте.

Что внутри:

- База без воды
SELECT, WHERE, ORDER BY, LIMIT, условия и логика запросов

- Продвинутые темы
агрегатные функции, GROUP BY, HAVING, подзапросы, JOIN’ы

- Много практики
упражнения и задачи, чтобы довести работу с БД до автоматизма

- Подробные объяснения
материал подойдёт даже тем, кто никогда не работал с базами данных

Почему это полезно:

SQL — один из самых универсальных навыков в IT.
Он нужен разработчикам, аналитикам, data-инженерам и всем, кто работает с данными.

Этот репозиторий даёт именно то, что нужно для реальной работы:
- понимание, как устроены запросы
- уверенную работу с данными
- базу для перехода к аналитике или backend-разработке

GitHub: https://github.com/dwyl/learn-postgresql

Читать полностью…

Data Science. SQL hub

12 February 2026 10:03

🚀 MongoDB Memory Leak Exploit (CVE-2025-14847)

Прототип эксплойта для уязвимости в MongoDB, позволяющий неаутентифицированным злоумышленникам утекать конфиденциальную память сервера. Уязвимость связана с некорректной обработкой длины данных при декомпрессии, что приводит к утечке неинициализированной памяти.

🚀 Основные моменты:
- Позволяет утекать данные из памяти MongoDB.
- Использует уязвимость zlib для создания поддельных BSON документов.
- Может раскрывать внутренние логи и конфигурацию MongoDB.
- Включает Docker Compose для тестирования уязвимости.

📌 GitHub: https://github.com/joe-desimone/mongobleed

Читать полностью…

Data Science. SQL hub

09 February 2026 09:02

📚 SQL Чек-лист: защита базы данных от взлома

Закрой базу от интернета - БД не должна слушать 0.0.0.0 без нужды. Открывай доступ только из подсети приложения (VPC, private network).

Используй принцип наименьших прав - отдельный пользователь на каждое приложение, только нужные SELECT/INSERT/UPDATE, без SUPER/OWNER.

Пароли и секреты - длинные, уникальные, храни в Secret Manager/.env вне репозитория, регулярно ротируй.

Шифрование - включи TLS для соединений, шифруй бэкапы и диски (at-rest).

Обновления - патчи БД и ОС ставь регулярно, отключай лишние расширения и фичи.

Защита от SQL-инъекций - только параметризованные запросы, никакой конкатенации строк в SQL.

Логи и аудит - включи логирование входов, ошибок, подозрительных запросов, алерты на “подбор паролей”.

Бэкапы + проверка восстановления - делай бэкапы и обязательно тестируй restore, иначе это не бэкап.

Ограничь опасные команды - запрети DROP/ALTER в проде для app-юзеров, разнеси миграции и рантайм доступ.

Rate limiting и защита периметра - firewall/SG, fail2ban/pgbouncer limits, VPN/bastion для админки.



Postgres hardening (quick example)

ufw allow from 10.0.0.0/8 to any port 5432
psql -c "CREATE ROLE app LOGIN PASSWORD 'STRONG';"
psql -c "REVOKE ALL ON DATABASE prod FROM PUBLIC;"
psql -c "GRANT CONNECT ON DATABASE prod TO app;"
psql -c "ALTER SYSTEM SET ssl=on;"
psql -c "ALTER SYSTEM SET log_connections=on;"
psql -c "ALTER SYSTEM SET password_encryption='scram-sha-256';"
systemctl reload postgresql

Читать полностью…

Data Science. SQL hub

07 February 2026 15:14

🍰 Polars v1.37.0: min/max строки по другой колонке - в одну строку

Раньше, чтобы найти строку с минимальным/максимальным значением по другой колонке, приходилось:
- сортировать
- группировать
- писать сложные фильтры

Теперь в Polars v1.37.0 всё проще.

Добавили методы выражений:
✅ min_by
✅ max_by

Они позволяют находить min/max значения по любой колонке одной понятной строкой кода - без лишней магии и многошаговых костылей.

Пример логики:
"дай продукт с максимальными продажами внутри каждой категории" - теперь делается красиво и читаемо.

Обновление:

pip install -U polars

Читать полностью…

Data Science. SQL hub

05 February 2026 08:53

⚡️ Масштабирование до 1 000 000 пользователей - практичный подход с PostgreSQL

Автор работал над системой, которая выросла с нуля до более чем миллиона пользователей. Без сложных модных архитектур на старте и без преждевременного оверинжиниринга. Только последовательная эволюция под реальные нагрузки.

В начале всё было максимально просто:

Одно приложение - одна база данных.
И этого было достаточно.

Проблемы появились не в коде. Узким местом стала база данных. Архитектура развивалась шаг за шагом, решая конкретные проблемы по мере их появления.

1️⃣ Старт - один основной инстанс
Использовался один primary-инстанс PostgreSQL. Минимум инфраструктуры, низкие расходы и полный фокус на продукте.

Главная мысль этого этапа - не строить "архитектуру уровня Netflix" для проекта с десятками пользователей.

2️⃣ Разделение чтений - Read Replicas
Когда резко вырос read-трафик:

- Primary обрабатывал только записи
- Реплики обрабатывали SELECT-запросы
- Балансировщик распределял чтения

Кодовая база почти не менялась - менялась маршрутизация трафика.

Результат - база перестала быть узким местом из-за чтений.

3️⃣ Проблема соединений - добавление pgBouncer
При росте числа пользователей упёрлись не в CPU, а в количество соединений.

Каждое соединение к базе - это память и ресурсы. Тысячи коннектов начали "душить" систему.

Решение - connection pooling через pgBouncer:

- Меньше реальных соединений к БД
- Выше пропускная способность
- Меньше сбоев под нагрузкой

4️⃣ Масштабирование через кэш
Чтобы выдержать 1M+ пользователей, стало критично не обращаться к базе за каждым запросом.

Добавили Redis как слой кэширования:

- Часто используемые данные отдавались из кэша
- База перестала быть единственной точкой нагрузки
- Задержки заметно снизились

Именно на этом этапе начинается настоящее масштабирование.

Главный урок

На каждом этапе решалась текущая проблема, а не гипотетическая задача будущего.

| Проблема | Решение | |---------|---------| | Много чтений | Read Replicas | | Слишком много соединений | Пул соединений | | База перегружена запросами | Кэш | | Сложная инфраструктура | Не добавлялась без реальной необходимости |

Приложение существует, чтобы поддерживать бизнес.
Если бизнес-модель не работает, никакое масштабирование не спасёт.

Масштабирование - это не про технологии ради технологий.
Это про внедрение решений в тот момент, когда они действительно нужны.

milanjovanovic.tech/blog/scaling-monoliths-a-practical-guide-for-growing-systems

Читать полностью…

Subscribe to a channel