Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
Данные есть, а смысла нет: как мы починили аналитику французскому эдтеху
Сделать классную аналитику — это как наконец-то купить подходящие очки. Жить становится настолько удобнее, что не понимаешь, как обходился без этого раньше.
Но что делать, если у компании уже есть аналитика, с базами и дашбордами, а пользы это не приносит? Инсайты не ловятся, а деньги и ресурсы на всю эту инфраструктуру все равно тратятся?
🔵Короткий ответ — переделывать.
🔵Длинный — в новой статье на vc.ru → https://vc.ru/dev/1589666-dannye-stali-tochnee-a-rashody-snizilis-v-225-raza-kak-my-sdelali-analitiku-francuzskoi-kompanii-mentorshow
В ней рассказываем про то, как мы пересобрали систему аналитики французскому эдтеху Mentorshow. У них с данными все было так сложно, что приходилось пересчитывать показатели с дашбордов вручную. В Excel, Карл! 🫠
🔜 В статье разбираемся подробнее, не только что случилось с Mentorshow, но и почему от такой ситуации ни один бизнес не застрахован. И конечно рассказываем, как этого избежать.
ТОК 2024: конференция для малого и среднего бизнеса
14 ноября в Москве пройдет конференция о том, как развивать и растить бизнес — причем во всех направлениях, от улучшения качества продукта до расширения географии.
Мероприятие рассчитано на предпринимателей: как новичков, которые только-только запустили свой проект, до руководителей уже устоявшихся, стабильных компаний. Они смогут послушать разборы кейсов и дискуссии приглашенных экспертов, посетить мастер-классы и воркшопы.
🔜 Кстати, о приглашенных экспертах: обещают, среди прочих, выступления от Кофемании, FITMOST, Точки, Ясно и The Blueprint.
Конференция будет разделена на три трека:
🔵Стратегии — про масштабирование бизнеса и создание бренда,
🔵Процессы — про операционку и выход из нее,
🔵Люди — про лидерство и выстраивание взаимоотношений с сотрудниками.
Ознакомиться с программой и полным списком спикеров можно сайте конференции.
«Уверенность в своей работе ко мне пришла, наверное, только года три назад — до этого со мной всегда было ощущение, что ничего не получится»
В гостях Роман Бунин — специалист по визуализации данных и развитию BI-систем, автор Telegram-канала Reveal the Data
О чем поговорили?
🔵 О работе инженером-электротехником на заводе.
🔵 Как пришел в BI.
🔵 Какой он — идеальный образовательный микс.
🔵 Об уверенности в собственных навыках и неэффективности инструментов для визуализации данных.
🔜 Подробности — в канале Карьера в Data | LEFT JOIN.
А еще 26 октября стартует курс «Дашборды и аналитические инструменты», который Роман запускает совместно с Татьяной Мисютиной. Делимся с вами промокодом LEFTJOIN
, который дает скидку 5%. Указать его нужно при записи в комментариях.
Tableau и dbt объявили о начале партнерства
Обещают, что это поможет увеличить доверие к данным в глазах пользователей и сделать работу аналитиков и дата-инженеров удобнее.
В чем состоит партнерство?
Если кратко — то в объединении возможностей Tableau и dbt. Из dbt можно будет экспортировать в Tableau модели, метрики, информацию о качестве данных. Часть фич (например, dbt Data Health Tiles, которые помогают убедиться в свежести данных) уже прикрутили, часть (например, подключение Pulse к dbt за один клик) появится в ближайшем будущем.
🔜 Ценность для юзеров в том, что им будет проще проверить, что данные на дашборде точные и актуальные. Для дата-команд — в том, что теперь станет меньше лишних телодвижений при работе с данными.
А если хочется подробностей, то вы их найдете в пресс-релизе на сайте Tableau.
Как вам новость?Читать полностью…
❤️ — Давно пора!
🌚 — Да что мне этот Tableau...
Так, результатами исследования мы поделились, теперь можно публично поблагодарить наших друзей и коллег, которые поддержали нашу идею ❤️
Обязательно подписывайтесь на эти каналы — все-таки, драгоценная подборка экспертов сферы (и не только) 👀
🔵Reveal the Data
🔵data comics
🔵Чартомойка
🔵Инжиниринг данных
🔵Datanomika
🔵Datalytics
🔵Start Career in DS
🔵Data Nature
🔵настенька и графики
🔵People Analytics
🔵Лягушачья аналитесса
🔵Это разве аналитика?
Google починил SQL
Как думаете, что делает запрос ниже?
FROM customer
|> LEFT OUTER JOIN orders ON c_custkey = o_custkey
AND o_comment NOT LIKE '%unusual%packages%'
|> AGGREGATE COUNT(o_orderkey) c_count
GROUP BY c_custkey
|> AGGREGATE COUNT(*) AS custdist
GROUP BY c_count
|> ORDER BY custdist DESC, c_count DESC;
SELECT c_count, COUNT(*) AS custdist
FROM
( SELECT c_custkey, COUNT(o_orderkey) c_count
FROM customer
LEFT OUTER JOIN orders ON c_custkey = o_custkey
AND o_comment NOT LIKE '%unusual%packages%'
GROUP BY c_custkey
) AS c_orders
GROUP BY c_count
ORDER BY custdist DESC, c_count DESC;
Вот такой апдейт для старого доброго SQL. Что скажете?Читать полностью…
❤️ — так действительно удобнее
🌚 — это уже не SQL
Топ-3 лучших страны для работы в 2024
…если судить по количеству праздничных дней в году. Их для нашего с вами удобства отобразили за графике выше (интерактивная версия — здесь).
Список получается любопытный: в топе Непал с 39 днями, Мьянма с 32 и Иран с 26.
Скучнее всего в Мексике, Великобритании и Эквадоре — у них всего 8 выходных праздничных дней.
Переезжаем в Непал?Читать полностью…
❤️ — собираю чемоданы
👾 — нет уж, спасибо
🔥 — а я уже там
Кейс: готовое решение из «коробки» vs кастомная аналитика
На рынке полно готовых решений для аналитики, которые можно подключить к своим источникам данных и базам и получить от них достойные информативные дашборды. Это намного дешевле и быстрее, чем строить систему аналитики с нуля, поэтому многие компании выбирают именно этот путь.
При всех неоспоримых плюсах у таких готовых решений есть и минусы:
🔵сложно настроить под себя, когда возникает необходимость в более продвинутой аналитике;
🔵если появляются какие-то ошибки и неточности в данных, может быть очень тяжело разобраться, из-за чего это происходит.
Со второй проблемой мы однажды столкнулись. Если кратко, то заказчик пользовался ROISTAT, а потом решил выстроить кастомную систему с нашей помощью. И когда он посмотрел на наши дашборды, то понял, что «цифры не бьются» и в данных что-то не так. Мы начали разбираться и поняли, что хотя в своем коде мы уверены, внутрь ROISTAT заглянуть, чтобы разобраться, что и как он считает, мы не можем.
🔜 Что потом мы с этим делали, читайте в новой статье в нашем блоге!
Что нового у DataLens?
25 сентября прошла конференция Yandex Scale. Там рассказали про новые сервисы и фичи, а мы следили за новинками DataLens.
Делимся самыми интересными новостями:
🔵Конструктор отчетов, в котором можно собирать документы для экспорта в pdf, чтобы отправить коллегам или клиентам.
🔵Безопасное встраивание дашбордов, благодаря которому можно встроить не только отдельный график, но весь дашборд в любой продукт типа CRM.
🔵Анонсирован DataLens Enterprise. Знакомый DataLens, но в контуре заказчика. На сайте проекта можно отправить заявку, и команда DataLens обсудит с заинтересованными компаниями пилотный проект.
Конференция уже прошла, но доклады еще остались. Если хотите узнать подробности, то смотрите запись на сайте мероприятия.
«Я вообще не устаю делать дашборды»
В гостях Анастасия Кузнецова — BI team lead в Semrush и автор канала настенька и графики.
О чем мы поговорили?
🔵 Об учебе на социолога и неудачном побеге в Финляндию
🔵 Что лучше — курсы или высшее образование?
🔵 Как справляться с задачами, которые кажутся невыполнимыми?
🔜 Подробности — в канале Карьера в Data | LEFT JOIN
Встретился и записал двухчасовой подкаст с Ромой Буниным на Кипре про все актуальное.
Много поговорили про Кипр и про эмиграцию в целом, про Datalens (Яндекс, приходите, расскажу, куда нести донаты), про аналитическую культуру Yandex Go, про разные проекты Ромы. Про историю жизни не спрашивал, вы ее уже слышали от Ромы раз 5.
Yandex Cloud AI Studio – платформа для создания приложений на базе ИИ
Платформа объединяет все доступные ML-решения компании, включая генеративные нейросети: YandexGPT и YandexART. Единый интерфейс позволяет упростить разработку и ускорить запуск многофункциональных ИИ-приложений.
🔵 Чтобы писать меньше кода для интеграции нейросетей, разработчики могут воспользоваться SDK-библиотекой.
🔵Также пользователи смогут тестировать ML-решения в AI Playground: в нем можно вести одновременно несколько диалогов, в каждом из которых сохраняется история обращений.
🔜 Читайте подробнее в статье
Матемаркетинг’24 пройдет 7 и 8 ноября
…а также 29 октября.
В Москве специалисты по аналитике и маркетингу уже в шестой раз соберутся на конференции Матемаркетинг, чтобы поговорить про данные, технологии и продвижение.
🔵Как и из чего выстраивать аналитическую инфраструктуру в текущих реалиях?
🔵Как можно использовать ML для продуктовой аналитики?
🔵Как эффективно работать с платными каналами продвижения и не терять деньги?
Всего обещают больше 120 докладов и выступлений от специалистов из Ecommerce, EdTech, Retail и других областей. Особенно ждем выступление Ромы Бунина! ❤️
Будет еще кое-кто, кого мы в LEFT JOIN тоже очень хотим послушать — но про это расскажем позже.
Конференция будет идти три дня — но не подряд
29 октября пройдет онлайн-эфир со спикерами, которые находятся не в России.
7 и 8 ноября пройдет основная часть выступлений сразу в двух форматах.
🔵Офлайн — по адресу МГУ, кластер «Ломоносов», Раменский бульвар, 1, с кофе-брейками и нетворкингом.
🔵Онлайн-трансляции и записи — для спикеров и посетителей, которые не смогут приехать.
Участие платное и по билетам. Обладатели билетов получат доступ к закрытой платформе мероприятия на 6 месяцев. Там собраны материалы с конференций прошлых лет.
🔜 И кстати — до 13 октября по промокоду LEFTJOIN15
билет можно купить со скидкой 15%.
Советы по SQL: полезные фичи и рекомендации
Нашли классный документ на гитхабе с лайфхаками по SQL, как сделать код читабельнее и избежать частых ошибок. Советы подойдут не всем (уже предчувствуем, что многим не понравится первый пункт в блоке «Formatting/readability»), но ознакомиться стоит.
Еще немного рекомендаций (и обсуждений злосчастной запятой из первого пункта) можно найти в треде на Hacker News.
Сохраняйте пост себе, пересылайте знакомым — пригодится! 🔥
Self-service BI: за или против?
Self-service BI — это подход к аналитике, который состоит в том, что бизнес-клиент сам, без помощи дата-команды, может формулировать запросы к данным и создавать отчеты.
Учить SQL никого не заставляют. Пользователь с помощью кнопок и менюшек в интерфейсе выбирает, какие данные и в каком виде ему нужны, а BI-система превращает это в SQL-запрос. И, конечно, не забываем про ИИ: уже есть достаточно self-service-инструментов с прикрученными к ним LLM. Они «переводят» на SQL запросы пользователей на естественном языке.
🔜 В итоге это всем экономит время: аналитики не отвлекаются на текучку от более крупных и важных проектов, а заказчики не ждут, пока дата-команда возьмется за задачу.
В теории круто. Да и на практике работает — мы рассматривали такой кейс в одном из выпусков Data Heroes (YouTube, club225671614?z=video-225671614_456239057%2Fclub225671614">VK).
Но есть и минусы или, скорее, опасения.
1️⃣ Широкий доступ к данным — так себе идея. А вдруг пользователи сервера уронят своими самодельными дашбордами, если их станет слишком много?
2️⃣ Аналитика — это не просто сделать выгрузку и нарисовать какой-то график. Чтобы эффективно работать с данными, надо понимать, как они хранятся в базе и как взаимосвязаны друг с другом, как правильно представить их на графиках, чтобы действительно найти в них инсайты. Да и в конце концов, какой бы ни был дружелюбный и понятный интерфейс у инструмента, все рано надо учиться им пользоваться. Не факт, что пользователи действительно захотят учиться, а дата-команда — захочет и сможет их обучить.
3️⃣ Self-service BI все равно надо настраивать и поддерживать, и нет гарантий, что это будет намного проще, чем работать с пользователями и бизнес-заказчиками напрямую, «по старинке».
А что вы думаете?
❤️ — Self-service BI — будущее аналитикиЧитать полностью…
👾 — Аналитику должны создавать и поддерживать только профессионалы!
А вы отличаете медиану от среднего?
45% казахстанцев отличают и получают более высокую зарплату, чем остальные 55%.
Дата-консалтинг Datanomix из Казахстана провел исследование, чтобы определить уровень data literacy среди соотечественников. Для этого опросили 878 человек из разных сфер деятельности — бизнесменов, айтишников, финансистов и так далее.
💬 Data literacy или грамотность в работе с данными — это умение интерпретировать данные, замечать тренды и делать из них выводы. Этот навык нужен не только аналитикам — данные в том или ином виде есть в жизни почти каждого.
Даже тем, кто не мониторит никакие показатели по работе, дата-грамотность пригодится, если они решат почитать про результаты, например, научного исследования или социологического опроса. Если они умеют работать с данными, они смогут сами сделать из них выводы, а не слепо полагаться на чужую трактовку.
Ну а еще высокий уровень дата-грамотности коррелирует с уровнем зарплат.
Вот, что обнаружили Datanomix:
🔵Респонденты 18-23 лет в среднем значительно грамотнее в работе с данными, чем респонденты 42-46 лет. Этот тренд прослеживался во всех возрастных группах: чем старше, тем ниже уровень дата-грамотности.
🔵 В большинстве сфер прослеживается связь между уровнем дата-грамотности и доходом. Особенно ярко — в ритейле, IT и госуправлении.
Остальные результаты — по ссылке в начале поста.
А вам data literacy помогает больше зарабатывать?Читать полностью…
❤️ — А то!
👾 — Что-то незаметно…
🔥 — А я неграмотный :(
Что есть на дашборде с результатами исследования онлайн-школ
Для начала напомним, зачем вообще это все было нужно.
🔵 Узнать, какие онлайн-курсы для аналитиков наиболее востребованы.
🔵 Разобраться, помогает ли онлайн-обучение найти новую работу и прокачать скиллы.
🔵 Сравнить, как изменилась — и изменилась ли — ситуация по сравнению с 2021 годом, когда мы проводили первое такое исследование.
🔜 Итоги видно на дашборде. Серыми полосками отмечены ответы в 2024, синими линиями — в 2021.
🔵Больше всего людей проходили курсы от Яндекс Практикума, но оценки у него не самые высокие, хоть и неплохие — 7,9 баллов (на 0,3 ниже, чем в 2021).
🔵Лучше всего оценили курсы от Simulative — 8,8 баллов. Платформа появилась в 2022 году, так что за 2021 данных нет. А вот самые низкие оценки у Geekbrains — 4,4, на 0,9 меньше, чем в прошлый раз.
🔵 Почти все курсы оценили хуже, чем в первом исследовании. Исключениями стали Skillbox и Skillfactory, которые улучшили результат, и Нетология, у которой он не изменился. Можно порассуждать, почему так — либо качество обучения ухудшилось, либо у студентов выросли требования.
🔵 Большинство учились на аналитиков (65,4%) и поступили на курс с намерением сменить профессию (46,3%).
💬 Это данные из основной версии дашборда.
Есть и вторая, более полная, с информацией о стоимости курсов, а также карьерных перспективах: как долго после обучения студенты искали работу и оправдались ли их зарплатные ожидания. Про уровень зарплат мы не спрашивали – слишком много переменных (должность, опыт, компания и так далее), из-за которых данные не будут точными и ценными. Зато все данные можно отфильтровать по платформе, чтобы узнать, насколько студенты каких школ больше всех довольны жизнью.
Полную версию можно бесплатно запросить у бота 🔜 @leftjoin_data_bot
AlphaFold 3: как ИИ двигает науку вперед
Давно не рассказывали про то, как ИИ трудится на благо науки. Исправляемся — сегодня на повестке модель для предсказания структуры белков AlphaFold 3.
🔜 AlphaFold 3 разработали Google DeepMind and Isomorphic Labs. Как можно догадаться по названию, это уже третья версия: первую представили в 2018 году, вторую — в 2020. Она нужна для того, чтобы предсказывать структуру белков, их функции и взаимодействия друг с другом и иными веществами.
🔜 Почему это важно?
У белков безумно сложная структура, которую очень тяжело «расшифровать» и описать. А нужно это делать для того, чтобы лучше понять, как они воздействует на другие молекулы. Эта информация полезна при разработке лекарств или при изучении того, как функционирует живой организм — человеческий и не только.
До того, как для этих целей начали использовать ИИ, описание структуры белков было очень долгой и тяжелой задачей. Поэтому AlphaFold оказала огромное влияние на биологию, биохимию и фармацевтку — модель описала больше 200 миллионов белковых структур и значительно упростила работу исследователей. Новая версия стала еще мощнее и теперь способна предсказывать еще более сложные структуры, чем раньше, — целые белковые комплексы.
🔜 Ну и когда ждать лекарство от всех болезней?
А вот тут пока непонятно. Во-первых, надо понимать, что ИИ, при всех свои возможностях, все еще не творит чудеса и даже не гарантирует 100%-ную точность своих предсказаний.
А еще разработчики не стали делиться исходным кодом третьей версии, как сделали с предыдущими. Вместо этого они запустили AlphaFold Server. Он бесплатный, быстрее AlphaFold 2, но предназначен только для некоммерческих исследований и не позволяет предсказывать структуры веществ, которые могут быть использованы как лекарства.
Вот такие новости науки. 👀
Интересно иногда почитать что-нибудь такое или вы здесь исключительно ради постов про данные и SQL?
Читать полностью…
❤️ — Да, пишите, интересно.
👾 — Нет, давайте лучше про данные!
Как дела у BI в России в 2024?
Расскажут на мероприятии с говорящим названием Russian BI Forum’24.
Форум пройдет 14 октября в Москве в Инновационном кластере МГУ «Ломоносов». В программе пленарная дискуссия про будущее BI, мастер-классы и доклады от вендоров и экспертов по аналитике.
Про что будут говорить?
🔵 Кейсы и опыт внедрения BI-систем.
🔵 Тенденции и тренды индустрии.
🔵 Выбор BI-систем: отличия, особенности, российские аналоги ушедших с рынка инструментов.
Вариантов участия два:
1️⃣ Стандарт, который дает доступ к пленарной сессии, докладам и фуршету,
2️⃣ Стандарт + мастер-классы. За участие в последних дадут сертификат.
Оба платные, но по промокоду LEFTJOIN можно купить билет со скидкой 35%.
Он действует до 13 октября, но воспользоваться им сможет ограниченное число счастливчиков, так что рекомендуем не затягивать.
Онлайн-курсы: напрасная трата времени и денег или шанс сменить профессию?
Надеюсь, вы не забыли, что мы проводили независимое исследование онлайн-курсов по аналитике? Так вот, пришло время поделиться результатами.
В этой статье все явки и пароли — а именно, как Data-специалисты выбирают онлайн-курсы, оправдались ли их зарплатные ожидания после обучения и многое другое.
🔜 Читайте по ссылке → https://vc.ru/education/1556717-onlain-kursy-naprasnaya-trata-vremeni-i-deneg-ili-shans-smenit-professiyu
Яндекс запустил Поиск с Нейро
Теперь в поисковой выдаче можно увидеть ответы от YandexGPT. Пример того, как это выглядит, — выше на скрине.
Где-то мы уже это видели...
Как аналитика поможет бизнесу поднять раунд инвестиций
Слышали, что недавно OpenAI подняла раунд инвестиций на 6,6 млрд?
А у нас как раз статья вышла про то, как с помощью отчетов и аналитики убедить инвестора выделить деньги стартапу. Будем честны: 6,6 млрд не обещаем, но верим, что статья поможет понять, как показать потенциал бизнеса с помощью данных.
Пригодится не только предпринимателям, но и аналитикам, чтобы лучше понимать запросы бизнеса и влияние аналитики на фандрайзинг.
🔜 Читайте по ссылке → https://vc.ru/u/48577-nikolai-valiotti/1541672-kak-analitika-pomozhet-startapu-podnyat-raund-investicii
Вы наушники не теряли?
Представим ситуацию: вы нашли на улице чьи-то эирподсы. Если подключить их к своему (или любому доступному вам) айфону, вы увидите их серийник и 4 последних цифры номера владельца. Вы хотите вернуть находку. Как вы это сделаете? 👀
Если вы сказали: «Попробую выйти на владельца через Find My» — это логичный ответ, но в вас пропал дух авантюризма так совсем неинтересно. Давайте усложним задачу: Find My пользоваться нельзя. Или вы попробовали, но он не помог.
В мобильных номерах в России 11 цифр: мы знаем первую (+7 или 8) и 4 последних. Уже немало, почти половина номера у нас есть. Что дальше, есть идеи?
🔜 Если есть — пишите в комментариях.
А если нет, то вот пример из Америки.
Спойлернем: автор предположил, что хозяин наушников живет в Портленде, где те были найдены — соответственно, первые 3 цифры будут кодом этого штата. Следующие 3 называются префиксом, и список возможных комбинаций в нем можно сильно сузить, если разузнать, какие из них разрешено использовать телекомам в регионе. Ну а затем надо было просто пробить все получившие номера по базе, которая показывает привязку к iMessage — если человек пользуется эирподсами, то и эппловским мессенджером тоже, скорее всего. Ну а дальше оставалось только сделать по ним рассылку с вопросом «Вы наушники не теряли?»
В других странах, например, в России, этот способ может сработать не так хорошо, поэтому и интересно почитать ваши предложения!
От 1234 до 8068
Несложно посчитать, что существует 10 000 возможных вариаций ПИН-кодов из 4 цифр.
Также довольно легко догадаться, какие из них будут самыми популярными. Наверняка, почти все, кто читает этот пост, подумали про 1234, 1111 или 0000.
Но вот какая комбинация цифр будет самой непопулярной? Да, у нас спойлер в заголовке. Какие еще ПИН-коды пользуются популярностью? Есть ли тут какая-то закономерность или это чистый рандом?
🔜 На графике выше вы можете видеть, что закономерности таки есть
График составил аналитик Ник Берри в 2012 году на основе 3,4 миллионов слитых в интернет ПИН-кодов. Да, данные не самые новые, но что-то нам подсказывает, что вряд ли за эти 10 лет что-то сильно изменилось.
🔵Чем светлее точка, тем популярнее код. Рандомно раскиданные черные точки — самые редкие коды. Среди них и 8068, комбинация, которая встретилась всего 25 раз.
🔵 Светлая линия в центре — ПИНы из повторяющихся пар цифр (1212, 1313 и так далее).
🔵Светлая линия в нижней части — ПИНы, начинающиеся на 19. Вероятно, многие из них — год рождения.
🔵В левом нижнем углу — большой светлый блок, обрывающийся по обеим осям после 30. Можно предположить, что среди них много пинов, в которых зашифрованы даты рождения. Также люди любят коды, которые начинаются с 0 или 1.
Рассмотреть график поближе можно здесь, а почитать про исследование Ника и его выводы — в его статье. Там же есть топ-20 кодов, на которые приходится аж 26% всех ПИНов из его датасета.
Как вам график?
❤️ — красота!Читать полностью…
👾 — делать людям нечего...
Почему стоит записаться на курс SQL База?
Не будем перечислять все, что мы не раз рассказывали — про то, что там много практических заданий, приближенных к реальным, поддержка от команды разработчиков и так далее.
У нас есть новые аргументы!
1️⃣ Новые отзывы от студентов — они выше, на картинке. Насколько хороша подача и задания, вы могли недавно убедиться сами в посте с задачей на соединение таблиц.
2️⃣ Осталось всего два дня до конца действия промокода СЕНТЯБРЬ30
, по которому вы можете купить курс со скидкой 30% — за 931 рубль вместо 1330!
Готовы записаться? Переходите по ссылке 🔜 https://stepik.org/a/129108
Тизерим новый проект с классным гостем, которого многие из вас наверняка знают. ❤️
Подробности расскажем совсем скоро! Подписывайтесь на канал Николая, чтобы не пропустить.
Состоялся релиз PostgeSQL 17!
В новой версии СУБД улучшили производительность и расширили функционал.
Среди изменений:
🔵 Команда VACUUM
для очистки и оптимизации БД теперь выполняется быстрее и потребляет в 20 раз меньше памяти.
🔵 Благодаря улучшениям в обработке журнала предзаписи (WAL, Write-Ahead Logging) вдвое выросла пропускная способность операций записи в системах с большим количеством параллельно выполняющихся запросов.
🔵Добавились новые функции для работы с данными в формате JSON: JSON
, JSON_SCALAR
, JSON_SERIALIZE
, JSON_EXISTS
, JSON_QUERY
, JSON_VALUE
. Появилась поддержка JSON-TABLE
, которая конвертирует данные из JSON в стандартные таблицы PostgeSQL.
🔵 Расширились возможности функции MERGE
и добавилась поддержка выражения RETURNING
.
Полный список изменений — на сайте проекта.
Данные были ошибкой
Как-то раз мы обсуждали статью Бенна Стенсила, где тот спрашивал, нужна ли на самом деле аналитика. Сегодня пойдем дальше и спросим, а нужны ли нам данные в том виде, в котором мы собираем и используем их сейчас?
Источник вдохновения для поста: статья What If Data Is a Bad Idea? Ниже — краткий пересказ основных идей, но рекомендуем прочитать материал целиком, он того стоит.
🔜 Речь не о обо всех данных, а о персональных, которые собирают о пользователях сайты, соцсети и приложения.
Проблема в том, что эти данные лежат где-то на недоступных частных серверах корпораций. Такой подход к сбору и хранению информации не делает разницы между данными о погоде и данными о живых, думающих людях, совершающих действия и принимающих решения.
Это лишает людей контроля над данными о себе и превращает их в ресурс. Многие с этим смирились и приняли как данность, что конфиденциальности в интернете давно нет. Сейчас каждый сайт собирает наши куки и отправляет Большому Брату.
🔜 Но что, если можно жить по-другому?
Всю эту систему можно (в теории) сделать более человечной и близкой к нам, а также вернуть людям хотя бы частично контроль над их данными.
🔵 Более близкой ее можно сделать вполне буквально — благодаря проекту Solid и принципу Local-first software.
🔵 Контроль и право собственности на свои данные предоставляют такие инициативы, как Verifiable Credentials. Они дают возможность подтверждать личность, не разглашая о себе лишнего. То есть не отправлять важную информацию о себе кому попало.
Если кратко, суть в том, чтобы наконец-то создать прекрасный децентрализованный интернет будущего. Идея хорошая, но вот как прийти к этому состоянию — пока непонятно. Этот подход решает часть проблем, но создает новые, и решения есть не для всех из них.
А вы что думаете — когда уже это случится и корпорации и дата центры перестанут собирать данные о каждом нашем клике?
Один датасет, двадцать визуализаций
Данные о динамике изменения возраста выхода на пенсию для мужчин и женщин из стран ОЭСР за 50 лет — звучит не очень интересно, правда? Еще и сложно: пока дочитаешь до конца предложения, забудешь с чего оно начиналось.
Зато на основе этого набора данных специалистка по датавизу из Польши нарисовала аж 20 разных графиков: столбчатые, линейные разных видов, тепловые карты, даже нелюбимые многими «ящики с усами» затесались.
Не все из них одинаково полезны — есть ощущение, что не все способы визуализации одинаково хорошо подходят для этого датасета. В любом случае, работа впечатляет. 🔥
А у вас есть нелюбимый вид графиков, которые не используете и не понимаете?
Задача из курса «SQL База»: считаем среднюю стоимость доставки
Недавно мы предложили вам посмотреть поближе на какую-нибудь задачку из нашего нового курса по SQL, и вы выбрали модуль про соединение таблиц.
Для решения вам понадобится ER-диаграмма нашей БД — она на картинке к посту. ☝🏻 Курс оформлен как стажировка в онлайн-магазине True Coffee, поэтому и данные у нас соответствующие — товары, фасовки и разные бренды чая и кофе.
А еще мы приведем пару выдержек из теоретической части, чтобы вы могли оценить подачу материала.
🔵 Особенность нашей базы состоит в том, что все связи имеют тип один-ко-многим с обязательной связью. Также стоит отметить тот факт, что в каждой таблице в качестве первичного ключа используется суррогатный ключ, то есть просто возрастающий номер id.
🔵 Одним из наиболее распространенных операторов соединения является INNER JOIN. С помощью INNER JOIN происходит объединение записей из двух таблиц по какому-то условию, обычно по связующему полю. В результирующую выборку попадают только те записи, которые удовлетворяют условию.
🔵 В запросе оператор INNER JOIN ставится после оператора FROM, при этом необходимо указать еще и условие соединения таблиц после указателя ON.
Отдел доставки хочет, чтобы мы узнали среднюю стоимость доставки всех вариантов фасовки товара под номером 3. Результат округлите до целого при помощи функции ROUND.
Выведите вариант фасовки и округленную среднюю цену. Поля назовите variant_name и avg_delivery_price соответственно.
Для этого используйте таблицы orders и purchases. Не забудьте отфильтровать данные по номеру товара (поле product_id из таблицы purchases), а также сгруппировать по типу фасовки (поле variant_name из таблицы purchases).