leftjoin | Unsorted

Telegram-канал leftjoin - LEFT JOIN

67358

Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS

Subscribe to a channel

LEFT JOIN

⭐️ Вчера мы записывали с Толей Карповым почти трехчасовое интервью (да, это ранний тизер!) и, конечно, обсуждали тему LLM, которую Виталий Тренкеншу из Datanomix поднял у себя в телеграм-канале.

Процитирую кусочек:

На тестовом задании, я хочу прежде всего увидеть кандидата — его опыт и образ мышления. Но, к сожалению, вижу копипаст, часто даже нефильтрованный 🙁

P.S. Внедряю теперь в HR-воронку автоматическую проверку на AI и отказ таким кандидатам.


И вот некоторые мысли, к которым мы пришли с Толей в диалоге:
🔵Однозначно на рынке образовалась проблема читинга, причем кандидаты максимально изощрены в том, как использовать нейронные сети и LLM в частности
🔵Тестовые задания в классическом виде перестают работать и это интересный вызов для всех работодателей
🔵LLM — это хорошо, и, например, аналитики обязаны им пользоваться. Однако, когда собеседуешь человека более "гуманитарной направленности", то часто встречаешь сгенерированные ответы с минимальной редактурой, что максимально расстраивает. Людям дали удобный интерфейс, и теперь они ожидают, что нажмут одну кнопку и могут отправить сопроводительное письмо / тестовое задание работодателю, а он должен это принять за чистую монету. Ну, как будто на той стороне кто-то не очень сообразительный 🫠

Иногда я встречаю тестовые написанные примерно таким образом:
Некоторая Мысль: Тут Объяснение Мысли.

Если вижу такое — сразу отсеиваю кандидата, т.к. это кусок текста на 100% сгенерированный ChatGPT без какой-либо редактуры. Зачем мне роботы в команде? 🤖

А как у вас в компаниях сегодня с кандидатами и использованием LLM?

@entrepreneurskaya

Читать полностью…

LEFT JOIN

Гонка за чужим одобрением
Помните, как на экзаменах все делились на тех, кто был уверен, что «сдаваться» надо обязательно в числе первых, и их противников, которые предпочитали идти последними? Еще были промежуточные варианты и равнодушные фаталисты, согласные на любой расклад, лишь бы это все побыстрее закончилось, но они нам сейчас неинтересны.

Наконец-то наука выяснила, кто был прав — как оказалось, те, кто выбирал идти первым. Исследователи провели два эксперимента.

🔜 В первом участвовало 992 добровольца, которых попросили описать 20 человек на основе их фотографий в соцсетях. В начале они давали положительные характеристики, содержавшие в среднем 6,2 добрых слова. К концу списка этот показатель снизился до 4,7.
🔜 Во втором 987 человек по-настоящему пострадали за науку и смотрели шоу «Холостяк». А точнее — то, как представляются участницы. Их просили оценить девушек, и, как и предыдущем эксперименте, каждая следующая получала все менее лестную характеристику. Видео показывали в рандомом порядке.

Почему это происходит?
Исследователи предположили, что, когда мы оцениваем друг за другом несколько человек, мы ищем у них какие-то отличительные особенности. Негативные черты сильнее всего обращают на себя внимание, и люди начинают концентрироваться именно на них.

Этот эффект может влиять на то, как оценивают соискателей, студентов на экзамене, участников в реалити-шоу или конкурса, профили в «Тиндере» и просто новых знакомых. Так что, если вам важно произвести хорошее впечатление на человека, надо постараться познакомиться с ним как можно быстрее и всех опередить.

🔜 Кстати, а как вы экзамены сдавали? Шли среди первых, сидели до конца или как получится?

Читать полностью…

LEFT JOIN

Modern Data Stack — всё?
Каждый раз, когда что-то — например, новая технология — становится популярным, оно проходит несколько стадий. На старте у нового явления есть четкое определение. Потом о нем узнает широкая общественность, а маркетологи понимают, что это название отлично привлекает внимание. Его начинают использовать все подряд, значение термина размывается, и в итоге он превращается в баззворд.

🔜 Именно такой путь прошел Modern Data Stack. Его историю вспомнил СЕО dbt Тристан Хэнди и задался вопросом: актуален ли он все еще?
🔵 Термин Modern Data Stack появился в середине десятых. Так начали называть облачные инструменты для аналитик: Looker, Fivetran, тот самый dbt и так далее.
🔵 В 2020 MDS завоевал большую популярность, и наступила эпоха коллаборации между вендорами. Разработчики ПО объединяли свои продукты в целые экосистемы. Позиционирование инструмента как MDS помогало выйти на рынок и заинтересовать инвесторов, партнеров и пользователей.
🔵 И вот оно случилось: термин стал так популярен, что начал терять смысл. Хэнди вспоминает, как на конференции его собеседник назвал MDS-компаниями Mongo, Datadog и Confluent. Все три хороши, но ни одна не выпускала продукты, которые можно было бы отнести к MDS.

🔜 Но не это заставило его задуматься о том, что этот термин устарел.

🔵 Дело в самом определении. Почти 10 лет назад, использование облачных технологий четко отделяли MDS от не-MDS — например, Looker от Tableau. Но сейчас это не так, и Tableau теперь тоже в облаке.
🔵 Изменился рынок. Инвесторы стали менее охотно вкладываться в ИТ-стартапы, а покупатели начали выбирать готовые решения, а не стеки из нескольких продуктов заколлабившихся вендоров.
🔵 Появился новый тренд, к которому все хотят присоединиться: искусственный интеллект.

Все это привело к тому, что термин Modern Data Stack потерял не только изначальный смысл, но и ценность, так что пора от него отказаться. Более подробно все эти мысли он раскрывает на подкасте.

Читать полностью…

LEFT JOIN

Что показали на UNION ALL?
20 марта команда Yandex Cloud провела UNION ALL — конференцию для всех, кто работает с данными. На ней рассказали про сервис Yandex MetaData Hub, новые тарифы Yandex DataLens и некоторые другие улучшения.

🔵 Yandex MetaData — сервис для управления метаданными, информацией для интеграции баз данных и подключения к ним. Он поможет настроить доступы к базам, связать друг с другом облачные сервисы, отслеживать действия с метаданными.

🔵 Представили два тарифа для BI-инструмента Yandex DataLens: Community и Business. Первый бесплатный, с полным доступом ко всем функциям. Второй обойдется в 990 рублей и обеспечит пользователям приоритетную поддержку, возможность встраивать свои дашборды во внешние системы вроде CRM и некоторые другие преимущества. Оба тарифа станут доступны с 24 апреля.

🔵 Также поработали над безопасностью и добавили новые инструменты.

👀 Рассказывайте — следите за профессиональными мероприятиями? Может быть, даже были на UNION ALL?

Читать полностью…

LEFT JOIN

pql: язык запросов с открытым исходным кодом
Сложно это признавать, но SQL неидеален. Он может быть очень сложным, а запросы, как ни оптимизируй, иногда получаются ужасно громоздкими.

Некоторых это подталкивает к созданию альтернатив — более гибких и удобных языков запросов.

🔜 Например, Microsoft разработала Kusto Query Language (KQL) — он простой и интуитивно понятный, но использовать его можно только с продуктами, входящими в Microsoft Azure. Похожие разработки есть и у других компаний, например, Splunk или Sumologic. У них те же плюсы и то же главное ограничение — это проприетарные языки, которые неприменимы вне их «родной» экосистемы.

🔜 pql — это open source язык запросов, который можно и нужно использовать с open source базами данных. Создатели вдохновлялись KQL и постарались свой продукт наделить теми же плюсами и сделать его таким же простым и логичным.

На сайте проекта можно потестить, как это работает, и найти ссылки на GitHub и блог разработчиков.

Читать полностью…

LEFT JOIN

Работа с данными в очень больших командах
Большая компания — это не только хорошая зарплата и узнаваемое название, которое не стыдно назвать, когда вы рассказываете, где работаете. Это еще и любопытная корпоративная культура и организация внутренних процессов. Нельзя вырасти от стартапа до энтерпрайза, сохранив задор и открытость, что были в начале. Особенно интересно, как рост компании влияет на дата-команды.

Нашли две любопытных статьи на эту тему. Первая — про проблемы.

🔵 На ранних этапах пайплайны по работе с данными выстраивает небольшая команда, а то и один инженер.
🔵 Со временем объемы растут, данных становятся больше, а запросы заказчиков вроде маркетинга — сложнее. ИТ-инфрастуктура расширяется и меняется, и это приводит к непредсказуемым последствиям: например, дашборды ломаются и начинают показывать неактуальные данные. Падает скорость работы и качество взаимодействия между командами.
🔵 Пока дата-инженеры пытаются разобраться в проблемах (которые создали не они!), копятся ошибки, а доверие пользователей к данным падает.
🔵 Начинается поиск решения — например, перебор новых инструментов и платформ для работы с данными или попытки реорганизации. Это может принести результат, но не устранит причину проблемы.

И что делать?
На этот счет высказался CEO dbt — фреймворка для трансформации данных. Его пост в основном опять про проблемы дата-команд, а еще возможности dbt. Это тоже интересно, но нам нужен последний абзац про то, что ждет нас в будущем.

🔜 А будущее за командами, которые становятся владельцами своих данных и полностью отвечают за все, что связано с их хранением, трансформацией и т. д. Для коллег из других команд они создают витрины данных: так те смогут получить нужную информацию о показателях и метриках, не погружаясь «вовнутрь».

Так огромный и все увеличивающийся массив информации разбивается на несколько отдельных проектов, у каждого из которых есть владельцы — конкретные люди, отвечающие за то, чтобы все работало как надо. А не бедные инженеры, которые бегают и тушат чужие пожары. 👀

Читать полностью…

LEFT JOIN

Почему вы нас читаете?
Ну а теперь к главному вопросу, которым задаемся не только мы. Недавно увидели вот такой пост:

За кем следят продуктовые и дата-аналитики


Ребята из NEWHR Data сформировали рейтинг профильных экспертов, Telegram-каналов, Youtube-каналов и подкастов, за которыми следят продуктовые и дата-аналитики.

…я лично никогда не понимал, почему у LEFT JOIN так много подписчиков и почему их читают. А они вот вторые в рейтинге.


👀 И подумали: и правда, почему вы нас читаете-то, дорогие подписчики? Поделитесь в комментариях!

Читать полностью…

LEFT JOIN

Да кто такой этот ваш SQL
Пост для начинающих аналитиков, BI-специалистов и всех, что хочет подтянуть знание SQL. Делимся проверенными курсами и тренажерами, которые помогут освоить основы.

🔵 Марафон данных: первое знакомство с SQL и Python на «Степике». Это проект нашей команды, которым мы очень гордимся. Курс не только знакомит студентов с SQL и Python, но и позволяет почувствовать себя в роли аналитика. Студенты выполняют задания, похожие на реальные задачи, с которыми имеют дело специалисты на практике. Это возможность поближе взглянуть на профессию и понять ее специфику. Не можем не похвастаться: его прошли уже больше 12 000 студентов!

🔵 Интерактивный курс по SQL от SQL Academy. Начинаем с самых основ и доходим до довольно продвинутых вещей. Большой плюс — платформа удобная, а материал подается максимально понятно и логично. Отличный вариант для тех, кто вообще ничего про SQL не знает и изучает его с нуля.

🔵 Симулятор SQL на Karpov.Courses. 150 задач, которые помогут научиться говорить сразу на двух языках: на SQL и языке бизнес-запросов, с которыми к аналитикам приходят заказчики и коллеги.

🔵Интерактивный тренажер по SQL. Еще один курс на «Степике», который знакомит с практикой и предлагает решать задачи, похожие на «боевые». Главный плюс — очень много заданий в каждом модуле. Набьете руку так, что сможете писать SQL-запросы с закрытыми глазами.

🔵 SQL-Ex. Возможно, один из самых старых сайтов про SQL в рунете, собравший впечатляющую базу упражнений. Он выступает в первую очередь не как курс или учебник, а как тренажер — то есть, чтобы пользоваться им, нужна какая-никакая теоретическая база. Хотя если вдруг что-то забыли, под задачами есть ссылки на туториалы.

🔵 ITResume. Прошли все курсы и прорешали задачи в тренажерах? Ну все, можно искать работу! Чтобы убедиться, что знаний достаточно, попробуйте порешать реальные тестовые задания в разные компании. Не только на SQL, кстати.

Надеемся, что было полезно. Если знаете другие классные курсы по SQL — делитесь в комментариях!

Читать полностью…

LEFT JOIN

Давайте познакомимся (и немного похвастаемся)
Канал растет, приходят новые люди, и мы предполагаем, что не все знают, кто стоит за этим проектом. Хотим об этом напомнить и заодно показать страницу, которую сверстали в Notion для новых сотрудников.

💙 LEFT JOIN — проект команды Valiotti Analytics, которая, как несложно догадаться, занимается аналитикой.
🔵Строим системы аналитики и процессы инжиниринга данных digital-стартапам из Европы, России и США с 2019 года.
🔵 Любим все, что про данные, и делимся любовью с подписчиками канала, слушателями подкаста Data Heroes, в блоге и на YouTube.
🔵 Помогаем войти в IT и познакомиться с SQL с помощью бесплатного курса про работу аналитика и платной email-рассылки про оконные функции.

И так уж получилось, что мы очень уважаем Notion, который используем как внутреннюю «Вики», храним там информацию, распределяем задачи и составляем планы. В общем, если вы сами работаете с ним, вы знаете, какие широкие у него возможности.

Но в правильных руках Notion — это не только удобно, но еще и красиво
🔵 Недавно сделали там страницу про компанию. Рассказали примерно то же, что в этом посте, дали ссылки на наши проекты и кейсы.
🔵 ЦА — в первую очередь потенциальные и новые сотрудники, которых над быстро ввести в курс дела, кто мы такие и чем занимаемся.
🔵 По максимуму использовали возможности верстки Notion, чтобы найти баланс между функциональностью, информативностью и эстетикой.
🔵 Заодно немного упростили жизнь HR. Видите внизу страницы табличку с вакансиями? Она легко обновляется в пару кликов, все вакансии заполняются по заранее сделанному шаблону. Кстати, раз уж об этом заговорили — обратите внимание, может, какая-то вакансия приглянется вам или вашим знакомым.

Кажется, получилось круто, так что решили похвастаться!

Читать полностью…

LEFT JOIN

Тест Тьюринга наоборот
Присмотритесь внимательно к рабочим чатам — нет ли там чего-то подозрительного? Всех ли этих людей вы знаете? Вполне возможно, кто-то среди них ­— не тот, кем кажется. 👀

В мессенджере Slack есть Slackbot — он отправляет напоминалки, автоматические оповещения, если вас упомянули по нику в каком-то чате, и все в таком духе. В общем, стандартный функционал для бота.

💬 Недавно журналист Том Маккей признался в Twitter, когда что в 2022 году он уволился с работы в издании Gizmodo, он поменял ник на Slackbot и поставил такую же, как у бота, аватарку, только более угрюмую. И в таком виде он оставался в рабочем воркспейсе в Slack незамеченным несколько месяцев. В рабочие чаты он не заглядывал, но иногда писал коллегам интересные (на самом деле не очень) факты или советы, выдавая себя за бота.

💬 Обычно роботы пытаются сойти за людей, а тут человек притворялся ботом. Правда, этот тест Тьюринга наоборот он скорее завалил — судя по скриншотам из чатов, бывшие коллеги быстро понимали, что к чему.

Читать полностью…

LEFT JOIN

Трансформеры и галлюцинации языковых моделей
Мы уже делились интересными материалами про «устройство» LLM — крутой 3D-моделью или статьей про логику нейросетей. Но эта тема, кажется, неисчерпаема.

Разобраться в ней без технического бекграунда может быть непросто, но есть люди, которые находят способ понятно рассказать про сложные вещи — например, про трансформеры. Нет, не те, про которых Майкл Бэй кино снимал.

🔜 Трансформер — это архитектура нейросетей, представленная командой Google Brain в 2017. Именно благодаря ей LLM сейчас генерируют такие живые, «человеческие» тексты (и не только).

Статья хороша тем, что не просто рассказывает, как они работают, но и показывает — без технических сложностей, наглядно и эффектно. То, что надо если вы с LLM не связаны, в общих чертах понимаете, что они делают, но не совсем представляете себе этот процесс.

Основные тезисы:
💬 Сначала LLM переводит обычный текст на понятный ей язык — то есть разбивает его на токены: отдельные слова или их части. Она «запоминает», какие токены часто встречаются рядом, а какие — редко.

💬 Раньше модели анализировали каждое слово последовательно, одно за другим. Трансформеры оценивают текст целиком и потому работают быстрее и лучше улавливают закономерности. Грубо говоря, это позволяет понимать контекст и различать, что в предложениях «На двери висел замок» и «У реки стоял замок», речь идет о разных замках.

💬 Зная частоту, с которой различные слова обычно встречаются рядом, модель предсказывает, каким должен быть ответ на промпт — то есть какая комбинация слов с наибольшей вероятностью будет уместна.

💬 То, что позволяет хорошо обученной модели генерировать связные и логичные тексты, становится причиной галлюцинаций, когда LLM «выдумывает» несуществующие факты. Она не понимает на самом деле ни смысл запроса, ни смысл своего ответа, а предсказывает, в какой последовательности должны идти слова. Из-за этого она может сослаться на несуществующую страницу в интернете или научную работу. Не со зла, а потому что так уж она устроена.

Читать полностью…

LEFT JOIN

О чем я говорю, когда говорю об оптимизаторе SQL-запросов
Парадоксальная ситуация.

Если вы хотите изучить что-то новое, сейчас это сделать легко, как никогда. Не важно, что это — иностранный язык или язык программирования, живопись, брейкданс или история древнего мира. Почти по каждой теме можно найти курсы, литературу или видео.

Но хотя контента много, откопать в сегодняшнем интернете среди откровенной дезинформации и вездесущих SEO-статей что-то полезное бывает сложно.

🔜 Если говорить про материалы про IT, то среди них много устаревших, неактуальных и полных ошибок. Тем круче, когда находишь людей, которые делятся своим реальным опытом и про интересные, но непростые темы.

Автор Xuanwo’s Blog (не будем транскрибировать имя, чтобы не ошибиться) пишет про автоматизацию, хранение данных и распределенные системы. Недавно он выложил первую статью из цикла про создание оптимизатора SQL-запросов. Это компонент БД, который отвечает за определение последовательности выполнения запросов.

🔜 Сам автор говорит, что первый текст — про основы, но надо понимать, что основы основам рознь. Это материал совсем не для новичков. Нужны хорошие практические и теоретические знания, а еще готовность читать про реляционную алгебру и прочие технические штуки. Конечно, автор добавил наглядности с помощью схем, но просто все равно не будет.

Однако, если вам интересна эта тема и вы не боитесь трудностей — материал очень ценный. Не каждый день что-то такое находишь. 🔥

Читать полностью…

LEFT JOIN

SQL объединяет
Но не людей, как Nokia, а данные.

Работать было бы проще, если бы всегда приходилось иметь дело с одним аккуратным, упорядоченным датасетом. Но нередко приходится разбираться, как объединить несколько таблиц в одну.

Делимся лонгридом, где автор рассматривает два способа — горизонтальный и вертикальный.

🔜 Горизонтальный — это через join’ы, операторы соединения, про которые, скорее всего, подумали многие из вас.

💬 Есть две таблицы, в которых надо сравнить данные — оценки студентов за летнюю сессию и за зимнюю. Количество строк и имена учащихся в них немного разные — в промежутке между экзаменами кто-то отчислился, а кто-то, наоборот, перевелся с другого потока.

💬 В зависимости от того, какой оператор вы используете, вы можете объединить таблицы так, чтобы собрать в одном месте все данные. Или посмотреть оценки только тех, кто выдержал обе сессии. Или тех, кто сдал экзамены летом и зимой, убрав отчислившихся и добавив новеньких. Какой оператор — inner join, full join, left join, right join — для какой задачи подходит, автор рассказывает и показывает с картинками и примерами кода. И, кстати, делает это очень здорово и без диаграмм Венна.

В итоге вы получите таблицу, которая увеличивается «горизонтально» — то есть столбцов у нее будет больше, чем у таблиц, на основе которых она была создана. Количество строк при этом может либо уменьшиться, либо тоже увеличиться.

🔜 Вертикальный способ — это такой, при котором после слияния таблиц увеличивается число строк. Автор подчеркивает, что это не совсем стандартный термин, а название, которое она использовала для удобства в этом материале.

💬 Например, у нас есть данные об оценках студентов за летнюю сессию из двух разных групп. Нам не нужно разносить из по разным колонкам и сравнивать — их нужно объединить в один длинный список. Вот тут и пригодится один из способов, описанных в статье.

🔜 Текст не претендует на исчерпывающий гайд по всем возможным способам объединения данных, но может быть полезен для тех, кто хочет разобраться в основах.

Читать полностью…

LEFT JOIN

EdMetrics: аналитика в онлайн-образовании
Мы часто пишем про данные и аналитику в развлекательном ключе. Находим для вас интересные новости или статьи, делимся полезными приложениями и иногда постим мемы.

Но вообще-то аналитика — это серьезный инструмент, который помогает раскрыть потенциал бизнеса. И это не просто громкий рекламный слоган.

Мы много работаем с EdTech — и небольшими проектами, и международными онлайн-школами из разных стран. И на их примере видим, как правильно настроенная система аналитики меняет все.

🔜 Маркетингу она поможет разобраться, сколько же на самом деле стоит лид, и оцифровать то, что казалось нецифруемым.
🔜 Методистам и преподавателям — понять, почему студенты теряют интерес к учебе или вообще уходят.
🔜 И всем сразу позволит наконец-то вздохнуть свободно, когда данные из кучи Google-таблиц, которые еще и заполнять надо вручную, переедут в нормальную базу.

🔥Круто же? Вот и мы так думаем, поэтому запустили нишевый аналитический проект EdMetrics!
🔵 Его цель — делать мощную аналитику для EdTech’а из России и СНГ. Амбициозно, но мы верим, что справимся, потому что у нас уже есть опыт и главное — ощутимые результаты.

🔵 Мы специализируемся на кастомных системах, которые создаем под запрос заказчика — никаких готовых коробочных решений.  

P.S. Если знаете кого-то, кому это может интересно — расскажите им! Mожет быть, благодаря вам, какой-то EdTech-проект перейдет на наш любимый data-driven подход.

Читать полностью…

LEFT JOIN

Яндекс Образование запускает студкемпы
Студкемп — это буквально «студенческий лагерь», мероприятие для студентов, где участники собираются на очный интенсив длиной в несколько дней. Они слушают лекции, выполняют практические задания и участвуют в различных проектах.

В этом году Яндекс планирует провести 4 таких студкемпа для старшекурсников технических вузов — от 3-го курса и старше. Набор на первый, который будет посвящен машинному обучению, уже стартовал и продлится до 29 февраля.

🔵 Первый студкемп пройдет 1-13 апреля на территории НИУ ВШЭ. Онлайн участвовать не получится — только очно.
🔵 Участие бесплатное, Яндекс также оплатит проживание и дорогу, но надо пройти отбор — выполнить тестовое задание и пройти собеседование, чтобы подтвердить знание Python и основ ML.
🔵 Занятия будут посвящены работе с LLM и разными типами данных, автоматизации процессов обучения моделей, визуализации результатов. Нетворкинг, общение с будущими коллегами и экспертами и другие достоинства очных тематических мероприятий прилагаются.

Темы следующих студкемпов: Software Engineering, Math and Data Science, Robotics and AI.

Читать полностью…

LEFT JOIN

Все, что вы хотели узнать про рекламу в LEFT JOIN
Весна — это время пробуждения, вдохновения и обновления, поэтому подумали и решили обновить медиакит. 😁 А заодно написали небольшую справку для рекламодателей.

🔜 В медиаките вы найдете расценки, форматы рекламных интеграций и данные о канале — аудитория и метрики.

🔜 Во втором документе мы рассказали об условиях сотрудничества: как проходит подготовка рекламных материалов, согласование, оплата, выбор даты публикации. В общем, ответы на часто задаваемые вопросы.

Мы рассматриваем заявки на разные темы: курсы, мероприятия, вакансии, инструменты для IT-специалистов и аналитиков, тематические каналы и просто всякое интересное про диджитал и технологии. Главное, чтобы продукт был действительно качественный и достойный! 🔥

Читать полностью…

LEFT JOIN

Лайфхаки и нейросети на любой случай в жизни
У вас бывает такое ощущение, что у некоторых людей есть специальный гайд к этой жизни, где написано, как правильно жить?

🔵 Как пользоваться кредиткой, чтобы не влазить в долги, или где покупать продукты по акции.
🔵 Или как раскрыть тот самый легендарный потенциал «Экселя», о котором все столько говорят.
🔵 Или как узнать про секретные фичи «Фотошопа».

А еще у них на каждый случай в жизни есть какой-то специальный удобный сервис, приложение или, как сейчас модно, — отдельная нейронка. Откуда они все это узнают? Где они находят все эти лайфхаки?

Эту загадку мы вряд ли разгадаем, но, к счастью, иногда эти люди делятся своей мудростью с простыми смертными. Благодаря этому мы тоже можем узнать про нейросеть, которая апскейлит винтажные мемы, или всякие крутые фишки привычных гаджетов и приложений.

🔜 Канал iTeach как раз про это. Конечно, про кредитки и скидки на продукты они не пишут, зато пишут про нейронки, полезный софт и личную кибербезопасность.

Читать полностью…

LEFT JOIN

А вы уже используете ИИ в работе?
Недавно на World Government Summit в Дубае CEO Nvidia Дженсен Хуанг, что учиться кодить уже не надо — эту задачу пора оставить искусственному интеллекту.

Как и все подобные заявления, слова Хуанга вызвали бурные обсуждения между противниками и сторонниками AI. Далеко не всем нравится, как сильно искусственный интеллект и нейросети проникают во все сферы жизни от искусства до медицины.

🔜 Мы на стороне тех, кто считает, что Хуанг был не так уж и не прав.
AI не заменит людей — программистов, художников, авторов, но он может сделать их жизнь проще, а работу — продуктивнее и интереснее. А самое главное, что возможности искусственного интеллекта намного больше, чем генерация картинок.

Именно на самых «хайповых» возможностях нейросетей концентрируются большинство СМИ. Поэтому всегда приятно найти источник, который рассказывает про интересные и небанальные способы работы с нейронками!

Например, ребята из Machine Learning пишут не только про новости, но и делятся интересными open-source моделями, полезными ресурсами и руководствами:

🔵 OpenCodeInterpreter — модели для генерации кода,
🔵 Новый SOTA для обнаружения объектов в реальном времени,
🔵 Молниеносная генеративная модель.

🔥 Хороший канал для тех, кто хочет больше узнать о ИИ и начать применять нейронки на практике!

Читать полностью…

LEFT JOIN

Как ChatGPT упростил мне жизнь
ChatGPT — один из таких инструментов, про который все говорят: «Какой у него большой потенциал!», но пользоваться им многие толком не умеют. Пора исправляться!

Моя личная история о том, как он может упростить жизнь — в новом видео на канале «Дата Коля»!

🔵 Как написать письмо в консульство, после которого не откажут в визе?
🔵 Как заставить ChatGPT делать за себя скучную работу вроде заполнения табличек?
🔵 Как писать крутые промпты?

Никакой инфоцыганщины и обещаний научить зарабатывать на ChatGPT миллионы. Только честный личный опыт.

🔜 Очень жду ваших лайков и честных коментов!

Читать полностью…

LEFT JOIN

Microsoft BI уходит из России
И не только он.

🔜 Клиенты Microsoft получили письма счастья, где компания предупредила их, что с 20 марта прекращает поставки ПО для российских клиентов, включая облачные решения. Какое именно ПО затронут эти изменения, не уточняется, но, согласно самой популярной версии, мы останемся без Power BI, Dynamics CRM, Microsoft 365 и Outlook.

Что ж, сегодня узнаем точно.

За последние два года многие компании уже перешли с Microsoft на российские и open source-аналоги. Но все же кто-то продолжал пользоваться ее сервисами — например, те, у кого подписки были оплачены на несколько лет вперед. С сегодняшнего дня они потеряют доступ к сервисам Microsoft и всем данным, которые там хранились.

А как у вас? Вас затронуло это решение Microsoft или вы отказались от их услуг? А может, и не пользовались никогда? Делитесь в комментах, как вы теперь будете жить без Power BI и Outlook! 👀

Upd
. А вот и список продуктов, к которым Microsoft ограничивает доступ — всего 50 штук, включая Power BI, OneDrive, Microsoft 365 и Azure.

Читать полностью…

LEFT JOIN

Row Zero: как Excel, только в 100 раз быстрее
Row Zero — новый облачный инструмент для работы с данными, который среди аналогов выделяется тем, что умеет быстро обрабатывать очень большие объемы данных.

🔵 Интерфейс, как у всем знакомого Excel. Он понимает такие же формулы, умеет делать таблицы и визуализировать данные. Не Tableau, но график нарисует.
🔵 В него можно загружать CSV и JSONL-файлы или напрямую подключать к источникам данных — базам, хранилищам, аккаунтам в соцсетях, рекламным кабинетам и так далее.
🔵Не боится ни файлов весом в несколько ГБ, ни миллионов строк и столбцов. На официальном сайте уверяют, что он в 1000 раз шустрее Google Sheets.
🔵 И все это в облаке — то есть легко расшарить для совместного просмотра или редактирования.

Убедиться, насколько правдивы обещания разработчиков, можно прямо сейчас, бесплатно и без регистрации и без смс. У бесплатной версии есть свои ограничения, но оценить полезность инструмента она позволит.

Читать полностью…

LEFT JOIN

TimeGPT: нейросеть для анализа временных рядов
Когда речь заходит про нейросети, большинство вспоминает про ChatGPT, Midjourney, Stable Diffusion, Sora и так далее.

У них функционал все более впечатляющий с каждой новой версией и одновременно понятный: генерация текстов, изображений и видео по запросу. Их уже используют в самых разных сферах — создают рекламные креативы, «прикручивают» к чат-ботам, пишут дипломы.

Но ИИ используется и для более узких, специализированных задач. Пример: TimeGPT — модель, которая анализирует временные ряды.

🔜 Временной ряд — это последовательность значений показателей, изменения которых фиксировались в течение определенного промежутка времени. Например, биржевой курс доллара.

Анализ временных рядов используется, чтобы составить прогноз изменений, выявить тенденции и закономерности. Это непростая задача, которая решается с помощью сложных математических моделей. Неудивительно, что появилась ИИ-альтернатива, которая призвана сделать анализ временных рядов быстрым и доступным.

Ее предложила компания Nixtla
💬 TimeGPT — модель, натренированная на датасете из более чем 100 млрд показателей. Данные брали из открытых источников.

💬 Ее можно файнтюнить на своих данных, чтобы улучшить результаты, но авторы заверяют, что она и без этого справляется. То есть, TimeGPT можно дать набор данных, которые она никогда раньше не видела, и она составить по ним прогноз и выявит аномалии.

💬 Авторы сравнили TimeGPTс 10+ различных альтернатив, и почти во всех случаях ее прогнозы были точнее. Правда, они не стали сравнивать ее с самыми популярными методами для анализа временных рядов — моделью ARIMA и Prophet из-за сложности и ресурсоемкости.

Подробнее про бенчмарк, а также саму модель и ее архитектуру они рассказали в своей работе на arxiv.org.

Сейчас TimeGPT находится в бете — нужно подать заявку, чтобы принять участие в тестировании. Но уже доступны несколько open source-инструментов, которые умеют предсказывать погоду и изменения экономических показателей.

Читать полностью…

LEFT JOIN

Идти в IT
Первым программистом — точнее программисткой — была математик Ада Лавлейс. В XX веке программирование долгое время было преимущественно женской профессией — в основном, потому что требовало усидчивости и внимательности, которые традиционно считались «женскими» чертами.

Со временем ситуация изменилась, и сейчас в IT работает намного больше мужчин — в России их доля составляет 74%.

Постепенно этот показатель меняется, все больше девушек и женщин выбирают карьеру в IT. Компания Smartex и организация Women in Tech Russia запустили проект «Идти в IT?», где собрали истории 62 участниц, выбравших карьеру в этой отрасли.

Они рассказали, кем они работают и как пришли в профессию, с какими трудностями сталкивали и как их преодолевали. И, кстати, там есть история нашей коллеги из Valiotti Analytics — Регина! ❤️

Проект был приурочен к 8 марта, но мы считаем, что про такие классные, вдохновляющие инициативы стоит рассказывать круглый год. 🔥

Читать полностью…

LEFT JOIN

Как нейросети помогают изучать историю
Мы уже рассказывали про преподавателя истории Бенджамина Брина, который нашел любопытное применение ChatGPT. Он использовал нейросеть как тренажер для своих студентов, где те моделировали ситуации из прошлого — например, из охваченного чумой Парижа. Они должны были проанализировать историческую достоверность симуляции и написать про это эссе.

Еще в сентябре Брин отметил рост заинтересованности в учебе со стороны студентов. А теперь у него накопилось достаточно данных, чтобы подтвердить свои слова статистикой.

🔵 59% студентов отметили, что стали больше интересоваться его предметом, а для 40% учеба стала намного интереснее. Только 1 человек из опрошенных сказал, что наоборот потерял интерес.
🔵 Когда их спросили, что им понравилось больше всего, 71% выбрали вариант «возможность принимать решения как участник исторических событий».
🔵 84% заявили, что ИИ-симуляции помогли им лучше понять исторический период, который они изучали.

Главной проблемой этого подхода так и остается точность симуляций. Хотя Брин верит, что этот недостаток можно будет со временем преодолеть.

💬 Он приводит в пример попытки заставить LLM разыграть из себя врача из 17-го века. Сначала Брин поэкспериментировал с моделью MonadGPT, которая по словам авторов, дает ответ на вопрос «Что было бы, если бы ChatGPT появилась в 17-м веке?» Потом попробовал сам научить ChatGPT давать ответы, как доктор из этой эпохи, то есть назначать лекарства, которые использовались в то время. В обоих случаях модели дали реалистичные, пусть и неидеальные ответы.

Возможно, нам и не надо стремиться к идеальной точности. Главное достоинство нейросетей — в том, что они помогают подстегнуть воображение и по-новому взглянуть на знакомые темы. Они не замена привычным способам обучения, а просто новый инструмент для преподавателей, ученых и писателей.

Читать полностью…

LEFT JOIN

UNION ALL: конференция Yandex Cloud про технологии для работы с данными
Конференция пройдёт 20 марта: на одной площадке объединятся эксперты из разных областей, чтобы поговорить про аналитику, облачные технологии, ML и многое другое.

Всего будет 2 трека — про кейсы и про технологии.

🔵 На первом спикеры поделятся опытом и лучшим практиками для работы с данными и построения дата-проектов в облаке — от создания корпоративных хранилищ данных до построения систем скоростной аналитики.

Среди приглашенных экспертов — представители банка, крупных ритейлеров, цифровых платформ и общепита. Так что кейсы будут максимально разнообразные.

🔵 На втором треке сотрудники Yandex Cloud расскажут про эффективные решения для работы с данными и поделятся последними обновлениями в сервисах. Из актуальных тем - безопасность хранения данных в облаке, последние новости по сервису для визуализации данных DataLens, возможности и сценарии для решения ML-задач.

🔥 А еще в конце мероприятия будет секретный доклад — даже мы пока не знаем, про что он будет!

Конференция пройдет в Москве на территории «Синема Парк Мосфильм», но присутствовать лично необязательно — можно и онлайн.

Обязательна только предварительная регистрация 🔜

Читать полностью…

LEFT JOIN

Basedash: дашборд за 10 минут
Еще один инструмент на основе ИИ, который позволяет работать с данными без кода — или почти без кода. Basedash подключается к БД и генерирует интерфейсы для взаимодействия с ней.

💬 Это может быть дашборд, CRM или целая админка, которая позволяет редактировать, добавлять или удалять данные.

💬 Все это приложение умеет делать без кода, но при желании можно писать SQL-запросы самостоятельно или с помощью ИИ-ассистента.

💬 Basedash работает с PostgreSQL, MySQL, MariaDB, SQL Server и Redshift, а также позволяет подключать API сторонних сервисов, чтобы подтягивать информацию из них.

💬 Созданный в Basedash интерфейс можно расшарить с другими людьми и раздать разные уровни доступа. Настройки довольно гибкие: можно ограничить возможности для просмотра или редактирования данных, выборочно скрыть часть информации на дашборде или вообще спрятать его за двухфакторной идентификацией.

Главное преимущество — экономия времени. 🔥 Команда проекта обещает, что собрать дашборд в Basedash получится в 100 раз быстрее, чем если делать его самостоятельно. Правда, нигде не написано, как они это посчитали.

Так или иначе, это потенциально интересное решение, особенно для небольших команд, у которых нет ни ресурсов, ни необходимости, чтобы делать использовать более сложные инструменты.

Читать полностью…

LEFT JOIN

Как и зачем мы сделали три дашборда по LinkedIn
💙 LEFT JOIN — это не просто канал в телеграме и оператор в SQL. Это один из множества проектов нашей команды. Кроме него, есть еще одноименный блог, канал на Youtube и несколько аккаунтов в разных соцсетях. Только в LinkedIn аж три разных профиля.

В общем, мест в Интернете, где мы постим всевозможный полезный контент про данные, аналитику, AI и новости IT довольно много. За ними надо следить, мониторить, как аудитория растет и реагирует на разные публикации. Никто не хочет постить что-то, что совершенно не будет цеплять аудиторию.

Когда аккаунтов много, собирать информацию про их успехи вручную становится неудобно и неэффективно. Так мы решили сделать дашборд в Tableau, чтобы вся нужная информация подтягивалась автоматически и отображалась на графиках.

🔜 И это оказалось не так уж и просто, но интересно! Все подробности — в новой статье в блоге.
🔵 Делали для себя, но как для клиента ровно по тому же алгоритму. Подготовились, узнали про возможности и ограничения площадки, провели серию интервью с пользователями.
🔵 Столкнулись с тем, что тянуть данные с личных аккаунтов в LinkedIn намного сложнее, чем с корпоративных. Для таких задач мы обычно используем инструмент Fivetran, но он работает только со страницами организаций. Сервисы, специально заточенные под личные аккаунты, спустя какое-то время начали требовать капчу, которую надо вводить руками. Это шло вразрез с желанием автоматизировать эти процессы, так что пришлось создать решение самостоятельно.
🔵 Дашбордам всего несколько месяцев, но результаты они уже принесли. Мы уже составили портреты ЦА и увидели, какие темы заходят подписчикам лучше всего.

Читать полностью…

LEFT JOIN

Зачем кому-то сидеть в Тиктоке?
Этим вопросом задаются многие люди старше 30 лет, и наконец-то наука нашла ответ.

Авторы исследования взяли 1000 студентов американского вуза и спросили, за какую сумму те будут согласны на 4 недели деактивировать свои аккаунты в соцсетях. Они сравнили, как менялись ответы в зависимости от условий: если друзья опрошенных тоже уходили с этих сайтов и если они продолжали на них сидеть.

🔜 Оказалось, что люди просили на 33% больше денег, чтобы временно уйти из Тиктока, если их знакомые не делали этого. То есть чем больше людей вокруг сидят в соцсети, тем сложнее отказаться от нее.
🔜 Также спрашивали, сколько человек сам заплатил бы за то, чтобы его знакомые ушли из соцсетей. Те, у кого не было своих аккаунтов были готовы отдать примерно в 2 раза больше денег, чем те, у кого они есть.
🔜 Исследователи пришли к интересному, но немного печальному выводу. Хотя многие юзеры не видят пользы в соцсетях, им кажется, что отказ от них принесет больше вреда.

Вот так графики показали, что вынуждает людей листать бесконечную ленту с фотками и видео с котами — неумолимое давление со стороны окружения.

Читать полностью…

LEFT JOIN

Данных стало слишком много
Уже даже Большому Брату следить за нами становится тяжеловато.

Bloomberg рассказал про нелегкие будни американских шпионов. Казалось бы, причем здесь данные?

🔵 Раньше главной проблемой было достать секретную информацию об объекте слежки. А сейчас — извлечь крупицы пользы среди огромных объемов доступных данных. Их стало так много, что обработать их силами обычных людей становится невозможно.
🔵 Большинство из нас оставляют за собой цифровой след. Посты в соцсетях, данные о местоположении, которые собирают разные приложения, или о покупках и переводах. А еще фотографии, видео, аудио…
🔵 Это потенциально ценная информация о человеке, часть которой еще и лежит в открытом доступе. Но ее настолько много, что для того, чтобы извлечь из нее, как сейчас модно говорить, инсайты, правительству США даже пришлось обратиться к ИИ.
🔵 Задачу усложняет то, что все эти данные собирают разные департаменты и делают это по-своему. Они не всегда делятся находками друг с другом, по-разному их обрабатывают и хранят. Так что мало найти данные — надо их еще как-то скоординировать между собой.

Скажите ведь, звучит это все на удивление жизненно? Гора разрозненных данных из кучи источников, все по отдельным табличкам, и никто толком не понимает, где что лежит и как это собрать в кучу. 👀

В следующий раз, когда столкнетесь с чем-то подобным, можете успокоить себя тем, что это проблема не уникальная, а общечеловеческая и не чуждая даже американской разведке.

Читать полностью…

LEFT JOIN

Токсичные комментарии отравляют интернет
Анонимность в интернете развязывает руки, и люди часто пишут здесь вещи, которые в лицо оппоненту не сказали бы. И это может приносить реальный вред не только отдельным юзерам, но и целым ресурсам.

💬 Команда ученых проанализировала 57 миллионов комментариев к 8,5 миллионам правок к статьям на «Википедии». Они ограничились 6 самыми активными версиями ресурса — английской, немецкой, французской, испанской, итальянской и русской.

Они сравнивали активность пользователей, получивших токсичные и нетоксичные комментарии к своим правкам. Оказалось, что у первых она была ниже в течение следующих 100 дней. Также увеличивался риск того, что пользователь вообще покинет сайт.

Почему это проблема?
💬 «Википедия» — это результат коллективного труда множества пользователей. Только у англоязычной версии больше 120 000 активных юзеров, которые пишут, правят и дополняют статьи.

В основе проекта лежит прекрасная идея, но он не лишен проблем и конфликтов. В частности, знаменитых «войн правок», когда одни пользователи вносят информацию в статью, другие ее удаляют, потом первые возвращают обратно. Это может продолжаться долго и сопровождаться обменом любезностями в комментариях.

Для любопытствующих — на «Вики» даже есть отдельная статья про самые дурацкие войны правок.

💬 Может показаться, будто это не стоит принимать всерьез. И есть люди, которых никакие комментарии действительно не задевают.

Но мы тут не про частности, а про данные. И вот они показывают, что в масштабах всего сообщества проекта снижение продуктивности очень серьезное. «Вики» теряет не просто человекочасы, а целые человекогоды пользовательской активности. Меньше всех страдает русскоязычная версия — у нее выпадает всего 5 лет, тогда как у англоязычной — 265. И это важно для проекта, который по своей сути полагается на вклад пользователей.

А вывод какой? Уже даже статистика говорит, что не надо писать токсичные глупости в интернете — он от этого портится. ❤️

Читать полностью…
Subscribe to a channel