Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
«SQL База» для всех кто мечтает стать аналитиком
Новый курс от команды LEFT JOIN уже доступен на Stepik!
«SQL База» — идейное продолжение нашего первого обучающего проекта «Марафон данных». Он тоже объединяет изучение основ SQL со знакомством с самой профессией аналитика. С одной стороны — много теории и практики, задачи, принципы написания запросов, с другой — разъяснение основных терминов и особенностей работы в дата-команде.
Он построен как стажировка в онлайн-магазине True Coffee. То есть предстоит не просто решать задачки из учебника, а помогать коллегами из разных отделов делать выгрузки данных и выполнять разные запросы, максимально похожие на реальные.
🔜 Для кого мы создавали этот курс?
В первую очередь он будет интересен тем, кто хочет построить карьеру в аналитике или только-только начал это делать — студентам, джунам и людям, планирующим сменить профессию.
🔜 Что там будет?
🔵Знакомство с устройством баз данных.
🔵Выборка данных с помощью операторов сравнения, агрегация и группировка.
🔵Соединение таблиц и наш любимый оператор LEFT JOIN (и не только он).
🔵Основы визуализации данных и важные продуктовые метрики.
🔵А в финальном задании вы проведете исследование, чтобы подвести итоги маркетинговой кампании!
Если пока все это выглядит очень уж сложно и непонятно — ничего страшного. «SQL База» знакомит со всеми нужными терминами и понятиями.
Курс платный: 1330 рублей. Для наших подписчиков нам ничего не жалко, поэтому мы предлагаем промокод — LEFTJOIN
. Он действует с 30 июля по 4 августа и позволяет купить курс со скидкой 35% за 865 рублей.
🔜 Ссылка на курс «SQL База» с примененным промокодом
Надеемся, что вам понравится курс, и ждем ваших отзывов!
Data Heroes: интервью с Кариной Павловской
Онлайн-школа английского Skyeng вряд ли нуждается в представлении — о ней знают почти все. Кто-то учился, кто-то преподавал, кто-то рекламу видел. Сегодня познакомимся с ней еще ближе, потому что гостьей нового выпуска Data Heroes стала Карина Павловская, Head of Brand & Product Marketing в Skyeng.
О чем будет подкаст?
🔵Какие люди становятся руководителями, и что надо, чтобы построить успешную карьеру?
🔵Как (и зачем) кардинально сменить сферу работы и перейти из фешн в эдтех?
🔵Как работает маркетинг в Skyeng, и как огромная компания, которая уже у всех на слуху, борется с «баннерной слепотой»?
Ну, а где маркетинг, там и аналитика. Узнали, как выстроено взаимодействие маркетинга и дата-команд в компании и на какие метрики смотрят те, кто отвечает за продвижение бренда Skyeng. А еще поговорили про плюсы self-service подхода в аналитике.
👀 Смотрите: YouTube.
Слушайте: Яндекс Музыка, Apple Podcasts, Spotify.
#dataheroes
За что мы любим маркетинг
Так уж получилось, что где маркетинг — там и аналитика, потому что как еще посчитать, окупилась ли реклама?
А где аналитика, там где-то рядом и маркетинг как один из главных заказчиков.
🔜 Поэтому хоть мы тут и про данные, но маркетологов любим и за новостями из сферы рекламы следим. Например, на канале «Двухметровый маркетинг» про небанальные способы продвижения в разных сферах. Про наши любимые темы про ИИ и технологии посты тоже бывают.
Это, кстати, не просто канал. @marketing2meters — это человек и пароход еще и digital-агентство, которое помогает брендам разрабатывать приложения, продвигаться и находить клиентов — в том числе, в Telegram. Сам канал ведет основатель агентства.
Мы такое любим — когда люди разбираются не только в креативе, но и в цифрах. ❤️
26 must-read статей про AI
Хотите начать разбираться в теме искусственного интеллекта, как профессионал?
Тогда у нас для вас есть прекрасная подборка статей на эту тему. То есть, не совсем у нас.
🔜 Авторство подборки приписывают Илье Суцкеверу (сооснователю OpenAI, из которой он ушел в прошлом месяце). Он составил ее для Джона Кармака — того самого, который в 90-х подарил нам Doom и Quake, а потом ушел развивать мета-вселенные и искусственный интеллект.
Кармак попросил Суцкевера посоветовать, что почитать на тему ИИ. Суцкевер выдал ему этот список и сказал:
«Если ты действительно выучишь это все, то будешь знать 90% того, что важно сегодня».
Microsoft выложила GraphRAG на GitHub
GraphRAG — это технология от Microsoft, которая строит графы с помощью LLM на основе данных, с которыми раньше не работала. То есть тех, которые не использовались для обучения модели.
Она обрабатывает весь набор данных, выявляет упоминающиеся в нем сущности и находит связи между ними. А затем создает сложный граф, где каждый кружок — это отдельная сущность. Размер зависит от количества связей с кружками, а одинаковыми цветами раскрашиваются близкие по смыслу объекты.
🔜 Таким образом можно обработать большие массивы текстовых данных — например, архивы переписок, документы или исследования. А затем искать среди них нужную информацию.
Особенность технологи в том, что когда она ищет ответ на запрос пользователя, она ищет по всему датасету с учетом контекста. Это помогает ей отвечать на вопросы, где требуется полное понимание смысла материала, чтобы объединить разрозненные куски информации или ответить на общие вопросы в духе «Опиши 5 главных тем этого документа».
🔜 И вот недавно эта технология стала доступна общественности: ее выложили на GitHub и даже сопроводили FAQ’ом и инструкцией по написанию промптов.
Путь к карьере аналитика начинается здесь
Студентам говорят, чтобы они забыли все, чему их учили в школе, начинающим специалистам — чтобы забыли все, чему их учили в университете. Будто образование, даже очень качественное, не подготовит к тому, что ждет дальше.
Но, конечно, хотелось бы, чтобы было иначе. Особенно, когда речь заходит про онлайн-курсы, куда идут за новой профессией. Хочется верить, что они действительно помогут найти работу и уверенно себя чувствовать на ней.
🔜 Мы тут собрались (в основном), потому что любим данные и SQL, так что нам особенно близка тема курсов по аналитике.
Особенность сферы в том, что в ней очень важно понимать требования бизнеса. Не просто писать красивые запросы, а уметь решать прикладные задачи и погружаться в работу компании. Это сложнее, чем писать на Python или SQL, но именно за это и платят хорошим аналитикам 120к+ в месяц.
Хорошая новость — этому тоже учат.
🔵Курс «Аналитик PRO» на 75% состоит из практики. Он длится год, в течение которого студенты работают над реальными задачами и бизнес-проектами индивидуально и в группах. За это время вы освоите Excel, Python, SQL, BI-системы и многое другое, а после успешного прохождения курса вам будет что написать в резюме и показать в портфолио, чтобы заинтересовать работодателя!
🔵 Курс разработали в онлайн-школе Changellenge >> Education. Она специализируется на обучении аналитике и вполне в этом успешна — ее выпускники работают в Яндексе, VK и Газпроме. Мечты сбываются, если ваша мечта — стать аналитиком и найти крутую работу.
🔵 Фаундер школы – Андрей Алясов – сначала сам был аналитиком в Microsoft, потом консультантом в Kearney, учился в Гарварде и Лондонской бизнес-школе. И весь этот опыт лег в основу курсов по аналитике.
Хотите узнать больше — оставьте заявку на бесплатную консультацию. Если программы школы понравятся, то не забудьте наш промокод LEFTJOIN — за него дадут скидку 25 000 рублей на любой курс. Срок действия промокода ограничен
В российских вузах начнут готовить специалистов по ИИ
Роль ИИ постоянно растет, и он постепенно проникает во все сферы деятельности — от науки до повседневной жизни. Так что неудивительно, что в разных странах уже появляются целые программы в вузах, посвященные искусственному интеллекту.
И в России тоже.
🔜 В новом учебном году Яндекс и Сбер запускают вместе с НИУ ВШЭ, ИТМО, МФТИ и Университетом Иннополис программу AI360 или ИИ360. Там будут готовить специалистов по ИИ, которые будут двигать вперед науку и технологии. А если конкретнее — ML-исследователей и AI-архитекторов.
Что ждет студентов?
🔵 Фундаментальная подготовка с углубленным изучением математики.
🔵 Доступ к технологиям от Яндекса и Сбера и изучение лучших мировых практик в сфере ИИ.
🔵 Научная деятельность со второго курса. Студенты смогут присоединиться к исследованиям и посетить международные конференции.
Легко не будет, но чтобы дополнительно поддержать студентов во время учебы, им обещают повышенную стипендию на протяжении всех 4 лет обучения. Подать документы можно до 25 июля.
Box plots: датавиз не для всех
Смысл визуализации данных — в том, чтобы представить сложную информацию наглядно и понятно. Так, чтобы человек мог быстро в ней разобраться и извлечь что-то полезное для себя.
Но иногда что-то идет не так.
Вот давайте честно, вам нравятся box plots — они же «ящики с усами» или диаграммы размаха?
💬 Если не знаете, что это, то вот объяснение на русском, а вот — видео на английском.
В теории это прекрасный способ визуализации, в который очень плотно упакован большой объем информации:
🔵 максимальное, минимальное и медианное значения;
🔵 квартили и асимметрия данных — если в каком-то квартиле сильный разброс значений, это будет видно по длине «уса» или «ящика»;
🔵 сравнение сразу нескольких сущностей по всем этим показателям.
Проблема в том, что эта информация изображена контринтуитивно. Про это есть длинный материал, но если кратко, то вот главные тезисы.
🔵 Чтобы разобраться в box plots, надо, как минимум, знать, что такое квартиль. Из-за этого возникают сложности с восприятием. Например, если один «ус» очень длинный, подсознательно воспринимается, будто в нем больше всего значений, но на самом деле — в нем просто большая разница между максимумом и минимумом. Число значений во всех частях графика одинаковое.
🔵 Дизайн заставляет думать, что крупная часть в центре, сам «ящик» — самая значимая, а «усы» как бы приложение. Хотя с чего бы?
🔵 К тому же, кажется, будто на графике три элемента: «ящик» и два «уса». На самом деле их 4: два «ящика» разделены медианой.
С одной стороны, все эти недопонимания — проблема зрителя. Box plots существуют давно, инструкций, как их читать — достаточно. Кто захочет, тот вникнет. Но всю ту же информацию, которую содержат «ящики» можно показать более наглядно и доступно. А не в этом ли цель всего датавиза?
По ссылке выше есть примеры — распределение значений показывают «тепловыми картами» и точками. Чем ярче участок на графике или чем плотнее на нем расположены точки, тем больше там значений.
А вы пользуетесь ли box plots в работе? Вам легко в них разбираться?
Внедрили аналитику на старте и увеличили прибыль до 1,2M$
Недавно в комментариях попросили «что-нибудь посложнее». Окей, есть и посложнее.
💬 Как с нуля построить аналитику для быстро растущего стартапа?
💬 Как на практике выглядит «data-driven подход», и как данные помогают принимать решения в бизнесе?
💬 Какие знакомые любому предпринимателю проблемы решает аналитика?
Разбираемся на реальном примере кейса Valiotti Analytics — кастомной системе аналитики, которую сделали для EdTeh-стартапа Refocus. Мы присоединились к проекту прямо на старте и построили инфраструктуру по работе с данными, которая росла вместе с компанией. От двух отчетов с данными из AmoCRM она выросла в полноценную систему из 40+ дашбордов по продажам, маркетингу и продуктовому направлению.
🔜 Что мы такого сделали с данными, что компания выросла в 25 раз — в новой статье фаундера Valiotti Analytics на vc.ru. Если интересно заглянуть прямо внутрь системы аналитики и узнать, как и что в ней работает, это отличный шанс!
💙 Новый интересный пост от создателя LEFT JOIN и фаундера Valiotti Analytics на канале Коля Валиотти • Дата консалтинг про данные и внедрение data-driven подхода в компании!
Читать полностью…Data Heroes с Александром Шестопаловым из BBE
Гостем нового выпуска подкаста стал коммерческий директор Bang Bang Education Александр Шестопалов. Это онлайн-школа дизайна и технологий, где студентов учат дизайну, анимации, монтажу и вот теперь аналитике.
Александр в эдтехе больше 8 лет — он успел поработать в маркетинге GeekBrains и Skillfactory. В BBE он с нуля построил команду маркетинга
Про что говорили?
💬 Про эдтех. Почему эта сфера сложная, но интересная? Чем отличаются массовые онлайн-школы от нишевых в подходах к продвижению и созданию курсов? Почему BBE, онлайн-школа творческих профессий, решила вести курсы для аналитиков?
💬 Про работу с людьми. Как нанимать людей и не ошибаться (или ошибаться, но редко)? Как проверить скиллы соискателя на собеседовании, и почему если человек сделал тестовое с помощью ИИ, это не всегда плохо?
💬 Про аналитику. Как устроена аналитика в эдтехе? За какими метриками следит коммерческий директор?
💬 Про будущее и технологии. С какими задачами ИИ справляется хорошо, а в чем все еще не может заменить человека? И что ждет эдтех — уйдем ли вы офлайн или сфера будет расти и дальше?
Выпуск уже на всех платформах: Яндекс Музыка, Apple Podcasts, Spotify.
Пишите, как вам подкаст?
#DataHeroes
Мы теряем интернет
«Все, что попадает в интернет, остается там навсегда» — слышали такую фразу? Ее еще любят припоминать, когда заходит речь об эффекте Стрейзанд или той самой фотографии Бейонсе, которую ее адвокат удалил из интернета.
Оказывается, это неправда.
🔜 38% веб-страниц, существовавших в 2013, сегодня уже недоступны — это обнаружила команда дата саентистов из Pew Research Center. Они изучили ссылки на новостных и правительственных сайтах, в примечаниях в «Википедии» и твиты. Последние — чтобы разобраться, как «цифровой распад» сказывается на соцсетях.
Для того, чтобы отследить появление и исчезновение страниц за 10 лет, с 2013 по 2023 годы, они использовали Common Crawl. Это бесплатный архив, который каждый месяц собирает данные об доступных сайтах в интернете. В выборку исследователей попало чуть меньше миллиона разных страниц.
🔵23% новостных страниц и 21% страниц на правительственных сайтах содержат как минимум одну битую ссылку.
🔵 50 000 статей из «Википедии» в сумме содержали больше миллиона ссылок в разделе «Примечания» — то есть они вели на внешние сайты. Из них 11% оказались нерабочими.
🔵 За 10 лет почему-то исчезла половина твитов, написанных на турецком и арабском языках.
🔵 1/5 опубликованных твитов исчезают в течение нескольких месяцев.
Даже немного грустно от мысли, сколько информации — полезной и не очень — потеряно и сколько еще мы потеряем. Может, когда-нибудь и знаменитая фотография Бейонсе исчезнет.
ML и нейросети в российских сервисах
Большинство обсуждаемых новостей про нейросети и искусственный интеллект предсказуемо генерируют США и Китай. Но ими дело не ограничивается, поэтому мы решили посмотреть, как дела за их пределами — например, в России.
Самый очевидный пример — маркетплейсы. Они внедряют ИИ, чтобы сделать проще заполнение карточек текстами и картинками.
🔵 «Яндекс Маркет» добавил в личные кабинеты продавцов YandexGPT, создающую описание по информации в карточке. Wildberries тестирует сервис, которому достаточно только названия товара, чтобы составить текст.
🔵 Также внедряют нейросети, генерирующие картинки с товарами. YandexART представили в декабре прошлого года. Она до сих пор в бете и доступна не для всех категорий товаров. У Wildberries и Ozon аналогичные функции тоже пока находятся на стадии тестирования.
🔵 Ozon пошел дальше всех и еще в прошлом году выкатил сервис для генерации обложек на основе ML. Результат работы прикрепили к посту — кажется, дизайнерам боятся пока нечего.
🔵 «Яндекс Маркет» заботится не только о продавцах, но и покупателях — для них нейросеть генерирует персонализированные подборки товаров.
ML‑калькулятор для расчета стоимости квартир. Опять «Яндекс» — на этот раз «Яндекс Недвижимость».
🔵Сервис «Про дом» рассчитывает стоимость покупки или аренды жилья на основе данных в карточке: этаж, площадь, число комнат. Он принимает во внимание также состояние дома и цены на соседние квартиры в моменте и в динамике.
«2ГИС» наводит порядок в карточках.
🔵 Нейросеть собственного изготовления сортирует фотографии по альбомам — отделяет фото интерьера от экстерьера и фото блюд из меню от фото парковки.
🔵 Сберовская GigaChat делает то, что в комментариях на vc.ru метко назвали «жмых по отзывам» — то есть краткое описание места или заведения на основе того, что о нем писали люди.
А нам все не дает покоя ML-обложка от Ozon. Если наберется 100 👍🏻 — наш дизайнер сделает свою версию.
Ставьте лайки, если интересно, что получится!
Вероятностные крестики-нолики
Новая версия игры, где вы своими же действиями можете принести оппоненту победу.
🔜 Поле такое же, как всегда — сетка 3 х 3. И суть игры та же — игроки ходят по очереди и пытаются нарисовать три крестика или три нолика подряд. Но у каждой клетки прописаны вероятности — что произойдет, если вы попытаетесь поставить в ней крестик. Есть три варианта развития событий.
🔵 Благоприятный— игрок нарисует свою фигуру.
🔵 «Ну такой» — клетка останется пустой.
🔵 Неблагоприятный — игрок нарисует фигуру противника.
Вероятность каждого результата прописана прямо на клетке и никогда не равна 100%.
У игры есть два уровня сложности и два режима — против компьютера и против человека.
🔜 Как пишет автор до этой идеи он додумался, когда размышлял о том, какую большую роль в жизни играет случайность. Иногда вы можете все сделать правильно, но все равно проиграть, потому что удача была не на вашей стороне. Но все равно после какого-то количество попыток, если продолжать стараться, вы обязательно добьетесь своего.
Идеальный курс по SQL: какой он?
Наша команда уже выпустила один курс по SQL и Python — «Марафон Данных». Его прошли больше 10 000 человек, а средняя оценка составила 4,8 баллов.
Еще не идеал, но уже весьма неплохо! 🔥
Мы почти готовы выпустить продолжение — новый курс, который поможет более глубоко познакомиться с SQL, от основ перейти к более сложным и продвинутым функциям и отточить знания на практических задачах. Чтобы он получился еще лучше и полезнее, просим вас пройти короткий опрос по ссылке.
В нем всего 5 вопросов, но они помогут нам понять, какие задачи вам интересны и чему уделить особое внимание. Всем, кто пройдет опрос, обещаем бонус — промокод на новый курс. ❤️
Перипетии ИИ-разработки
Рост популярности ИИ привел к появлению множества инструментов и фреймворков на его основе под самые разные задачи. Их плюс в том, что они могут сильно ускорить и упростить работу: какое-нибудь ПО или приложение, которое раньше пришлось бы долго и сложно разрабатывать своими руками, они соберут в разы быстрее.
Но не всегда успешнее.
🔜 Любопытный пример — опыт команды octomind, ИИ-сервиса для e2e-тестирования.
В 2023 разработчики внедрили фреймворк LangChain, предназначенный для разработки приложений на основе LLM. И сначала он действительно помог облегчить работу и сконцентрироваться на создании приложения. Но по прошествии времени стало понятно, что у него есть серьезные недостатки.
💬 Ему не хватало гибкости, и в какой-то момент это начало тормозить работу.
💬 Его задача — объединять несколько LLM в единую систему, чтобы пользователь на этой основе создал свое приложение. LangChain с этой задачей справляется, но при этом внутри этой системы пишет такой запутанный код, что легче самим переписать, чем в нем разбираться.
На первых порах плюсы перекрывали минусы. Но чем сложнее становились задачи, тем больше команда приходила к выводу, что их работа станет проще без LangChain и вообще без специальных LLM-фреймворков. Экономия времени на старте не стоит проблем в будущем. К тому же, они не делают ничего, с чем не могли бы более успешно справиться люди.
Конечно, это не значит, что LangChain и подобные ему продукты плохи — просто они не всем подходят.
Но это интересный взгляд на то, как меняется зародившаяся у нас на глазах экосистема ИИ-приложений: от взрывного роста она переходит к более спокойному и вдумчивому развитию.
Как думаете, что ждет нас дальше? Какие еще ИИ-инструменты появятся в скором будущем — а какие наоборот, уйдут в прошлое, когда окончательно пройдет хайп? 👀
BI-онбординг от Романа Бунина
Датавиз находится на стыке сфер, которые редко соприкасаются: аналитики и дизайна. Из-за этого с ним бывают сложности — дизайнеры не понимают, как работать с данными, а аналитики не разбираются в дизайне.
Найти крутых спецов по датавизу непросто, поэтому мы в Valiotti Analytics решили сами ковать для себя ценные кадры и запустили BI-онбординг. Его разработал специально для VA Рома Бунин @revealthedata.
🔜 Получилось круто — 10+ часов погружения в Tableau, дизайн и работу с заказчиками. Да, это тоже очень важная часть процесса — умение провести интервью и понять запрос.
Что есть в онбординге?
🔵Основы дизайна, как сделать дашборд понятным и удобным для восприятия.
🔵Разные виды графиков и зачем они нужны.
🔵Структурный подход к созданию системы дашбордов.
🔵Огромное количество полезных материалов, книг и видео.
🔵Практические задания — например, проект по переверстке уже существующего дашборда.
🔥 А еще мы сделали отдельный чат в Slack, где Рома будет давать ребятам фидбек.
Онбординг получился объемный, и большая часть команды пока что в процессе прохождения. Но один отзыв мы вам принесли:
Отличный курс, по большей части освежила свои знания и сохранила лайфхаки на будущее. Буду применять на практике. Насчет сложности: он дает и базу, и более сложные вещи.
Для прохождения курса будет достаточно иметь какие-то общие знания в Tableau — как открыть дашборд и как называются элементы интерфейса.
Регина, Analytics Team Lead
Куда рынок IT привела осознанная меркантильность?
В рунете разгорелся довольно крупный скандал о «вкатунах в IT», в стороне которого я и моя команда остаться не можем. Расскажу кратко как я его вижу и поделюсь мнением.
🔜 Итак, есть главный герой этой истории — Антон Назаров и его «Осознанная меркантильность». Он рассказывает как работать на нескольких работах и в деталях учит как сфабриковать резюме, чтобы ты прошел скрининги и тебя все-таки взяли на работу, когда на нее не берут. У ребят свое комьюнити, зовутся они «волками», и их целая стая.
В целом, подход довольно сомнительный, но окей. Наверняка каждый из нас в той или иной мере привирал в резюме. Вопрос, конечно, в итоговом объеме правды. Тут у ребят целый подход к тому, как «вкатиться» и как максимально заработать на нескольких работодателях.
Глубинная же проблема заключается том, что рынок «вкатывания в IT» поломан — мы имеем кучу ребят, прошедших курсы, которые «вошли не в ту дверь» и не могут трудоустроиться. И как будто бы Антон Назаров нашел этому решение. Видно, что подвох тут присутствует: обманув систему рекрутинга, компания получает на какое-то время не вполне квалифицированные кадры, но раз система их пропускает — получается, что они окей?!
Искренне попытался посмотреть первые 3-5 минут, чтобы понять о чем видео. Но это смотреть просто тошно, максимально токсичный контент с переходом на личности и оскорблениями.
Как-то по-другому я себе представлял разоблачителей и борцов за «правое дело». А то, выходит, а чем они лучше-то, если презентуют себя таким образом? Короче максимальный дизреспект по формату и подаче этого контента.
Как построить сквозную аналитику в компании?
Отвечает… нет, не Александр Друзь.
🔜 25 июля в 19:00 по Москве Николай Валиотти расскажет про создание системы аналитики на бесплатном вебинаре. Это будет эфир про данные, но не для аналитиков, а для предпринимателей, руководителей отделов, маркетологов, продакт-менеджеров. Так что будет много практики и решения проблем бизнеса и мало — технических тонкостей и терминов.
💙 Николай не просто создал этот канал, но и основал успешный дата-консалтинг Valiotti Analytics. С 2019 года в портфолио команды собралось уже больше 40 успешных кейсов, 2 из которых разберут на вебинаре.
На их примере слушатели узнают:
🔵Как понять, что уже пора строить серьезную аналитику, и с чего начать это делать?
🔵Из чего состоит система аналитики, и зачем нужен каждый ее компонент?
🔵 Какие топ-5 отчетов нужны каждому бизнесу, и какие рабочие инсайты можно извлекать из данных?
🔜 Если вы захотите погрузиться в эту тему глубже, на вебинаре откроется запись на онлайн-экскурсии. Николай проведет ее лично и покажет, как строится работа над системой аналитики на примерах готовых проектов. Количество мест ограничено.
Больше информации о вебинаре и новости постим на канале @system_of_analytics. Там же выложим ссылку для подключения в день эфира, так что подпишитесь, чтобы не пропустить.
Карьера в Data — новый проект LEFT JOIN
Поиск работы — занятие утомительное. Надо обновить резюме, перерыть гору вакансий, потратить время на сопроводительные, тестовые и собеседования... Не то, чем хочется заниматься без необходимости.
С обратной стороны тоже не все гладко: из огромного числа откликов предстоит отобрать подходящие, провести серию собеседований и заинтересовать кандидата.
💙 Мы LEFT JOIN решили, что в наших силах сделать этот процесс приятнее для всех участников — так уж получилось, что у нас большая аудитория, где есть и работодатели, и потенциальные сотрудники. Так что почему бы не создать для них специальный канал, где они смогут найти друг друга.
Канал так и назвали — Карьера в Data. Что будем постить?
🔵 Вакансии для аналитиков, дата-инженеров, дата-саентистов, продакт-менеджеров разных уровней — от джунов до тим лидов.
🔵 Советы от HR, как составить резюме, написать сопроводительное и не запороть собеседование.
🔵 Инсайты про рынок труда, количество вакансий и динамику зарплат.
🔵 Разборы тестовых заданий и советы, как построить карьеру в данных, от тех, кто уже это сделал.
Даже если не ищете работу прямо сейчас, будет много полезной информации, чтобы оставаться в курсе последних тенденций в нашей сфере. Убедитесь сами!
@leftjoin_career 🔥
ИИ-поисковик по мемам и не только
У предпринимателя Харпера Рида было 12 000 картинок с мемами, желание разобраться, что такое «векторные представления», и некоторое количество свободного времени. Все это привело к тому, что он создал простое приложение на основе мультимодальных моделей CLIP и siglip, которое умеет искать по картинкам.
Оно принимает как текстовые запросы, так и изображения. В первом случае оно подберет картинки, соответствующие запросу, во втором — найдет похожие в своей базе.
🔜 Работает с любыми изображениями. То есть его можно использовать не только поиска мемов для важных переговоров в интернете, но и, например, чтобы искать по фотографиям в галерее. Вдруг вам нужно оперативно собрать в кучу все фотки любимого кота.
🔜 Проверьте сами — приложение бесплатное и лежит на GitHub.
🔜 Заодно рекомендуем почитать пост про разработку. Он доказывает, что в любой теме можно разобраться — было бы желание. Харпер признался, что никогда не делал ничего похожего и вообще до сих пор плохо понимает, что такое «вектор». Но ему захотелось разработать приложение, и он это сделал вполне успешно.
И главное — показал, как это делал по этапам. Так что если тоже хотите попробовать сделать что-то подобное, вот отличный повод погрузиться в тему.
Data Heroes: интервью с Марией Бородецкой
«Синхронизация» — онлайн-школа, где рассказывают про культуру, искусство, психологию и софт-скиллы. Соосновательница Мария Бородецкая говорит, что это уже не совсем эдтех, а скорее проект по саморазвитию, и его главный конкурент — не другие школы, а Netflix.
Про что еще поговорили?
🔵 Как проект прошел путь от лекций «для себя и для друзей» до успешного стартапа и пережил ковид.
🔵 Почему оффлайн — это лакшери, а за онлайном и искусственным интеллектом будущее.
🔵 Какую роль играет культурный код при выходе на международные рынки.
🔵 Почему маркетинг — это здорово, но учиться лучше на философа, математика или искусствоведа.
🔵 Какие метрики бизнеса самые важные для предпринимателя в онлайн-образовании.
🔵 И причем здесь Юрий Дудь*?..
🔜 Где посмотреть: YouTube
Где послушать: Apple Podcasts, Яндекс Музыка, Spotify
#dataheroes
*Юрий Дудь признан в России иноагентом.
Postgres против всех
Чем сложнее проект, тем длиннее и запутаннее стек — это не всегда удобно, но неизбежно.
Или нет.
Часто стек растет, потому что под каждую задачу или проблему стараются подобрать наиболее подходящий инструмент. Но как выбрать этот «подходящий инструмент»? На что смотреть — на цену, скорость работы, простоту использования?
Или просто выбрать PostgreSQL? 👀
Нашли для вас короткую статью, почему вместо раздувания списка инструментов иногда можно просто выбрать проверенный временем, универсальный и понятный PostgreSQL.
Хотя по сути дело даже не в конкретной БД — на месте PostgreSQL может оказаться любой другой вариант. Дело в самом подходе — не усложнять себе жизнь, внедряя множество инструментов под разные задачи. И вместо этого стремиться к тому, чтобы ИТ-инфраструктура была понятной и не перегруженной. Так проще с ней работать и поддерживать работоспособность.
🔜 А что вы думаете — как найти баланс между перегруженностью и простотой, которая уже не тянет стоящие перед командой проекта задачи?
Стратегия управления на основе данных
Data-driven подход — это такая штука, к которой все стремятся, но не все понимают, что это такое и как к этому прийти.
▶️ Data-driven — это подход, когда все решения в компании принимаются на основе цифр. Чтобы этого добиться, нужно твердо понимать, зачем эти цифры нужны, о чем говорят и как влияют на развитие бизнеса. Система аналитики должна быть максимально согласована с целями и с миссией компании.
▶️ В идеале к этому состоянию надо идти по определенным шагам. Чтобы не превращать пост в простыню, вынес их на карточки.
Но что надо обязательно учесть: в реальности у большинства компаний нет точного понимания, как должна выглядеть аналитика и какие данные они хотят видеть. А делать выводы на основе цифр хочется уже сейчас.
В начале пути важно научиться работать со всеми доступными данными. Они уже у вас как-то собираются — например, в CRM-системе; можно начать собирать их в хранилище для построения отчетности, делать первые выводы, смотреть, чего не хватает. Постепенно бизнес будет развиваться и вместе с этим появится понимание, какие данные и метрики вам нужны. ❗️
@datakolya
OpenAI купила Rockset и Multi
Обе сделки выглядят как acqui-hire — покупка компании в первую очередь для того, чтобы нанять работающих в ней людей.
💬 Rockset — база данных для real-time аналитики. Она умеет оперативно обрабатывать огромные массивы данных и подходит для создания поисковых систем и рекомендательных алгоритмов, мониторинга и алертинга.
💬 OpenAI планирует интегрировать разработки Rockset в свои продукты. Предположительно, это поможет повысить точность ответов ChatGPT.
💬 Это хорошие новости для пользователей нейросети и не очень — для клиентов Rockset. Компания будет постепенно «отключать» их от своих сервисов и полностью сконцентрируется на работе на благо ИИ. Им придется найти новую БД до конца сентября.
Еще сложнее придется клиентам компании Multi.
💬 Multi — платформа для распределенных команд. Она позволяет расшаривать экран во время созвонов сразу нескольким пользователям, всем вместе редактировать документы, писать, рисовать на экране. В общем, работать удаленно, но всем вместе, как будто вы сидите рядом в одном помещении.
💬 Правда, только до 24 июля. После все данные клиентов будут удалены.
Вот такая цена прогресса — в любой момент может прийти OpenAI и присвоить себе ваш любимый сервис, чтобы он улучшал ChatGPT
Что получится, если заставить ChatGPT заполнить налоговую декларацию?
Программист Майк Макферсон решил это выяснить, а заодно — взглянуть на нейросети под довольно любопытным ракурсом. Их часто рассматривают как самостоятельный инструмент, который генерирует тексты, картинки, видео, код и так далее. Но что, если воспринимать ИИ как операционную систему, которая связывает несколько элементов вместе и помогает взаимодействовать с ними?
🔜 Возможности нейросетей сегодня впечатляют — и все же они до сих пор ограничены. Но их можно расширить, если «подружить» ИИ с другими приложениями, библиотеками или базами данных.
В 2022 Майк создал библиотеку Python tenforty — она помогает юзерам посчитать, сколько налогов они должны государству в зависимости от доходов, расходов, семейного положения и прочих факторов. Сразу оговоримся — эта штука знакома только с законодательством США.
Он планировал когда-нибудь сделать на ее основе приложение, но вместо этого сделал кастомную GPT Tax Driver. Ее функция та же — считать налоги и вычеты, только при этом она еще понимает запросы на естественном языке, пишет подробные ответы и даже может нарисовать график.
🔵 В целом, она с этими задачами отлично справляется, хотя иногда неправильно понимает суть вопроса или игнорирует некоторые требования пользователя.
🔵Это теоретически удобный инструмент, но он предъявляет высокие требования к пользователю — надо тщательно подходить к написанию промптов и внимательно перепроверять ответы.
🔵 Несмотря на эти недостатки, у подхода «ИИ как ОС» точно есть потенциал — он делает разработку приложений намного проще и быстрее.
Ищем спеца по датавизу в команду Valiotti Analytics
Если вы любите дизайн, данные и визуализацию, то у нас к вам деловое предложение.
С нас:
🔵 Разнообразная и интересная работа — надо будет создавать крутые дашборды для наших заказчиков совместно с командой аналитиков, писать стайлгайды и статьи про датавиз.
🔵 Достойная зарплата, классная молодая команда, корпоративный английский и другие плюшки.
🔵Полная удаленка с гибким графиком.
С вас:
🔵 Владение Power Point, Google Slides, Keynote и графическими программами — Figma, PS, Illustrator.
🔵 Опыт работы с визуализацией данных.
🔵 Знакомство с Tableau и аналитикой данных — большой плюс.
Подробное описание вакансии читайте по ссылке.
Это про вас? Тогда пишите скорее нашему HR Татьяне @tanya_zab. Будет классно, если у вас есть портфолио!
Если это не про вас, но у вас есть кандидат на примете — помогите нам найти друг друга и отправьте ему этот пост. ❤️
PDF Search: заставьте AI искать нужную информацию за вас
Многим из нас приходится постоянно работать с огромным количеством всевозможных файлов и документов, и чем больше их становится, тем сложнее находить среди них нужную информацию.
Современные технологию эту проблему не создали, но усугубили. И они же предлагают решение. Кто намного лучше людей справляется с большими объемами данных? Искусственный интеллект.
ИИ за несколько минут прошерстит документы, которые человек будет перечитывать полдня.
Это обещают создатели PDF Search — приложения для iPhone, Mac и iPad
🔵 Оно ищет информацию в ваших документах по запросу. ИИ здесь нужен для того, чтобы не просто высматривать ключевые слова, но и понимать контекст и поисковые запросы на естественном языке.
🔵 ИИ анализирует содержание документа целиком и в выдаче показывает наиболее релевантные страницы. Если подходящих документов несколько, он может вытащить из них информацию под ваш запрос в отдельную PDF-ку.
🔵 Отдельное приложение PDF Converter конвертирует в PDF файлы других форматов, чтобы PDF Search смог работать и с ними тоже.
🔵 И, конечно же, вы можете синхронизировать свои устройства, чтобы PDF Search смог работать со всеми файлами, какие только у вас есть.
Приложение платное, но есть пробный период.
Neosync: помощник по работе с данными для разработчиков
Neosync — open source решение, которое позволяет анонимизировать реальные данные и генерировать синтетические. Оно пригодится для тестирования кода, воспроизведения багов или заполнения БД начальными данными.
🔜 В общем, для ситуаций, когда вам нужен набор данных, максимально приближенных к реальным. Или когда вы не можете использовать реальные данные — например, потому что они содержат чувствительную информацию, которую нигде «светить» нельзя.
У разработчиков часто есть специальные датасеты для таких задач, но проблема в том, что тестовые данные, как правило, плохо передают все особенности того, что творится в реальности. Neosync предлагает решение:
🔵 анонимизирует реальные данные, убирая из них всю информацию, по которой их можно идентифицировать;
🔵 генерирует набор синтетических данных с нуля на основе схемы вашей базы данных.
При этом он сохраняет все взаимосвязи между таблицами. А еще умеет интегрироваться с Postgres, MySQL, AWS S3 и другими популярными системами и платформами.
Больше про функционал и возможности инструмента можно узнать на странице на GitHub.
Quary: BI для инженеров
Есть Big Data — это большие объемы данных, обработать которые под силу только машинам. Есть Small Data — это, наоборот, небольшие данные, справиться с которыми может и человек.
💬 А что делать, если данные еще не большие, но табличек уже многовато и заполнять их вручную становится слишком сложно? Эту стадию развития бизнеса разработчики Quary назвали Middle Data, и именно для таких случаев они и создали свой продукт.
🔵 Он умеет подключаться к базам данных и внешним источникам через API, преобразовывать данные, собирать их в таблицы и визуализировать на графиках. Дашборды и отчеты в разработке.
🔵 Все это делается с помощью кода, поэтому инструмент и позиционируется как «BI для инженеров».
🔵 Полноценную систему аналитики он не заменит, но поможет навести в данных порядок.
Это open source проект, так что узнать о нем побольше и скачать все необходимое для работы можно на GitHub.