leftjoin | Unsorted

Telegram-канал leftjoin - LEFT JOIN

67358

Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS

Subscribe to a channel

LEFT JOIN

А знаете ли вы, что из себя представляет ваше любимое приложение банка, доставки еды или даже сайта знакомств?
Для нас, конечных пользователей, все выглядит очень просто: мы совершаем простые действия вроде перевода денег или свайпа вправо. Но ведь таких пользователей одновременно может быть миллионы каждую секунду! Все совершают разные действия, и каждый должен остаться доволен работой приложения! Учитывая этот факт, невольно задумываешься, что же все таки представляет из себя это приложение? Вряд ли это просто парочка скриптов, написанных на Python!

В докладе, с которым мы предлагаем вам ознакомиться, Кирилл Ветчинкин рассказывает про один из самых современных подходов к построению приложения, про микросервисную архитектуру. Он рассказывает, когда стоит ее использовать, какие у нее есть особенности, и какие подводные камни могут встретиться ее разработчикам.

Основные мысли из доклада Кирилла
👍 Микросервисная архитектура используется для разработки высоконагруженных приложений, в то время как монолитная лучше всего годится для небольших проектов.
👊 Взаимодействие микросервисов между собой организовано при помощи общей шины, которая транслирует сообщения, в качестве реализации этой шины используют менеджеры сообщений, типа Apache Kafka.
👍 Разделение приложения на микросервисы должно осуществляться не по слоям, а по функциям, которые они выполняют.
👊 Один микросервис должен решать типовые задачи, которые могут присутствовать в другом проекте.

Но это лишь тезисы его доклада, а всю историю целиком мы советуем вам послушать в полной версии доклада.
#краткий_пересказ

Читать полностью…

LEFT JOIN

Нам вновь предлагают перестать писать SQL-запросы 👀
Помните наш генератор SQL-кода на ChatGPT? Получилось очень даже неплохо, но все-таки это не полноценный сервис, а скорее доступ к GPT-модели из юпитер-ноутбука.
А вот BlazeSQL уже сделали и оформили продукт на основе похожего подхода (выглядит впечатляюще!).

Как с ним работать?
Весьма тривиально — создать аккаунт, ввести свой API-ключ OpenAI (это подразумевает платную подписку) или купить Pro-тариф сервиса, затем подключить базу данных — и можно чатиться. Кстати, просто потестить сервис можно и без собственной базы данных, но вот без одной из платных подписок пощупать его не удастся.

Главное помните, что такие инструменты круты и экономят время, однако, расслабляться рано. Нужно внимательно смотреть на результат критическим взглядом и понимать, что происходит в запросе и почему.

Всем эффективных запросов и ни одного падения БД!

Читать полностью…

LEFT JOIN

👀 Наверное, и мы, и вы уже пересмотрели все рилсы с Тиньковым…

Но версии про аналитику нам пока не встретились, а когда мы не видим какого-то безумия, то обязательно должны его возглавить!

@leftjoin

Читать полностью…

LEFT JOIN

Генератор промптов или как здорово усложнить себе жизнь?
В каждой социальной сети сейчас пестрят посты «N лучших промптов для такой-то нейросети». Кажется, что все буквально помешались на идее найти и создать самый-самый прекрасный и идеально работающий вариант, который буквально за одну попытку выдаст вам результат, который вы хотите увидеть. И если иногда это выглядит как поиск волшебной таблетки, то в других случаях (и более вдумчивом подходе) это может привести к стоящим результатам.

Что придумал CEO HyperWriteAI Мэтт Шумер?
Как и многие специалисты IT-сферы, он решил оптимизировать написание промптов для ChatGPT. Он создал небольшой Collab Notebook (даже два!), который получает на вход описание задачи и примеры (тест кейсы), генерит заданное вами количество альтернатив и предлагает лучший.

Почему ноутбука два?
🔵 Первый — общий для обычных текстовых задач,
🔵 Второй — узконаправленный для задачи классификации.

Их отличие состоит в том, что для второго тест кейсы — это, по сути, текстовые данные с разметкой True или False (то есть только бинарная классификация). Эту разметку должен максимально понимать и передавать идеальный сгенерированный промпт.

🔥 Самое интересное и полезное в этом генераторе — то, что он составляет несколько разных промптов и, тестируя их, выбирает наиболее релевантный как в вопросах генерации текста, так и в вопросах классификации.

Стоящий ли это инструмент?
Возможно, это решение здорово сработает для сложных случаев, когда подобрать работающий промпт никак не получается, а выполнить задачу без ИИ — нет возможности или времени. Однако, для нас это выглядит как излишнее усложнение, ведь можно просто выбрать несколько правил для написания промпта (указание роли, степень детализации и так далее) и составлять их вручную.

P.S. Ну что, ждем дальше генератор тест кейсов для генератора лучших промптов? 👀

Читать полностью…

LEFT JOIN

Ну, наконец-то! На зумах можно больше не слушать
Думаете мы просто предложим игнорировать статусы, совещания, ретро и прочие митинги? К счастью для многих руководителей — нет.

У нас есть идея куда лучше (и куда менее рисковая)
И это транскрипция встречи в реальном времени. Мы уже рассказывали про похожий сервис Otter.AI, который мог составлять документ с содержанием звонка, однако, только на английском языке. И вот, появился его конкурент Tactiq, который может работать с гораздо бóльшим количеством языков.

Коротко о нем
🔵Работает со встречами в Google Meet, Zoom, MS Teams и Webex,
🔵Устанавливается как расширение для Google Chrome,
🔵Выгружает транскрипцию можно в Google Docs, Slack или Notion,
🔵Поддерживает 15 языков (в том числе, русский!),
🔵В бесплатной версии можно транскрибировать до 10 встреч в месяц, идентифицируя слова каждого спикера, а затем сохранять себе конспект митинга,
🔵В платных версиях (за 8 или 16 долларов в месяц) есть возможности выгрузки транскрипции в PDF, организации записей созвонов команды, общей выгрузки записей и другие.

Это мы все к чему
В потоке радостного шума и анонсов миллиона сервисов на базе ИИ можно легко потеряться. К тому же, далеко не все эти сервисы уже сейчас работают хорошо и правда закрывают боли потребителей. Но вот транскрипция конференций и видеовстреч — очень нужная фича, для тех, у кого стабильных 5-10 звонков в день, каждый из которых слушать внимательно не всегда получается.

Читать полностью…

LEFT JOIN

Что делать, если у вас очень много источников данных, а хранилище одно?
Можно под каждый источник организовать свой способ доставки данных. Но есть более изящный способ — применить брокер сообщений Apache Kafka. Именно про него и рассказывает в докладе Артем Выборный.

В двух словах подготовим вас к докладу небольшим обзором на саму архитектуру работы Kafka:
🔵 Обычно для работы Kafka под высокой нагрузкой используют не один сервер, а целый кластер серверов, управление которыми происходит посредством Apache Zookeeper.
🔵 Данные, которые Kafka получает из источника и записывает в хранилище, состоят из сообщений (грубо говоря, это одна транзакция). Источники при этом называются продюсерами, а хранилища (их может быть много) — консьюмерами.
🔵 Каждый брокер хранит сообщения по партициям. Физически — это просто очередь сообщений, то есть новые сообщения дописываются в начало, а старые остаются в конце.
🔵 Партиции вместе образуют топик. Можно настроить, какие сообщения, от какого продюсера попадают в какой топик, а также настроить какие консьюмеры будут читать какой топик.
🔵 У Kafka есть возможность обеспечения репликации (именно при помощи Zookeeper), что повышает отказоустойчивость.

А вот обо всех нюансах работы, вызванных такой архитектурой Kafka, вы можете узнать во всех подробностях в самом докладе.
#краткий_пересказ

Читать полностью…

LEFT JOIN

Это страшное слово — деградация
В Твиттере X (иксе? экс? мы пока не разобрались, как это называть) завирусился тред про деградацию GPT-4. За последние пять дней в сети появилось много комментариев и мнений на тему работы модели, а именно ухудшения качества ответов. Но началось все с одного исследования

Рассказываем!
Недавно вышла научная статья ученых из Стэнфорда и Беркли в которой показано, что версия GPT-4, выпущенная в июне, работает хуже, чем более ранняя версия, выпущенная в марте.

Команда оценивала модели, используя 500 задач, в которых модели должны были определить, является ли число простым. В марте GPT-4 правильно ответил на 488 вопросов, а в июне правильных ответов было всего 12. То есть качество ответов упало с 97.6% до всего лишь 2.4%!

Однако, исследование было проведено странно
Все дело в том, что в эксперименте проверялись только числа, которые на самом деле были простыми. Составных чисел в выборке не было, а это не может не влиять на результаты. В итоге, команда провела более честный тест с простыми и составными числами. И выяснилось, что обе модели весьма некомпетентны в этом отношении — мартовская чаще говорила, что число простое, а июньская — наоборот.

Очевидный вывод состоит в том, что GPT-4 не умеет определять, является ли число простым. Хуже не стало — никогда не было хорошо.

В любом случае, по-прежнему остаются нерешенные проблемы, связанные с ухудшениям в других направлениях, например, генерации кода.

Почему это вообще происходит?
По слухам, OpenAI перешли на использование подмоделей, которые ведут себя также как основная GPT-4, но дешевле в эксплуатации. Когда пользователь задает вопрос, система решает, к какой модели его направить. Вероятно, перенаправление запроса и влияет на серьезные ухудшения в качестве ответов.

Конечно, это тревожный сигнал для тех, кто создает приложения на основе GPT-4. Потому что мы уже не просто восхищаемся тем, что могут делать языковые модели, но выпускаем на их основе сервисы и продукты, а значит толерантность к ошибкам резко снизилась.

Читать полностью…

LEFT JOIN

«Размер имеет значение!» или «Как количество токенов в инпуте влияет на модель»
Anthropic недавно объявили о релизе языковой модели, которая может работать с инпутом до 100К токенов. Для сравнения: GPT-4 позволяет до 32К токенов в контексте. А большинство языковых моделей работают с контекстом, не превышающим 2К токенов.

Галина Алперович опубликовала в своем блоге на Medium статью, в которой собрала информацию из различных источников о том, как длина контекста влияет на способы использования языковых моделей и на качество генерируемого ими текста, об ограничениях архитектуры трансформера и возможностях ее оптимизации для повышения планки объема контекста до 100К токенов.

В частности, она отмечает, что модели, которые смогут работать с таким большим контекстом, будут актуальны при решении задач, связанных с обработкой большого объема текста. Ведь, по сути, 100К – это почти целый роман! Учитывая, что модели тренируются на текстах из интернета, имея возможность «прокачать» модель на своем материале, вы получаете всезнающего ассистента, который будет шарить в вашей теме почти наравне с вами!

Читать полностью…

LEFT JOIN

Chat Notebooks: ноутбуки Wolfram со встроенной языковой моделью 🧠
Идея ноутбуков, появившаяся на свет в 1987 (нет, мы сейчас не про те, что лэптопы!), за 36 лет своего существования оказала существенное влияние на рабочие процессы в науке о данных, став их неотъемлемой частью. И вот на днях взята новая веха: отныне, ноутбуки Wolfram дополняются функционалом для работы с языковой моделью.

В интерфейсе ноутбуков Wolfram появились «окошки» для общения с ИИ. В статье рассказывается о двух типах новых ноутбуков: ноутбуки с правами на чат (chat-enabled) и ноутбуки, управляемые с помощью чата (chat-driven). Вторые отличаются от первых тем, что для работы с ними не требуется прибегать к языку программирования Wolfram. Также любопытен тот факт, что ячейки чата в ноутбуке считываются ИИ последовательно, то есть, каждая последующая учитывает информацию из предыдущей, но не знает о последующей.

Другой особенностью Chat Notebooks является то, что искусственный образ, роль которого вы бы хотели, чтобы ИИ играл в общении с вами, может настраиваться на разных уровнях: вы можете указать роль ИИ для всей переписки в ноутбуке, а также задать отдельные образы внутри каждого отдельного чата.

В целом, Chat Notebooks похож на интеграцию ChatGPT в интерфейс ноутбуков Wolfram. Подробное руководство по работе с новшеством вы найдете в статье. А в комментариях мы приглашаем вас обсудить, какие другие сервисы нуждаются в интеграциии языковых моделей!

Читать полностью…

LEFT JOIN

Ищем новых героев для заключительного выпуска 3 сезона Data Heroes 👾🚀
Хотите принять участие в записи нашего подкаста? Есть предложение!

Если вы работаете аналитиком данных в российской компании (не удаленно!), то будем рады пригласить вас на подкаст и пообщаться. Также будем очень рады и руководителям отделов аналитики!

Пишите моей коллеге @Milanchezaa с кратким резюме: кем работаете, что входит в ваши обязанности и деятельность компании.

P.S. Если у вас есть знакомые, которые могут нам подойти, то буду благодарен за репост!

P.P.S. Ставьте ❤️, если ждете новый эпизод Data Heroes, чтобы поддержать нашу креативную команду!

Читать полностью…

LEFT JOIN

HouseWatch: open source инструмент для работы с кластерами ClickHouse 🕵️‍♀️
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!

HouseWatch — это инструмент, который дает возможность:
1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.

Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.

HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?

Читать полностью…

LEFT JOIN

LastMile AI Workbook: интерфейс для работы с разными моделями ИИ 💬 🖼
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.

С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.

Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.

На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.

Читать полностью…

LEFT JOIN

Autolabel: библиотека Python для маркировки данных
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.

Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.

Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.

А какие находки c GitHub вы используете в работе?

Читать полностью…

LEFT JOIN

Музыка, подкасты и аудиокниги от HiFi-стриминга Звук 👀
Сегодня и все выходные у вас есть шанс оформить подписку СберПрайм на 60 дней всего за 1 рубль!

Вы получите:
🔵 Доступ ко всем сервисам СберПрайм
🔵 Миллионы треков, подкастов и аудиокниг, удобно разделенные по жанрам и настроениям
🔵 Волну «Сила Звука» — сервис по подбору персональных аудио-рекомендаций
🔵 Возможность слушать музыку всегда и везде, скачивая треки на телефон

🔥 Все подробности и ссылка на подписку — на сайте сервиса. Время ограничено, действуйте скорее!

#Реклама. Рекламодатель ООО «Звук». ОГРН 5177746117005, г. Москва, Erid: LdtCKRo1T 12+

Читать полностью…

LEFT JOIN

GPT-4 на страже порядка: больше никакого временного хаоса!
Любители фильмов «Довод» и «Интерстеллар» Кристофера Нолана наверняка часто ловили себя на мысли, что следить за ходом сюжетного времени не всегда так уж и легко.

Исследователи художественной литературы, в частности, конечно, студенты-филологи, часто сталкиваются с подобной проблемой при написании курсовых и дипломных.

Профессор Университета штата Иллинойс Тэд Ундервуд решил подойти к данной задаче новаторским путем: с помощью языковой модели GPT-4. В ходе экспериментов стало ясно, что использование ИИ, чтобы рассчитать сюжетное время в романе или другом литературном произведении, – это довольно успешное предприятие.

Языковая модель, поясняя логику своих суждений, дает исследователю возможность найти в тексте временные скачки или определить время нахождения персонажа в определенной локации.

А какие способы применения ИИ в академической среде кажутся вам наиболее перспективными, помимо полного делегирования написания научной работы ChatGPT?

Читать полностью…

LEFT JOIN

Этот страшный момент подготовки к экзамену или собесу… или не такой уж и страшный?
Некоторым людям достаточно хорошенько проштудировать учебник или обзорные статьи с Хабра, чтобы вспомнить университетский курс или даже вникнуть в какое-то новое направление. А кому-то наоборот нужны личные занятия с преподавателем, индивидуальный подход и сессии вопросов-ответов, где можно спросить вообще все, даже самое глупое.

С обоими запросами мы советуем идти в канал с веселым названием и по-настоящему полезным контентом «Поступашки ШАД».

Почему? Все просто!
🔵 Канал ведут преподаватели МГУ, ВШЭ и ШАД — они точно знают какие знания нужны и как объяснить их самым понятным образом.
🔵 Это просто кладезь сборников и задачников по математической базе — от теории вероятностей до data science, а также советов по поступлению или прохождению собеседований.
🔵 А еще авторы канала проводят индивидуальные или групповые занятия по подготовке к ШАД, магистратурам, собеседованиям, олимпиадам, а также алгоритмам, машинному обучению и даже инжинирингу данных.

Подписывайтесь, ведь такой канал пригодится в любой ситуации!
#реклама

Читать полностью…

LEFT JOIN

Открытая питч-сессия в области стартапов для банковской сферы
Совсем скоро венчурный онлайн-хаб SberUnity проведет третью питч-сессию для своего стартап-сообщества и корпораций.

🔵 Если ваш стартап уже на уровне MVP или выше, и у вас есть желание выступить перед ТОП-5 банками, то скорее подавайте заявку, чтобы представить им свое решение в прямом эфире канала СберСтартап.

🔵 Потенциальные партнеры внимательно выслушают питч и дадут подробную обратную связь, а может быть и станут вашими клиентами.

Основные запросы корпораций:
1. аналитика данных и решения для маркетинга;
2. автоматизация внутренних процессов;
3. HR-технологии;
4. другие перспективные технологии для банковской отрасли.

🔥 Участие совершенно бесплатно, нужно лишь заполнить форму до 18 августа

Да пребудет с вами сила и убедительность!

Реклама. Рекламодатель: ПАО Сбербанк, ИНН 7707083893

Читать полностью…

LEFT JOIN

WE ARE HIRING: Инженер Данных (ClickHouse)
Друзья, в команде Valiotti Analytics вновь появилась открытая вакансия — мы активно ищем инженера данных с опытом работы в ClickHouse.

Основные требования:
🔵 Уверенное владение SQL, ClickHouse, Python, Airflow, bash,
🔵 Опыт разработки ETL, проектирования и разработки хранилищ данных и аналитической отчетности,
🔵 Опыт работы с Kafka, S3 и dbt будет преимуществом.

Прочие требования:
🔵 Высшее техническое или другое релевантное образование,
🔵 Владение английским языке на уровне, достаточном для чтения и написания технической документации.

Если вам интересен инжиниринг данных (и другие задачи, описанные в вакансии), вы знаете все и даже больше про архитектуру и принципы работы ClickHouse — скорее отправляйте ваше резюме @valiotti или откликайтесь на вакансию на HH.

P.S. А если вы знаете того, кто может нам подойти и ищет работу — будем благодарны репосту или шеру этого поста!

Читать полностью…

LEFT JOIN

Никто не хочет разговоривать с чат-ботами
Старший вице-президент Stepstone по инжинирингу Лукас Макгрегор в своем блоге поднял важную проблему развития современных сайтов и приложений.

Немного истории
Когда в 90-х появились веб-сайты, их создатели представляли себе «customer journey» сильно иначе — они ставили на формирование прочных отношений человек-сайт. Эх, на практике все оказалось иначе.

Спустя некоторое время, главной отправной точкой любого пользовательского пути стали поисковые системы. Еще через несколько лет появились смартфоны и люди смогли запускать приложения непосредственно с экрана своего устройства. А затем на сцену вышли виртуальные помощники: Apple с Siri, а затем Microsoft, Amazon, Яндекс и Google представили аналогичные системы.

Вначале они использовались для простых задач, вроде «Алиса, какая сегодня погода?» и долгое время их главной проблемой был ограниченный уровень языковых навыков. Виртуальные ассистенты могли успешно выполнять простые задачи, но сталкивались с трудностями в понимании сложных запросов пользователей.

Подходим к сути
С развитием больших языковых моделей (LLM) всё стало меняться: теперь виртуальные помощники стали лучше понимать пользователей. Поэтому, вскоре они наверняка станут новой отправной точкой для взаимодействия с онлайн-сервисами. Новое поколение пользователей, обученное общаться с такими системами, не захочет тратить время на общение с сотней отдельных чат-ботов. Вместо этого, пользователи предпочтут использовать единую платформу как посредника для взаимодействия со остальными сервисами.

Таким образом, компаниям стоит уделить внимание интеграции своих продуктов с виртуальными помощниками, чтобы оставаться актуальными и удовлетворять потребности современных пользователей. А не просто выпускать чат-бот или ИИ-интерфейс на сайте, ожидая, что пользователь потратит время, разберется и будет пользоваться им регулярно.

Читать полностью…

LEFT JOIN

Если бы фильм Barbie рассказывал про мир анализа данных…
@leftjoin

Читать полностью…

LEFT JOIN

Визуализация данных — направление роста для аналитиков
Без финального этапа анализа данных — а именно, их визуализации — польза от аналитики становится доступной лишь техническим специалистам. Например, без нее невозможно наглядно презентовать результаты анализа стейкхолдерам или руководителям.

Однако, если на основе всей проделанной работы вы соберете понятный датавиз, бизнес сможет получить ответы на вопросы и принять верное решение. Дело за малым — освоить навык визуализации данных!

Любой специалист по работе с данными после трёх месяцев курса по датавизу от Яндекс Практикума:
🔵научится находить бизнес-инсайты в данных и эффективнее презентовать выводы, основанные на их анализе;
🔵узнает фишки, которые в разы сократят время на создание визуализаций;
🔵сможет карьерно развиваться и расти в должности и зарплате;
🔵добавит в резюме такие инструменты, как Tableau, DataLens и Datawrapper.

На всех этапах вас будет сопровождать команда специалистов — не дадут просесть по учёбе и помогут выкроить время на изучение нового направления. Вы будете практиковаться на реальных кейсах и положите в портфолио работающие проекты.

Уже не терпится погрузиться в новую сферу? Вперед, к знаниям!
#реклама

Читать полностью…

LEFT JOIN

Архитектура: история и будущее на примере Вконтакте
Хоть мы и пишем этот пост в мессенджере Telegram, все таки стоит отдать должное самой популярной социальной сети в России, ВКонтакте. А вы помните, как начинали свое знакомство с социальными сетями, зарегистрировавшись в VK? Может, даже рисовали граффити на стенах друзей или писали признания в анонимных «Мнениях»? Ух, ну и время было!

Но насколько сложной была архитектура ВКонтакте раньше, и как сильно она усложнилась к сегодняшнему дню?
Об этом в своем докладе рассказывает один из руководителей проектов компании, Александр Тоболь. Вот несколько интересных моментов из его выступления, которое мы советует посмотреть в оригинале и целиком:

🔵 Стоит сказать, что еще в 2006 году, как и многие приложения, VK под капотом базировался на LAMP-стаке.

🔵 С ростом популярности сайта архитектура начала усложняться, начали появляться новые технологии, такие как NGINX (внимание, 2008 год!).

🔵 Затем появилась другая проблема — масштабирование, поскольку MySQL перестал справляться с нагрузкой. Эта проблема подтолкнула VK прибегнуть к микросервисной архитектуре, которая в 2009 году еще была не так популярна.

🔵 Следующий этап уже был направлен на улучшение деталей, а именно на сетевое взаимодействие микросервиса и БД и формат данных.

🔵 В 2013 году основной задачей по улучшению работы приложения было ускорение кода, который, как и раньше, был написан на бессмертном PHP.
#краткий_пересказ

Читать полностью…

LEFT JOIN

Вежливость – не порок. Или все-таки он? 🤷
Бенн Стансил, сооснователь Mode и автор популярного блога о науке о данных benn.substack.com, опубликовал новую статью, в которой рассуждает о том, стоит ли нам быть вежливыми с ChatGPT и какие последствия могут быть, если мы таковыми не будем. Без шуток про непредсказуемую глупость ИИ и референсов к «Матрице», конечно, не обошлось.

Но статья не является чисто развлекательной. Бенн, будучи ученым, а не простым популяризатором науки о данных, проводит эксперимент, в котором прогоняет ChatGPT через 61 задачу с 3 вариациями промптов: вежливой, нейтральной и недоброжелательной. Каждый из этих вариантов имел, в свою очередь, по 15 подвидов в зависимости от температуры – параметра, который отвечает за степень случайности в выборе следующего токена во время генерации текста, своего рода фактор «креативности» текста. Получив в итоге почти 3К ответов, Бенн изучил их, и вот к каким выводам он пришел:

1️⃣ Нейтральные по коннотации промпты чаще вежливых и недоброжелательных выдавали правильно сгенерированные ответы.
2️⃣ Используя вежливые формы обращения к ChatGPT вроде «пожалуйста» и «спасибо», вы провоцируете его быть более многословным при ответах.
3️⃣ Вежливые промпты не гарантируют, что ответы ChatGPT будут более исчерпывающими.
4️⃣ При наличии четких указаний, что ChatGPT должен был сделать в ответе, например, вывести только код, если промпт включал вежливые слова, ChatGPT был склонен не соблюдать инструкции.
5️⃣ При решении математических задач наиболее эффективны нейтральные промпты.

Изучить полный отчет и ознакомиться с другими выводами Бенна вы можете в его блоге. Почитать сексистcкие анекдотики авторства ChatGPT – там же.

Читать полностью…

LEFT JOIN

Корреляция, ковариация и книги ужасов
Несмотря на то что количество реакций к прошлому посту рубрики #основы_статистики не смогло достичь нужного числа, мы все равно продолжаем, делиться с вами знаниями и напоминать о важных концепциях статистики. Все-таки, не в реакциях счастье!

Итак, мы уже познакомились с одним из самых важных инструментов статистического анализа, — T-критерием Стьюдента. Надеюсь, теперь вы и в ночи, и с похмелья без запинки расскажете, что он позволяет сравнивать две разные выборки и как им пользоваться. Однако, T-критерий не поможет, если нужно оценить влияние определенного фактора на целевой показатель.

Давайте сегодня погрузимся в вечерние традиции жителей нашего воображаемого города N и познакомимся с другим инструментом для анализа данных, а именно с коэффициентом корреляции.

По традиции (но без лишнего давления!) просим поддержать этот пост реакцией, если он вам понравился и показался полезным ⚡

P.S. И помните, что «поделиться этим постом с другом такая же здоровская идея, как поделиться с ним хорошим мемом»!

Читать полностью…

LEFT JOIN

Voicebox: генеративная модель от Meta AI, которая «говорит» 🗣️
Разработчики Meta AI опубликовали исследование, в котором представили свое новое детище: модель для генерации речи Voicebox. В отличие от многих уже существующих аналогичных продуктов, Voicebox построена на новом подходе – «сопоставления потоков» (*flow matching*). Суть этого метода в том, что модель может обучаться на речевых данных без необходимости их маркировки, что дает возможность использовать более разнообразный набор данных, а в итоге – получать более качественные результаты генерации.

Какие же функции может выполнять Voicebox?
1️⃣ Генерация текста (как с референсом голоса или стиля речи, так и без),
2️⃣ Воспроизведение аудио отрывка на другом языке (доступно для английского, французского, немецкого, испанского, португальского, польского),
3️⃣ Редактирование аудио, включая удаление фоновых шумов и замену слов.

Впечатляет!
Но и настораживает – и это одна из причин почему разработчики Meta AI пока не готовы выложить модель и ее код в открытый доступ. Нам остается только слушать демочки и читать многостраничный научно-исследовательский отчет разработчиков.

А как вы считаете: пользы от моделей для генерации речи больше (помощь неговорящим, озвучивание), чем риск угроз (фальсификация высказываний, мошенничество)? И как стоить регулировать распространение таких продуктов?

Читать полностью…

LEFT JOIN

Исследование: может ли GPT-4 заменить аналитика данных? 👀
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.

Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.

Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!

Читать полностью…

LEFT JOIN

«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?

Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.

Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.

P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250⚡и продлеваем сериал #основы_статистики на следующий эпизод!

Читать полностью…

LEFT JOIN

Простой способ визаулизировать аналитику приложения
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.

Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.

Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.

Читать полностью…

LEFT JOIN

☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

🔵 LakehouseIQ – движок на основе генеративного ИИ, который понимает локальные мемы вашей компании
На этой неделе компания Databricks объявила о релизе нового корпоративного продукта, LakehouseIQ. Благодаря тому, что с платформой можно общаться с помощью естественного языка, пользователь может получить инсайты из базы знаний вашей компании, не прибегая к коду. Сфера применения: поиск информации в базе Databricks, автоматические предложения по улучшению запроса Spark или SQL, интеграция через API с другими приложениями.

🔵 Инженеры данных, новость для вас: динамические таблицы в Snowflake
Платформа Snowflake обзавелась новой фичей, которая существенно упростит трансформацию данных. Выстраивание последовательности задач, контроль зависимостей и расписания – задачи прошлого! С помощью динамических таблиц вам достаточно указать финальный вид трансформации, и, в то время как данные в них будут автоматически обновлятся, таблицы в самой базе данных не будут претерпевать никаких изменений.

🔵 Можно ли предсказать рейтинг фильма на основе данных? Учебный кейс с Rotten Tomatoes
Кинопроизводство – это многомиллионный ($) бизнес. И ИИ может стать подспорьем продюсерам и другим заинтересованным в успехе проката лицам. Тестовый проект, использованный при трудоустройстве в Meta (Facebook), предлагает два варианта определения рейтинга: (1) предсказание рейтинга на основе числовых показателей и данных о категории и (2) сентимент-анализ обзоров и отзывов. Подробный разбор работы на KDnuggets может пригодится любителям data science и машинного обучения.
#дайджест

Читать полностью…

LEFT JOIN

P-value в действии: Влияет ли стакан молока на ночь на сон?
В прошлом посте рубрики мы вспомнили про одну из самых важных тем, а именно про центральную предельную теорему, на которой держится вся статистика.

Теперь давайте шлифанем ваши знания о p-value — метрике, которая помогает принять оценить тот или иной эксперимент и сделать вывод не просто каким-то выводом, а статистически значимым!

P.S. Давайте соберем 100 ⚡под этим постом и мы продолжим нашу рубрику #основы_статистики карточками про критерий Стьюдента и сравнение выборок!

Читать полностью…
Subscribe to a channel