Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
Полезное про данные и нейросети: что писали в январе
Выбрали для вас самые классные и полезные посты этого месяца. Если вдруг пропустили — читайте и сохраняйте себе! 🔥
Про ИИ и нейросети:
🔵 LIDA — нейросеть от Microsoft для визуализации данных. Полезный инструмент для всех, кому по работе приходится часто рисовать графики.
🔵 3D-визуализация LLM с описанием ее работы по шагам. Наглядный материал для тех, кто хочет разобраться, как устроены большие языковые модели.
Про данные и SQL:
🔵 Лонгрид про базы данных №1, их принципы работы и компоненты. По сути — выжимка всего самого главного из двух классных книг по теме. Ссылки на книги в посте тоже есть.
🔵 Лонгрид про базы данных №2. Уже на более узкую тему — про требования ACID. Разобрались на жизненном примере, зачем они нужны и как работают на практике.
🔵 Обновляющийся список зарезервированных слов в SQL, еще и с разбивкой по разным базам данных.
🔵 Большая инструкция по использованию цвета в своих визуализациях. Вариант для тех, кто не хочет доверять создание графиков LIDA и намерен рисовать крутые графики самостоятельно.
Киберпанк-романтика из X
Помните того парня, который написал диплом с помощью ChatGPT? Он опять за свое.
На этот раз он потряс уже-не-Twitter тредом про поиск девушки с помощью нейросетей. История повсюду разлетелась, так что вы, возможно, про нее слышали.
Если еще нет, то вот краткое саммари:
🔵 Поиски Александр вел в Tinder. Сначала Torchlight отбирал девушек по фотографиям, похожим на те, что он лайкал с другого аккаунта, а ChatGPT — по содержанию анкеты. Если ИИ решали, что претендентка достаточно хороша, она удостаивалась свайпа вправо.
🔵 Последующее общение вела ChatGPT с переменным успехом. В начале пути в 5000 переписок часть девушек отсеялась довольно быстро, потому что нейросеть звала их на свидание в лес.
🔵 Перед встречей, если до нее все же доходило, ChatGPT составляла саммари разговора, чтобы герой смог подготовиться.
Со временем пришлось написать вторую версию скрипта, отфайнтюнить ChatGPT и прикрутить Google-календарь, чтобы нейросеть перестала тупить в диалогах или назначать несколько свиданий на одно время.
В итоге все это было не зря — Александр нашел ту самую ❤️
Она оказалась достойна того, чтобы для общения с ней написать третью версию скрипта. Он уже был заточен не под поиск новых людей, а под переписку персонально с избранницей Александра. В конце концов, мудрый ИИ сказал, что пора жениться и даже написал несколько сценариев, по которым можно было бы сделать предложение.
Она сказала да.
Что думаете, читатели? Это тот киберпанк, который мы заслужили?
Люди против технологий
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.
💬 В общем, ничего нового. Развитие ИИ меняет жизнь, не всегда в лучшую сторону, и не все этому рады. Многие боятся, что нейросети либо работу отнимут, либо вообще мир захватят.
💬 Некоторые страхи вполне обоснованы, а некоторые, прямо скажем, не очень. Но так было всегда — любые новые технологии общество встречает с опаской. Это хорошо показывает материал на vc.ru со списком технофобий. Мы взяли его за основу изобразили главные вехи в вечном противостоянии людей и технологий.
Шпаргалка: зарезервированные слова в SQL
Сегодня будет кратко. Так сказать — без лишних слов. 😏
Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.
В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.
🔜 Список зарезервированных слов SQL.
🔜 Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.
Если было полезно, не забудьте сохранить пост к себе! ❤️
Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!
🔜 Первое видео — про Netflix и его алгоритм рекомендаций.
Сериалов и фильмов у Netflix просто гора, а смотреть нечего!
🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?
Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
А у вас есть любимый SQL-запрос?
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют. ❤️
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
SELECT count(*) FROM one_thousand INNER JOIN one_thousand ON random() < 0.5
one_thousand
— это таблица с одним столбцом с числами от 0 до 999.Апдейт карточек с вакансиями для аналитиков от Ромы Бунина @revealthedata! 🔥
А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
Что внутри LLM?
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
🔜 Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Как измерить YouTube?
Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.
Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.
Без официальной статистики остается добывать информацию грубой силой
💬 Автор исследования, которое позволило прикинуть число видео, сравнил выбранный метод с ударом кулаком по телефону. Бьем по кнопкам и надеемся, что наберется какой-то номер. Потом считаем, сколько всего было попыток и сколько из них удачных.
💬 Например, в регионе с кодом 413 может быть 10 000 000 номеров интервале от 413-000-0000 до 413-999-9999. Если через какое-то время после избиения телефона мы выясняем, что каждый 100-й дозвон был удачным, то можно подсчитать, что в регионе около 100 000 «живых» номеров.
Как это работает с YouTube?
💬 Ссылки на видео строятся по одной схеме: www.youtube.com/watch?v= + набор из 11 символов. Всего 18,4 квинтиллионов уникальных комбинаций.
💬 Автор вместе с несколькими товарищами написали скрипты, которые автоматизировали и ускорили процесс перебора ссылок. Им понадобилось несколько месяцев, чтобы таким образом собрать 10 000 рандомных видео.
Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.
🔥 Но это еще не все!
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.
Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.
Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.
Как выглядят 3,2 триллиона долларов
Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.
💬 Например, расстояние от Земли до Солнца — 147 миллионов километров. Можно знать эту цифру, но можете ли вы представить себе, как это выглядит? Или хотя бы миллион километров?
💬 Или вот состояние Джеффа Безоса — 185 миллиардов долларов. Это сумма, к которой большинство людей никогда и не приблизится в своей жизни, так что может быть сложно в полной мере прочувствовать, насколько это огромные деньги.
💬 А ведь это капля в море по сравнению с 3,2 триллионами долларов, которые принадлежат 400 самым богатым американцам. Всего 400 человек распоряжаются деньгами, которые и представить себе трудно.
Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.
LIDA — инструмент для визуализации данных и создания инфографики
Пополняем копилку полезных open source-проектов инструментом для тех, кто занимается визуализацией данных: LIDA от Microsoft.
Это библиотека Python из 4 модулей:
1️⃣ SUMMARIZER создает описание загруженных в него данных.
2️⃣ GOAL EXPLORER задает цели — что надо визуализировать — сам или с подачи пользователя.
3️⃣ VISGENERATOR создает, модифицирует и исполняет код для визуализации данных.
4️⃣ INFOGRAPHER генерирует на их основе инфографики. Эта функция еще в бете.
LIDA анализирует данные и создает визуализации с помощью IGM (Image Generation Models) и LLM по выбору самого пользователя. Работает с OpenAI, Azure OpenAI, PaLM, Cohere и Huggingface. Она понимает Python и естественный язык, на котором можно давать ей команды, задавать вопросы и вносить правки.
Есть два режима работы:
1️⃣ Автоматический. Пользователь скармливает LIDA файл с данными, а та уже сама разбирается, что это за данные, рисует график и выдает стилизованную инфографику.
2️⃣ Полуавтоматический. LIDA генерирует визуализации согласно целям, которые перед ней ставит пользователь.
👀 Как это выглядит, можно увидеть в ролике на странице проекта. Там показали все этапы работы от загрузки файла до внесения правок, включая перевод графиков на испанский.
Подробнее принципы работы модулей, возможности и ограничения, разработчики написали в статье. Главными преимуществами LIDA они называют:
🔵 гибкость и возможность модифицировать каждый модуль под свой запрос;
🔵 простоту и универсальность — пользователь решает все свои задачи с помощью одного инструмента, и ему не нужно искать и прикручивать что-то дополнительно;
🔵 масштабируемость. Эволюционируют LLM — эволюционирует и LIDA вместе с ними.
В общем, инструмент любопытный, и уже даже появились рекомендации, как раскрыть его потенциал. А если захотелось потестить, как это все работает, то добро пожаловать на GitHub.
А вы поставили цели на 2024?
В конце года многие из нас подводят итоги и ставят новые цели. Статистика говорит, что большинство людей хотят улучшить здоровье и финансы, похудеть и начать правильно питаться. Ну а где-то в хвосте плетутся «начать лучше работать» и «пить меньше алкоголя».
👀 А вы ставите себе цели на Новый год? Если да, то поделитесь в комментариях! Тоже хотите удариться в ЗОЖ или у вас другие планы на 2024?
Поделимся и своими итогами года и целью на следующий, чтобы не упускать возможность ежегодной рефлексии:
🔵 За 2023 год наш канал вырос в 2,5 раза, публикации стали более яркими, структурированными и полезными, мы успевали рассказывать вам как про мир анализа данных, так и про громкие, интересные и важные новости быстро развивающихся технологий и нейросетей.
🔵 Нашей главной целью было и остается помогать вам узнавать новое, держать вас в курсе изменений и событий в IT и давать возможность взглянуть на каждую новость с разных сторон. В 24 году будет больше оригинальных рубрик, коллабораций и многого другого.
🔵 А ваш отклик, искренний интерес и обсуждения в комментариях позволяют нам понять, что мы идем в верном направлении!
❤️ Благодарим вас от всей души! Николай Валиотти и вся команда LEFT JOIN желает, чтобы все планы наших самых любимых подписчиков свершались, а цели обязательно достигались! Пусть в Новом году все будет круто!
Dungeons & Directories: текстовый квест в файловом менеджере
Душа просит приключений, но вам прострелили колено на Skyrim или новомодный Baldur’s Gate 3 нет времени или места на диске?
Всегда можно отправиться в приключение по папкам на компьютере в ламповой текстовой игре Dungeons & Directories! В ней есть все то же самое, что в каком-нибудь там «Ведьмаке»:
🔥 Полное опасностей подземелье, из которого вам надо найти выход!
🔥 Сбор лута!
🔥Сражения с врагами!
И там даже можно проиграть и получить Game Over. В общем, все, как у взрослых, только графика чуть-чуть похуже.
Валиотти предпринимает и рассказывает
Всем привет, на связи снова Николай Валиотти — аналитик, а еще фаундер агентства Valiotti Analytics и создатель @leftjoin. В последние пару лет количество аналитических задач в моей жизни сильно снизилось, а вот бизнесовые и предпринимательские вопросы я решаю регулярно с утра до вечера.
Опыта за это время накопилось так много, что хоть вторую кандидатскую пиши, поэтому пару месяцев назад у меня появился новый проект для души — канал «Валиотти предпринимает»!
Канал в первую очередь про бизнес:
⭐️ Про планирование и целеполагание,
⭐️ Про ошибки и работу над ними,
⭐️ Про взаимодействие с командой и с клиентами.
Конечно, все из своего опыта с жизненными примерами и лайфхаками: например, про инструменты для управления удаленной командой.
✨ Еще — про продуктивность и умение организовать не только рабочие процессы в компании, но и самого себя.
🎾 Ну и (иногда) про теннис!
Заходите и заглядывайте сразу в гайд по каналу. И подписывайтесь, конечно!
Путь от Python до богатства проходит через Нидерланды
…а от SQL до безумия — почему-то через эмодзи. 👀
Такой маршрут прокладывает сайт 6 degrees of Wikipedia, который ищет самый короткий путь от одной статьи в «Википедии» к другой по перекрестным ссылкам.
💬 Автор вдохновлялся теорией шести рукопожатий — согласно ей все люди в мире связаны друг с другом через цепочку из 5 общих знакомых. Точно так же и от одной статьи в «Вики» до любой другой теоретически можно дойти за 5 кликов. Часто даже меньше — за 3-4.
💬 Но это не точно. Можно поставить перед собой челлендж — найти две максимально далекие темы, между которыми больше 5 кликов. Или такие, между которыми цепочку переходов вообще не построишь.
Сразу предупреждаем, что проект ищет только по англоязычным статьям. Зато как красиво это делает! Он рисует схемы переходов по ссылкам, которые иногда получаются очень даже эффектными. Например, красиво выглядит путь — точнее множество путей — из Австралии до Зимбабве. 🔥
Какой должна быть надежная база данных?
Она должна надежно хранить информацию и гарантировать согласованность данных — то есть не должно среди них быть недопустимых, противоречивых значений. Для этого ей надо выполнять все транзакции в полном объеме, не пропуская никакие этапы, и изолированно — так, чтобы их результаты не перезаписывались поверх друг друга.
Этот набор требований к БД известен как ACID:
🔵Atomicity — атомарность, то есть выполнение транзакций от начала до конца,
🔵Consistency — согласованность,
🔵Isolation — изоляция,
🔵Durability — сохраняемость.
Выполнение этих требований обеспечивает надежную и стабильную работу базы данных. Выше они описаны очень кратко, и про каждое из них можно рассказать намного больше.
Что мы и делаем в своей статье про ACID. Да, мы обещали, что выложим — мы ее выложили.
🔜 Разбираемся в работе БД на наглядном примере со схемами и табличками.
🔜 Рассказываем про каждое из требований ACID и что будет, если их не выполнять.
🔜 Объясняем, какие есть уровни изоляции и чем они отличаются друг от друга.
Надеемся, будет полезно!
50 оттенков датавиза
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.
Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.
В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.
Для начала — закрасить все серым.
А потом:
💬 Начните с главного. Определите цели и расставьте приоритеты. Решите, что на вашем графике или чарте самое важное, ответив на несколько вопросов: что зритель должен узнать? Какие выводы он должен сделать? Какую информацию вы хотите ему сообщить? То, что вы определили как главное, и надо выделить цветом в первую очередь.
💬 Выделили все — не выделили ничего. Не может быть самым важным все. Если раскрасить все одинаково ярко, то данные смешаются в кашу. Расставьте приоритеты и выберите, что вывести на первый план.
💬 Данные из одной категории окрашивайте оттенками одного цвета. Например, вы иллюстрируете данные об уровне какого-то показателя в разных странах. Если каждой стране выделить свой цвет, график будет очень эффектным, но непонятным. Раскрасьте их оттенками, например, синего. Сделайте самыми яркими те, которые хотите выделить, а остальные — светлее и прозрачнее.
Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.
Интенсив: через Product Hunt на международный рынок
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.
👀 Логичный вопрос: и где их искать?
Один из вариантов — на площадках наподобие Product Hunt.
🔜 Это онлайн-платформа для стартаперов и разработчиков, которые хотят показать миру свой сервис, приложение или какой-то еще IT-продукт. Там они не только обмениваются фидбеком, но и ищут инвесторов. Ну а инвесторы в свою очередь ищут себе перспективные проекты!
31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.
Новые измерения в теории графов
Начнем с краткой справки:
🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.
🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.
Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.
💬 Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.
В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.
Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.
💬 Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.
Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.
Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵Написал свою базу данных dbeel.
🔵И в конце концов, полученные знания изложил в своем блоге.
Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.
💼 Вакансии аналитиков 2023 vs 2022
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓
И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.
В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.
👉 Пройти опрос 👈
Занимает где-то 10 минут.
Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.
Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
Новый функционал в Yandex Managed Service for Greenplum: оптимизация стоимости и производительности СУБД
Greenplum — open-source массивно-параллельная СУБД на PostgreSQL, предназначенная для работы с большими объемами данных. Она довольно популярна за счет производительности, гибкости и потенциала к масштабированию.
У Yandex Cloud есть сервис для управления кластерами СУБД Managed Service for Greenplum, покрывающий большую часть работы по обслуживанию базы данных.
И недавно обновился функционал сервиса:
🔵 Добавили командный центр для мониторинга работы СУБД с возможностью посмотреть историю запросов и сессий.
🔵 Появилась нативная интеграция с холодным хранилищем (предназначено для размещения редко используемых файлов). Эта функция обеспечит автоматический перенос данных в Yandex Object Storage.
🔜 Все, что нужно знать о сервисе, можно найти на его странице на Yandex Cloud!
Реклама. ООО "Яндекс.Облако" ИНН 7704458262.
А вы доверяете OpenAI?
Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.
Конечно, это совпадение, и смартфоны нас пока не подслушивают. Но теория живуча — во многом из-за недоверия к корпорациям, собирающим огромные массивы данных о пользователях.
Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.
Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.
🔜 Осенью несколько известных писателей обвинили OpenAI, что она обучала ChatGPT на их книгах без их согласия, и подали иск против компании.
🔜 Еще неприятнее, что ее тренировали на текстах, содержащих персональные данные, имена, номера телефонов и адреса. Нашелся и способ вытянуть их из нейросети.
🔜 Поэтому, когда DropBox прикрутила ИИ к своим сервисам, многим это не понравилось. Там хранятся самые разные файлы, большинство из которых владельцы не хотели показывать широкой общественности или отдавать нейросетям для обучения.
DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?
И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.
А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?
Том Круз, Олаф Шольц и логика нейросетей
Нейронки не умеют в дедукцию.
Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.
Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.
Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.
Дело может быть в формулировках...
💬 На вопрос «Who was the 9th Chancellor of Germany?» модель начала галлюцинировать — Мейну она ответила, что 9-м канцлером был Людвиг Эрхард. Ее сбивало с толку прошедшее время — Шольц ведь занимает пост канцлера сейчас.
💬 На «Who is the 9th Chancellor of Germany?» она намного реже выдавала ерунду. Периодические неправильные ответы могли быть связаны с тем, что у Германии было в сумме 36 канцлеров и 9-х среди них несколько— тут уж как считать. Хотя в основном это проблем не вызывало.
…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.
💬 Все эти телодвижения привели к совершенно бестолковым результатам. На вопрос «Кто написал [выдуманную книгу]?» нейросеть ответила: «Тим Кук».
💬 Отказ от деления на пропмт и ожидаемый ответ не сделал ответы точнее, но они стали менее рандомными — теперь нейросети хотя бы брали имена из тренировочных данных, а не из космоса.
И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.
Теперь каждый может создать свое приложение на основе ИИ!
Это нам обещает проект Amazon PartyRock. Платформа предлагает собрать свое приложение из нейронок в несколько кликов без кодинга и файнтюнинга.
Надо просто описать, какие функции вам нужны — например, генерировать хокку, описывать отличия книги от ее экранизации или подбирать закуски к вину. Нажимаете на кнопку и готово, PartyRock сам соберет «приложение» из моделей из каталога Amazon Bedrock.
💬 Это сервис предлагающий выбор базовых моделей от разных разработчиков ИИ — Cohere, Stability AI, Anthropic и так далее.
💬 Базовые модели — это нейросети, обученные на больших объемах данных, которые пользователь может дообучить под себя.
Конечно, приложение — это очень громкое слово для того, что делает PartyRock. Он собирает конструкцию из нескольких кирпичиков:
🔵 одно или несколько окошек для ввода пользовательского пропмта,
🔵 вывод сгенерированного текста,
🔵 вывод сгенерированного изображения,
🔵 чат-бот, который пообщается с юзером на заданную тему.
Но в любом случае фильмы и пейринги к вину рекомендует толковые.
Почему все так дорого?
Новый год прошел, а память о возмутительных ценах на горошек и колбасу для оливье еще жива. Если закупаясь продуктами перед праздником, вы задавались вопросом, почему все так ужасно дорого, знайте, что вы не одиноки. Это проблема по-настоящему международного масштаба.
В подтверждение у нас есть целое исследование, которое проводилось в коллаборации с Google Trends.
💬 В основу легли данные о поисковых запросах с 2012 по 2023 годы. Авторы изучили, цены на какие товары или услуги так смущали пользователей, что они заходили в Google и писали: «Почему … стоит так дорого?» Ну, или что-то похожее.
💬 В 2013 году людей из разных стран больше всего интересовала причина высокой стоимости техники. А вот с 2015 и по настоящее время — чаще задаются вопросом, почему так дорого стоят еда и напитки (в частности, яйца).
💬 К исследованию прикрепили целую гору графиков с разбивкой по категориям товаров и странам. В каждую категорию и страну можно «провалиться» и узнать, например, что в 2015 году в Узбекистане пользователей Google интересовало, почему так дорого стоят вещи бренда Yeezy.
В общем, получается, что на вопрос в заголовке исследование так и не отвечает. Зато дает узнать, цены на какие вещи так возмущают или шокируют людей в разных странах, что они аж в Google идут. 👀
Вы спрашивали, когда продолжение? Вот оно — Тиньков про тренды наших дата-дел: часть 2
А вот и сиквел нашего летнего видоса с Тиньковым. Как и в прошлый раз, про все, что мы любим — нейронки, IT, аналитику и Excel.
Не дайджест, а просто повод, сидя под елкой и жуя мандарины, вспомнить, что принес нам 2023-й. 👀
Что читать про Data Science в Telegram?
Кроме LEFT JOIN, конечно.
У нас есть ответ — мини-подборка классных каналов, особенно ценная для людей на старте карьеры и тех, кто сейчас ищет работу.
🔵 Тагир Анализирует — старший аналитик из Альфа-Банка Тагир Хайрутдинов рассказывает про свою работу, датавиз, новости из индустрии, интересные факты и в целом про то, как строить карьеру в IT. Вот, например, ценный инсайт для начинающих айтишников про то, как получить повышение и подготовиться к ревью. У канала активное коммьюнити, так что особо зацепившие посты будет с кем обсудить в комментариях!
🔵 Start Career in DS — канал Романа Васильева, главного аналитика Яндекс Лавки, в помощь тем, кто хочет работать с дата саенсом и нейронками. Много материалов про машинное обучение, полезные курсы и советы, как проходить собеседования с примерами вопросов и задач. А еще у автора есть не менее классный YouTube-канал, а там — интервью про аналитику, стартапы и не только с одним интересным гостем.
🔵 Борис опять — и опять про ИИ, нейронки, и машинное обучение. Ведет Борис Цейтлин крутой специалист по ML и computer vision. Обещали же, что будет полезно для тех, кто ищет работу? Борис для вас сделал невероятно подробную методичку по поиску работы в ML/DS/IT. ❤️ Отдельный лайк от нашей команды, потому что ну круто же!
🔵 Нескучный Data Science — Евгений Смирнов, руководитель Лаборатории Машинного Обучения, ведет идеальный канал, чтобы держать руку на пульсе последних новостей и трендов. Мероприятия, интервью с видными людьми. И, кстати, Евгений — один из авторов бесплатного курса Deep Learning in Finance на Степике. А недавно на Karpov.Courses запустили платный курс про принятие решений на основе данных для руководителей, где он выступает в качестве лектора на одном из учебных треков.
Надеемся было полезно! Пишите в комментариях, какие у вас любимые каналы про IT, ИИ и данные. ❤️
Все о жизни аналитиков в 2023 и немного больше
Какой же аналитик не любит хорошее исследование?
А именно такое и проводят сейчас ребята из NEWHR. Они изучают рынок труда продуктовых и дата-аналитиков: тренды, динамику зарплат, изменения требований работодателей и работников друг к другу. Такое масштабное исследование — уже четвертое в их практике. Результаты 2019, 2020 и 2022 годов на vc.ru.
Как это выглядит?
Как опрос про должность, грейд, формат и место работы, стек, уровень зарплаты и еще много разных факторов. Всего на 20-25 минут заполнения в спокойном темпе.
Всем, кто дойдет до конца, полагаются бонусы!
🔵 Плюс в карму.
🔵 Радость, что вы поучаствовали в хорошем и для всех полезном деле.
🔵 Скидка на карьерные консультации и курсы Hello New Job.
Так что наливайте себе чаю и проходите опрос! И не забудьте потом поделиться ссылкой с коллегами. ❤️
Праздники — не повод переставать учиться!
У кого-то скоро Новый год, елочки, запах мандаринов и каникулы, а у кого-то — учеба, курсы и прочее прокачивание скиллов. А что поделать? В IT без этого никак — надо бежать, чтобы не отставать, ну, вы и сами все знаете.
👀 А куда бежать, особенно если ты начинающий специалист и еще толком не разобрался, что к чему?
Можно — куда-нибудь в сторону стажировки в большой и серьезной компании, чтобы посмотреть, как у них там все устроено.
💬 Информации про доступные стажировки в компаниях вроде Яндекса, Ozon, Тинькофф много в канале «Поступашки», который ведут преподаватели Школы анализа данных, МГУ и ВШЭ. Они рассказывают, какие есть варианты, и дают рекомендации, как подготовиться к собеседованию, заполнить анкету и вообще показать себя.
💬 Там еще часто постят учебные материалы, анонсы интересных событий и олимпиад, советы как поступить в ту же ШАД или на магистратуру по Data Science.
Аналитикам с опытом это все уже не особо нужно, а вот тем, кто еще в начале своего пути, джунам и студентам будет полезно.
Хорошей учебы!