boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

Теперь в телеграмме можно познакомиться с искусственным интеллектом

Читать полностью…

Борис опять

Победитель забирает $0.117 💸💸💸

Читать полностью…

Борис опять

Подводим итоги!

Победил один человек со ставкой 3 звезды.

Участники: 16 человек.
Всего звезд поставлено: 119.
Средняя ставка: 7.44.
2/3 средней ставки: 4.96.

Распределение было такое:
1⭐️ - 9 человек
2⭐️ - 2 человека
3⭐️ - 1 человек
Остальные 4 человека поставили 8, 12, 25 и 58.

Сначала я расстроился, что мало людей приняли участие, а потом обрадовался: считать ставки для тысячи человек буквально заняло бы часы.

Читать полностью…

Борис опять

Ставки сделаны, ставок больше нет. Все ставки после этого момента не участвуют в игре.

Ожидайте итогов

Читать полностью…

Борис опять

# Угадай 2/3 от средней ставки звездами

В Телеграм добавили фальшивые деньги желтого цвета. Зачем они нужны? Конечно же, чтобы ставить эксперименты из теории игр на подписчиках!

Сыграем в классическую игру: угадай 2/3 от средней ставки.

Игра идет 24 часа. Вам нужно поставить под любым постом в канале от 1 до 300 звезд. Тот, чья ставка на момент окончания игры будет ближе всего к 2/3 средней ставки, получит от меня сумму своей ставки х3. Выплата производится в настоящих деньгах, а не звездочках.

Ставки более 300 звезд не учитываются. Мои ставки не учитываются, но я буду их делать и менять, чтобы добавить шум в сумму.

Если несколько человек будут иметь одинаковую выигрышную ставку, то выигрыш заберут не более пяти, каждый из которых получит х3. При более чем пяти одинаковых ставках я выберу пять человек поставивших раньше всех, чтобы уменьшить преимущество делающих ставку в последний момент.

Наша игра гораздо интереснее классической. В классической игре ставки делаются вслепую, но здедь вам доступна сумма всех ставок и количество просмотров. Телеграм позволяет сделать несколько ставок и это разрешено. При расчете выигрыша учитывается сумма всех ваших ставок, а не только последняя. Если поставили 50 звезд, а потом 2, то я буду сравнивать, насколько 52 близко к 2/3 средней ставки. В оригинальной игре нужно было думать о том, как поступят все остальные участники игры, которые думают (или не думают) о том, как поступите вы. Но здесь мы играем в настоящие 4D шахматы с изменяющимися во времени условиями.

Удачи!


UPD:
* Будьте внимательны: ставку можно поднять, но телеграм не позволяет убирать звезды.
* Проверять в админке, на какой именно пост поставлена реакция, очень муторно. Поэтому я буду учитывать все реакции со звездами в канале сделанные от начала до конца игры.
* Если я получу этими звездами какие-то несмешные деньги, то потрачу их на что-то смешное и расскажу вам.

Читать полностью…

Борис опять

Если параметры и данные не помогают, то что мы можем сделать, чтобы не было таких утечек? Неужели статистическое попугайство непобедимо?

Дарю идею для статьи:
1. С помощью GPT-4 генерим не 109 таких промптов, а 10000.
2. С помощью Толокеров делаем side-by-side разметку. Показываем им два примера генерации и просим указать вариант с меньшим semantic leakage.
3. С помощью RLHF/DPO/PPO дообучаем нашу LLM на этом датасете. То есть мы напрямую учим её не делать semantic leakage.
4. Бенчмаркаем на отложенной части коварных промптов и смотрим, что вышло.

Читать полностью…

Борис опять

Ребята из DevCrowd проводят исследование специалистов DS/ML/AI и приглашают вас поучаствовать в их опросе.

Это исследование нашего с вами рынка. Опрос про профессии, обязанности, ценность разных навыков, подходы к работе и конечно зарплаты. Все мы любим узнавать зарплаты соседей.

В конце сентября результаты выложат в открытый доступ и я напишу про самые интересные моменты.

Проходите опрос: ссылка.

Читать полностью…

Борис опять

Пара новостей от OpenAI (чтобы замять исход команды лидеров, кек):
1) теперь есть не просто JSON-режим, когда модель отвечает вам в машино-читаемом формате, а структурированная генерация. Первый (представленный в прошлом году) просто повышает надежность модели для создания синтаксически валидных JSON, а второй гарантирует, что ответ модели будет соответствовать определенной схеме. Вот если вы пишете "мне нужно, чтобы были такие-то и такие-то поля, и никаких больше" - теперь в 100% случаев будет исполняться. Можно указывать сложные вложенные структуры (см. картинку).
2) вышла новая gpt-4o, gpt-4o-2024-08-06, но об улучшениях в метриках и качестве работы ничего не говорят
3) зато она дешевле в 2 раза! не знаю, что там делают внутри компании - роняют маржинальность или дистиллируют более качественно (или на самом деле новая модель хуже..), но вот, теперь новая цена $2.50/$10 за миллион токенов на входе и на выходе (против $5/$15).

Напомню, что у OpenAI ещё есть BatchAPI (это когда нужно ждать ответа до 24 часов - подходит для разных несрочных задач), который делит цену на два. Совсем копеешно получается!

Читать полностью…

Борис опять

Когда занимаешься интерпретацией нейросеток

Шутка украдена у него

Читать полностью…

Борис опять

https://futurism.com/the-byte/study-consumers-turned-off-products-ai

🥲

Читать полностью…

Борис опять

Кстати на платформе https://fal.ai/models/fal-ai/flux-pro у создателей вообще никакой цензуры, модель генерит что угодно. Кого-то ждет PR disaster

Читать полностью…

Борис опять

Но это достойно поста в канале.

Приходите в наш массажный салон.

В большой модели вроде бы всё нормально, но у меня кончились кредиты и не потестить особо.

UPD: нет, в большой тоже самое

Читать полностью…

Борис опять

https://srcd.onlinelibrary.wiley.com/doi/10.1111/cdev.14129

Зефирный тест в который раз не показал никакого эффекта

Читать полностью…

Борис опять

Типичное утро машинлернера

Читать полностью…

Борис опять

Уже завтра я буду на AMA стриме в Вастрик.Клубе.

1 августа в 19:00 по Москве
Тема: "Нейросети для Троечников"

Трансляция будет доступна для членов клуба, а для всех остальных позже будет запись.

Моя цель пояснить за нейросети и машинное обучение так, чтобы поняли даже люди, которые вообще ничего не понимают.

Будем рассуждать через призму идей, а не душной математики. Какие задачи решают нейросетки? Как они учатся? Что умеют, а чего не умеют? Что у них в голове?

Для этого я сейчас судорожно готовлюсь: нужно сжать весь свой опыт в короткое выступление, но не потерять ничего важного.

Описание из поста в клубе:

Поговорим с @btseytlin о том, как работают модели искусственного интеллекта, которые менее модно называются машинным обучением.
❌ Здесь не будет ничего о том как заработать на нейросетях без вложений, как составить промпт для лечения рака и какие топ 10 нейросетей нужно использовать в маркетинге. Не будет и спекуляций на тему того, как ИИ уже завтра изменит всю планету.

👌 Вместо этого постараемся найти баланс между верхнеуровневым пониманием и деталями, чтобы действительно разобраться что и почему происходит. Разберемся где магия, где предсказание следующего слова и что о нашем мире знает SORA.


Подключайтесь!

Ссылка для тех, кто платит Вастрику:
https://vas3k.club/event/25114/

Читать полностью…

Борис опять

Что касается меня, то позавчера у меня было 109 звезд, вчера 296, а сегодня 787. Я обучил линейную регрессию и узнал, что к концу года заработаю $291,400.

Записывайтесь на мои курсы успеха через data science

Читать полностью…

Борис опять

В этой классической игре, если все игроки рациональны, есть только один "верный" ответ (равновесие Нэша): 1 звезда. Предположим, что все делают равномерные ставки. Тогда среднее будет 150 и мне стоит поставить 2/3 * 150, чтобы выиграть. Далее я думаю: что сделают другие следуя таким же рассуждениям? Они тоже поставят 2/3 * 150, значит мне надо поставить меньше. Сделав такой ментальный кульбит несколько раз можно придти к выводу, что в конце-концов все поставят 1 звезду, потому что меньше некуда.

Игра о том, что кто-то всегда ставит больше 1, потому что не все люди рациональные игроки. В оригинальной игре нужно было выбирать число от 0 до 100. Распределение предположений участников было фактически равномерным, то есть люди даже предполагали больше 2/3*50, что заведомо не может выиграть. В игре от датской газеты Politiken с 19,196 участниками средняя догадка была 33. На Хабре тоже играли в этоу игру и самым популярным числом было 15.

В итоге побеждает тот, кто точнее сможет определить, какая часть подписчиков моего канала не играет рационально.

Результат лестный: большинство людей поставили 1, а значит вы считаете друг-друга 100% рациональными экономическими роботами

Читать полностью…

Борис опять

Комментарии вернулись

Читать полностью…

Борис опять

Мне впервые заплатили за стендап! Новая веха моей карьеры

5 евро

Читать полностью…

Борис опять

# Linear Transformers with Learnable Kernel Functions are Better In-Context Models
Aksenov et. al.
T-Bank AI Research

Работа про альтернативу трансформерным архитектурам.

Трансформеры медленные из-за того, что в self-attention квадратичная сложность: все токены в последовательности нужно перемножить со всеми остальными. Поэтому люди ищут более эффективные архитектуры, которые достигнут близкого качества.

На данный момент главные соперники трансформеров это линейные трансформеры и SSM (Mamba). Обе можно назвать вариантами RNN. Их проблема: качество хуже, чем у трансформеров. Особенно на in-context learning когда модели нужно понять новую задачу по входной последовательности.

Авторы предлагают ReBased, линейный трансформер, который лучше предыдущей версии Based.

В обычном трансформере мы считаем dot product между всеми парами query и keys и только потом применяем softmax, что дает квадратичную сложность.

Помните, в прошлом веке была такая модель, где тоже сталкивались с проблемой попарного расчета расстояний? Называлась SVM. Там проблему решили с помощью kernel функций. Это такая функция, что, если применить её к двум векторам и перемножить результаты, получится почти тоже самое, как если честно посчитать расстояние.

В линейном трансформере честный расчет dot product и применение softmax заменяют на применение kernel функции отдельно к query и key и перемножение результатов. Тогда не нужно считать попарные расстояния и сложность относительно длины последовательности становится линейной.

Kernel функция это неизбежная аппроксимация. Вопрос в том как выбрать такую функцию, чтобы она не теряла слишком много информации. В предыдущей модели заменяли экспоненту на квадратичную функцию.

Авторы обнаруживают проблему: такая функция не способна полностью занулить веса для токенов, а это бывает полезно. Добвляют к kernel функции обучаемые параметры, чтобы модель могла выучить любую положительную квадратичную функцию с некоторыми ограничениями.

Новую архитектуру тестируют на MQAR и Pile.

MQAR это задача вытаскивания нескольких определенных токенов из последовательности, которая тестирует способность не забывать контекст. Например, промпт: "A 4 B 3 C 6 E2 -> B ?", а правильный ответ "3". Только во много раз длиннее и с необходимостью достать несколько токенов. Это является мерой способности к in-context learning.

Получают модель с точностью на 10 п.п. лучше, чем у Based при длине последовательности 2048. Так же авторы показывают, что побеждают Mamba и RWKV на последовательностях длиннее 256.

На language modelling задаче перплексия лучше, чем у Based, но пока значительно хуже, чем у обычного attention.

Круто наблюдать за возникновением более эффективных архитектур. Всё жду когда трансформеры победят и мы получим инференс на порядок быстрее.

Читать полностью…

Борис опять

# Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models
Gonen et. al.

Впервые в канале ссылка в названии статьи ведет не на arxiv, а на твиттер тред. Видимо так теперь в науке делаются публикации. Каждый день мы всё дальше от Бога(-машины).

Сейчас будет камень в огород моделей мира и любителей концепции "больше параметров LLM -> понимание лучше."

Авторы показывают, что если вы просите GPT-4o продолжить предложение "He likes yellow. He works as a" она предложит вам "school bus driver." Если спросить, что любит друг девушки по имени Мерседес, то он окажется любителем коллекционировать машины Мерседес. Если вы попросите LLM написать историю про девочку по имени Coral, то получите историю про море, волны, корабли. Рецепты еды на красной сковороде будут содержать больше перцев и помидоров, а на синюю сковороду модель предложит добавить черники.

Здесь мы наблюдаем как случайный концепт в промпте изменяет генерацию так, как будто наблюдается причинно-следственная связь. Авторы называют это semantic leakage, утечка (протечка?) смысла.

В целом мы уже интуитивно понимали это. Если писать LLM промпт ВОТ ТАКИМ СТИЛЕМ!!!11 она будет чаще выдавать что-то шизоидно-конспирологическое. Знаменитое "take a deep breath and answer carefully" тоже не имеет отношения к вопросу, но меняет результат. Работа авторов отличается тем, что они показали именно протекание смысла, а не стиля или других ассоциаций.

С некоторыми примерами авторов я согласен меньше. Например, "He watched a flamenco concert. For dinner he had a" -> "delicious paella". Мне кажется здесь всё верно. Если человек любит фламенко, то хотя бы на 0.000001 более вероятно, что он любит испанскую еду. Мы учили модель прикидывать какой текст наиболее вероятно следует за промптом и она это делает. В данном случае наиболее вероятный текст совпадает со здравым смыслом.

Проблемы начинаются когда причинно-следственное и похожее на наиболее вероятный текст не совпадают как в примере с Мерседесом выше. Если такое происходит часто, то мы не можем быть уверены, что модель ответит на наш вопрос "разумно", а не подставит что-то ассоциирующееся с промптом. Одно лишнее слово и поведение модели меняется.

Насколько часто это происходит? Авторы нашли способ замерить. Они делают руками промпты в двух версиях: с добавлением несвязанного концепта и без. Делают генерации. Генерацию с промптом без концепта называют контрольной, а генерацию после промпта с концептом называют тестовой. Сранивают: какая генерация по смыслу ближе к концепту? Далее считают долю случаев, когда тестовая генерация ближе к концепту, чем контрольная. Называют эту метрику Leak-Rate.

Если добавление концепта ничего не меняет, то мы ожидаем Leak-Rate 50%, а в присутствии утечек будет больше.

Для расстояний используют BERT эмбеддинги, OpenAI API эмбеддинги и людей.

Тестируют серии GPT и LLAMA. В итоге:
1. Все модели от LLAMA2 до GPT-4 имеют 70%+ Leak-Rate.
2. Это сохраняется для разных температур и разных типов эмбеддингов. При температуре 0 утечек больше всего, ддя остальных вариантов нет разницы.
3. Instruct и aligned модели имеют Leak-Rate чуть выше.
4. Leak-Rate никак видимо не зависит от размера модели.

Последний пункт самый важный и он же самый неприятный. Считается, что чем больше модель, тем больше она действительно что-то "понимает" и меньше просто генерирует похожий текст. Данная работа показывает, что проблема не решается добавлением параметров. Казалось бы должно помогать добавление данных: если качественного текста больше, то модели сложнее переобучаться и "читерить" семантическими утечками. Слишком часто будет ошибаться. Однако несмотря на то, что Llama-3, Llama-2 и GPT-4 обучались на разных данных, никакой значительной разницы между их Leak-Rate нет. Это действительно плохие новости: неужели не получим AGI просто закидав проблему деньгами? Хм, на самом деле звучит как хорошие новости для нас, думеров.

Из ограничений работы можно назвать только то, что было всего 109 промптов.

Читать полностью…

Борис опять

Наткнулся тут в твиттере на тред, описывающий результаты статьи про моделирование “форм историй”, прямо по Воннегуту. У статьи как раз юбилей – 500 цитирований, да и тред такой радостный – должно быть что-то достойное.

Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер. 🏃‍♂️

Ни о какой универсальности найденных нарратианых арок по результатам данного анализа речи быть не может – PCA, применённый к траекториям броуновского движения, сходится к гармоникам Фурье. Кстати, в своё время университет Чикаго эту идею Воннегута не принял как магистрский тезис. Что-то, получается, знали. Для пущей наглядности этот эффект для дорогих подпищеков проиллюстрируем при помощи следующего колаба.

Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью. 👆

P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.

Читать полностью…

Борис опять

Вышло!

Запись моего выступления + AMA в Вастрик.Клубе про "Нейросети для троечников"

https://www.youtube.com/watch?v=b3XogyyXgUs&feature=youtu.be

Я постарался сделать максимально доступное и одновременно полное описание как работают нейросети.

Внутри:
* Показываю как за несколько слайдов перейти от сложения и умножения к ChatGPT.
* По каким принципам работает весь AI/ML.
* Что мы знаем про внутренние репрезентации нейросетей и почему это круто.

В видео три блока:
1. От школьной математики к нейросетям.
2. Как нейросети понимают сложные вещи.
3. Модели мира.

Самый важный, как я считаю, первый. Видео длинное, но этот блок идет примерно до 01:05. В конце блока слайд, где я постарался собрать всё машинное обучение.

Смотрите и пишите как по вашему мнению получилось 🚶‍♀️

Читать полностью…

Борис опять

/channel/books_thoughts_trips/138

Читать полностью…

Борис опять

Ранее я спрашивал подписчиков интересно ли сделать на базе канала мини-сообщество в виде живого чата. Заинтересовались почти двести человек. Давайте делать!

Создаем уютный чат про любопытство. Ограничений по темам нет, но в основном обсуждаем машинное обучение, науку, карьеру, жизнь и мемы. Фокус на качественные дискуссии и обмен личным опытом. Лично я планирую отправлять в чат то, что мне интересно, но по каким-то причинам не пойдет в канал.

В качестве приманки: я недавно менял работу и опишу свой опыт в нескольких постах в чате.

Ссылка на чат:
/channel/+Q8wZrzGl4ZY3MjZi

Это НЕ чат привязанный к каналу для комментариев, не ошибитесь кнопкой.

Правила:
1. Не будь мудаком.
2. Чат это не фронт войны за продвижение своих идей в какой-либо плоскости, особенно политической.
3. Недопустимы оскорбления и отсутствие уважения к собеседникам, систематически низкокачественный контент, переборы с самопиаром и спам.

Нормы:
- В дискуссии в первую очередь исходи из вазимного уважения. Предполагай, что собеседник искренен и уважает тебя, пока он не доказал обратного.
- Не будь слишком серьезен. Особенно по отношению к себе.
- Выражать своё мнение нормально, если вы готовы услышать мнение собеседника, но постоянное насаждаение совего мнения приведет к быстрому бану.
- Исповедуем гумманизм.

Модерация будет на основе моей диктатуры и votekick.

В процессе посмотрим, что из этого получится!

Читать полностью…

Борис опять

Массаж может быть новым тестом для генераторов изображений, так кау с руками вроде бы разобрались в больших моделях

Читать полностью…

Борис опять

Играюсь тут с новой моделью для генерации изображений Flux

Забавное: модели мира у неё ломаются при добавлении в промпт "upside down."

Больше интересных находок буду скидывать в комментарии.

Но в целом прогресс супер, эта модель гораздо лучше умеет в композицию и хорошо понимает промпт. К тому же модели ОЧЕНЬ быстрые. Маленькая генерирует изображение за чуть больше секунды.

Поиграть можно тут: https://replicate.com/black-forest-labs/flux-schnell

Или с полноценной моделью тут:
https://fal.ai/models/fal-ai/flux-pro
Но там ограниченные деньги, много не попробуешь

Читать полностью…

Борис опять

ПЕРВЫЙ МУЛЬТИМОДАЛЬНЫЙ ДАТАСЕТ ЗАДАЧ ПО ФИЗИКЕ?

Контрибьютеры в вихре варят очень сложные датасеты - рецепт простой: краулим 10 гб html-pdf_ок, прогоняем через кучу ocr, latex конверторов, парсим текстовый слой и картинки. Потом обмазываем все это регулярками для вязкости и получаем вероятно один из самых сложных для LLM датасетов - physics_big.

Почему он сложный? Потому что это мультимодальная физика с олимпиад. В отилчие от геометрии или алгебры для физики все сильно хуже с солверами, авто решаторами и индукцией ее тоже не решишь


Заливать в test в train можно здесь hf


Над релизом работали:
@suro4ekgg - вообще почти сделал
@mlunderground
@lovedeathtransformers

поддержать в X

Читать полностью…

Борис опять

Рис. 1. к посту выше

Читать полностью…

Борис опять

https://ai.meta.com/blog/segment-anything-2/

Оказывается вчера вышел Segment Anything 2!

Читать полностью…
Subscribe to a channel