Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

12 December 2024 00:36

Извините, не могу удержаться.

gonzo-обзоры ML статей

10 December 2024 22:07

Quanta написала популярно про этот результат и quantum error correction вообще

https://www.quantamagazine.org/quantum-computers-cross-critical-error-threshold-20241209/

Читать полностью…

gonzo-обзоры ML статей

09 December 2024 22:23

Собственноручно проверил наличие супервеса (см. оригинальную статью и разбор от gonzo-обзоры ML статей) в Llama-3.2-1B.

Aномальный вес находится в позиции (400 - выходной канал, 1417 - входной канал) в model.layers.1.mlp.down_proj.

Не столь ярко выражен (перплексия на Wikitext-2 (8k context length) выросла с 8.375 до 8.625 при занулении данного веса), но все же очень много для всего одно веса.

[Google Colab для желающих поиграться]

Читать полностью…

gonzo-обзоры ML статей

08 December 2024 14:27

Star Attention: Efficient LLM Inference over Long Sequences
Shantanu Acharya, Fei Jia, Boris Ginsburg
Статья: https://arxiv.org/abs/2411.17116
Код: https://github.com/NVIDIA/Star-Attention

Не иссякают попытки оптимизировать классическое квадратичное внимание трансформеров. На этот раз block-sparse approximation внимания от Нвидии, которое шардит его по нескольким хостам и минимизирует оверхед на коммуникацию, что даёт возможность эффективно обрабатывать очень длинные контексты.

Много их уже было линейных и логлинейных, начиная со Sparse Transformer от OpenAI в 2019 (/channel/gonzo_ML/65), какая-то вариация которого использовалась и в GPT-3 (/channel/gonzo_ML/305), и позже всяких Big Bird (/channel/gonzo_ML/381), Longformer (/channel/gonzo_ML/292) и прочего разного.

Предложенный Star Attention основан на наблюдении, что инференс LLM состоит из двух фаз: 1) кодирование промпта и заполнение KV кеша для него, 2) авторегрессионная генерация токенов с апдейтом этого кеша. В случае большого контекста паттерн работы это часто “очень длинный контекст + короткий запрос + короткий ответ”.

Сам Star Attention тоже двухфазный:

1. (локальное поблочное внимание) Context Encoding: весь контекст разбивается на соприкасающиеся блоки (каждый по b токенов) и распределяется по “context” хостам. Каждый хост также получает первый блок (“anchor block”). Хосты вычисляют self-attention только в пределах тех блоков, что имеют (2b кроме хоста с только первым блоком, там b), не коммуницируя друг с другом, сложность поэтому получается линейная. Хосты также заполняют KV-кеш, не включая в него anchor блок.

2. (глобальное внимание) Query Encoding and Token Generation: query реплицируется на все хосты, где он через внимание обращается в местный KV-кеш. Глобальное внимание затем вычисляется агрегируя результат на выделенном “query” хосте. Query хост также дополняет KV-кеш значениями для свежесгенерированных токенов.

Интересно, что первая фаза без anchor blocks не работает, модель не генерит правильных результатов. Авторы предполагают, что это из-за некорректной аппроксимации внимания во второй фазе. Если обрабатывать каждый блок независимо, то в начале блока возникают attention sinks (/channel/dlinnlp/1689), и после агрегации это мешает модели концентрироваться на релевантных частях контекста. Якорные блоки оттягивают на себя эти сливы, а поскольку в KV кеш эти блоки не попадают, то распределение внимания по блокам хорошо аппроксимирует глобальное внимание и проблемы не возникает (проиллюстрировано на Figure 3). Интересно, можно было тогда наверное и несколько левых псевдо-токенов добавлять вместо всего якорного блока? StreamingLLM из оригинальной статьи про сливы (https://arxiv.org/abs/2309.17453) вроде примерно это и делал. Но, спойлер, читайте абляции.

Второй этап по факту считает распределённый softmax без необходимости обмениваться KV-кешами между хостами. Есть только отправка на query хост (вектор) локально посчитанных коэффициентов внимания (после локального софтмакса), а также (скаляр) сумм локальных экспонент (знаменатель в локальном софтмаксе), которые нужны для ренормализации глобального софтмакса. Таким образом глобальные коэффициенты внимания получаются правильными.

Star attention встраивают без файнтюнинга в уже обученные LLM с полным вниманием, это разные варианты Llama-3.1 8B, а также Llama-3.1-70B-Instruct для проверки масштабируемости. В качестве бейзлайна берут Ring Attention (https://arxiv.org/abs/2310.01889), который тоже разбивал всё на блоки по разным хостам и позволял скейлить длину последовательности по числу хостов, но не делал никаких аппроксимаций механизма внимания, это было полное внимание. Там хосты обменивались своими KV кешами по кольцу.

Читать полностью…

gonzo-обзоры ML статей

01 December 2024 17:43

19. Сегодняшние проблемы. Наше представление о кибернетической интеграции в настоящее время весьма абстрактно и туманно. Это неизбежно: понятия и цели, касающиеся отдаленного будущего, только и могут быть абстрактными. Это не значит, однако, что они не имеют никакого отношения к нашим сегодняшним проблемам. Понятия о Всемирной Эволюции и кибернетическом бессмертии имеют прямое отношение к понятию о смысле жизни и к высшим ценностям, которые мы принимаем для себя сегодня, хотя те, кто живут сейчас, могут реалистически думать лишь в терминах творческого бессмертия (хотя, кто знает?). Проблема высших ценностей — это центральная проблема нынешнего общества. Ради чего надо жить, после того как наши основные потребности с легкостью удовлетворены современной системой производства? Что есть Добро и что есть Зло? Каковы те конечные критерии, на основании которых мы должны оценивать различные модели общественного устройства? В истории человечества великие цивилизации неотделимы от великих религий, которые отвечали на эти вопросы. Упадок традиционных религий, основывающихся на метафизическом понятии о бессмертии, угрожает деградацией общества. Представление о кибернетическом бессмертии может прийти на смену своему метафизическому предшественнику и послужить основой для учения о высших ценностях нарождающейся глобальной цивилизации.

20. Интеграция и свобода. В наше время мы можем яснее, чем когда-либо, видеть фундаментальное противоречие конструктивной эволюции человеческого общества: между социальной интеграцией и личной свободой. Интеграция есть эволюционная необходимость; это очередной метасистемный переход. Если человечество поставит себе цели, не совместимые с интеграцией, результатом будет эволюционный тупик. Тогда мы не выживем. В эволюционирующей Вселенной нет остановки: все, что не развивается, гибнет. С другой стороны, драгоценной сущностью человека является свобода. Творческая свобода личности — это двигатель эволюции в эпоху разума. Если она будет подавлена интеграцией, как в тоталитарных режимах, мы тоже окажемся в эволюционном тупике.

Это противоречие реально, но ниоткуда не следует, что оно неразрешимо. В конце концов, аналогичное противоречие успешно преодолевалось эволюцией на предыдущих уровнях организации. Когда клетки объединяются в многоклеточный организм, они продолжают выполнять свои биологические функции — обмен веществ и деление. Новое качество — жизнь организма — появляется не вопреки биологическим функциям индивидуальных клеток, а благодаря им. Творческий акт свободной человеческой личности — это его “биологическая функция”. В интегрированном сверхсуществе на всех его стадиях, начиная с той, которая протекает сейчас, эта свобода должна оставаться необходимым и решающим фактором. Как достичь органического синтеза интеграции и свободы — вот вызов, который природа бросает человеку.

Источник: http://www.refal.net/turchin/phenomenon/cybernetic-manifesto.htm

Приложение к книге "Феномен науки. Кибернетический подход к эволюции"
Источник: http://www.refal.net/turchin/phenomenon/

Читать полностью…

gonzo-обзоры ML статей

01 December 2024 17:43

11. Высшие человеческие ценности. Представление о бессмертии есть часть проблемы высших человеческих ценностей. Поведение кибернетических систем, каковыми являются живые существа, определяется некоторыми целями. Эти цели образуют иерархию: чтобы достичь цели более высокого уровня, система должна поставить и достичь ряд целей более низкого уровня. Иерархия целей существа имеет вершину: наивысшие цели или ценности. У животного высшие цели врожденные — это инстинкты выживания и размножения. У человека высшие ценности могут идти дальше инстинктов и даже противоречить им. Как и всякий элемент культуры, представление о высших ценностях жизни внушается человеку обществом, в котором он живет. Однако, в конечном счете, человек сам устанавливает для себя высшие ценности, совершая акт свободного выбора. В результате мы имеем множество этических и религиозных учений. Однако у большинства таких учений мы находим общий знаменатель: ту или иную форму воли к бессмертию. Животное не осознает неизбежности своей смерти; человек осознает. Воля человека к бессмертию является естественным продолжением воли к жизни.

12. Упадок метафизической веры в бессмертие. В традиционных религиях, как, например, христианстве, мы находим представление о бессмертии, которое можно назвать метафизическим. Это представление о бессмертии души и загробной жизни. Протест против смерти используется здесь как стимул для принятия учения; ведь оно с самого начала обещает бессмертие. Однако под влиянием критического научного метода метафизическое представление о бессмертии, некогда конкретное и притягательное, становится все более абстрактным и бледным. Традиционные религиозные системы медленно, но верно теряют влияние.

13. Творческое бессмертие. Другой род бессмертия может быть назван творческим или эволюционным. Это представление о том, что смертное человеческое существо достигает бессмертия, внося свой вклад в некий универсальный бесконечный процесс, который разные люди называют по-разному (История, Культура), а мы называем Эволюция. Вера в эту форму бессмертия лежит, по-видимому, в основе представления о смысле жизни у большинства творческих людей.

14. Кибернетическое бессмертие. Успехи науки позволяют поднять знамя кибернетического бессмертия. Человеческое существо есть, в конечном счете, кибернетическая система — определенная форма организации материи, которая включает многоуровневую иерархию управления. То, что мы называем нашей душой или сознанием, ассоциируется с высшим уровнем в этой иерархии. Наша организация постоянно переживает частичную смену материала, в котором она выполнена. Не видно причин, по которым эта смена не могла бы идти сколь угодно далеко, включая переход к совершенно новым материалам и к принципиально неограниченному времени существования.

15. Бессмертие и эволюция. Кибернетическая интеграция должна сохранить творческое ядро человеческой личности, ибо оно является двигателем эволюции. Она также должна сделать личность бессмертной, ибо с эволюционной точки зрения нет смысла обрывать ее существование. В биологической эволюции источником вариаций являются мутации генов. Природа творит, экспериментируя на генотипах и отбирая по фенотипам. Поэтому она уничтожает старые фенотипы, т. е. биологические тела, чтобы продолжать экспериментирование, эволюцию. Смертность многоклеточных организмов эволюционно необходима. В эру разума, когда ведущей ветвью эволюции является эволюция человеческого общества, источником эволюции становится человеческий мозг. Он не объект, а субъект экспериментирования, его потеря при умирании есть эволюционная нелепость. Личность должна быть бессмертной, как бессмертны гены. Бессмертие человеческой личности стоит на повестке дня Космической Эволюции.

Читать полностью…

gonzo-обзоры ML статей

01 December 2024 17:43

Воскресное.

Кибернетический манифест
Валентин Турчин и Клифф Джослин

1. Философия. Философия отвечает на такие фундаментальные вопросы, как: “Кто я?”, “Откуда я пришел и куда иду?”, “Сколь истинно мое знание?”, “Какова, в конечном счете, природа вещей?”, “Что есть добро и что есть зло?”. Философия важна. Философия является частью нашего знания.

2. Знание. В кибернетической гносеологии знание, принадлежащее кибернетической системе, определяется как некая модель части мира, воспринимаемого этой системой. Модель есть устройство, генерирующее предсказания относительно событий вокруг; эти предсказания используются системой при принятии решений. Понятия смысла и истины следует определять на этой основе.

Знание одновременно субъективно и объективно, ибо оно является результатом взаимодействия субъекта (кибернетической системы) и объекта (среды). Знание об объекте всегда относительно: оно существует только как часть какого-либо субъекта. Мы можем изучать взаимоотношение между знанием и реальностью (прежде всего, истинно или ложно данное знание), тогда субъект знания становится, в свою очередь, объектом для нового субъекта знания. Но знание в любой форме безотносительно какого-либо субъекта есть логическая бессмыслица. Детальное развитие кибернетической гносеологии на основе этих определений крайне важно для формализации естественных наук и философии, а также для интерпретации математических систем.

3. Свобода, воля, управление. В кибернетической метафизике свобода рассматривается как фундаментальное свойство природы. Законы природы суть ограничения на эту свободу, они не обязательно приводят к определенному ходу событий. Понятие свободы подразумевает наличие некоторого активного фактора, который разрешает неопределенность, присущую свободе, выбирая одно определенное действие из множества возможных. Мы называем этот фактор волей. Мы говорим, что воля управляет некоторой кибернетической системой, когда свобода системы ограничивается действиями, выбираемыми волей.

4. Метасистемный переход. Когда некоторое число систем интегрируются в единое целое с возникновением нового уровня управления, мы говорим, что имеет место метасистемный переход. Новая система есть метасистема по отношению к старым. Метасистемный переход является по определению творческим актом. Он не может совершиться под воздействием одних лишь внутренних факторов интегрируемой системы, но всегда требует вмешательства извне, “сверху”.

5. Эволюция. Метасистемный переход — квант эволюции. Высокоорганизованные системы, включая живые существа, суть многоуровневые иерархии по управлению, возникающие в результате метасистемных переходов разного масштаба. Главнейшие эволюционные сдвиги — это крупномасштабные метасистемные переходы, происходящие в рамках естественного отбора как проявления общего принципа проб и ошибок. Примеры: формирование редуплицирующихся макромолекул, образование многоклеточных организмов, появление разума, образование человеческого общества.

6. Человеческий разум. Человеческий разум, как нечто новое по сравнению с разумом животных, возникает в результате метасистемного перехода: мозг получает возможность управлять формированием ассоциаций ментальных представлений. Все специфические черты человеческого разума, включая воображение, самосознание, преодоление инстинктов, постановку целей, юмор, чувство прекрасного, могут быть объяснены как результат этого метасистемного перехода.

Читать полностью…

gonzo-обзоры ML статей

26 November 2024 15:40

Собрал несколько ценных вещей, за которыми стоит следить, если интересуетесь JAX. Там происходит очень много интересного. Например, родилась альтернатива Triton для TPU.

https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025

Читать полностью…

gonzo-обзоры ML статей

25 November 2024 17:32

Вышло интервью с Виталием Ванчуриным. Помните его "The world as a neural network" (https://arxiv.org/abs/2008.01540)?

https://knife.media/neural-universe/

Кстати, есть также тематический канал: /channel/theworldasaneuralnetwork

Читать полностью…

gonzo-обзоры ML статей

12 November 2024 09:27

Подвезли 5+ часов Дарио Амодеи

https://youtu.be/ugvHCXCOmm4?si=Uq84ke42TrmgzLPD

Читать полностью…

gonzo-обзоры ML статей

08 November 2024 20:36

Во втором эксперименте предложена Latent Space Diffusion Evolution, вдохновлённая latent space diffusion models (https://arxiv.org/abs/2112.10752). Она позволяет решать проблемы с многомерными пространствами параметров, исследуя низкоразмерное латентное пространство. Здесь метод применили для RL задач, где сеть должна научиться управлять классической тележкой с шестом (которая cart-pole). Для управления использовалась двуслойная сетка с 58 параметрами. Напрямую Diffusion Evolution работает плохо, зато если перейти в латентное пространство с двумя параметрами, то всё хорошо. Я так понял, что преобразование выполняется через случайную матрицу проекции, и через него считаются только расстояния между решениями, а сами решения обновляются в исходном пространстве. Результат хороший, работает и с более крупными сетками (проверили также на трёхслойной сети с 17410 параметров).

В общем, зачёт. Заодно показали, что можно переносить работающие решения из других областей (как перенесли идею из латентных диффузионок). Это похоже на подход, активно используемый Tri Dao и Albert Gu в их SSM, когда сводят в один класс SSM и что-то известное типа линейного трансформера и переносят на SSM идеи, работающие на этом трансформере, как было в работе про Mamba-2 (/channel/gonzo_ML/2718), например.

Это всё очень прикольная движуха, показывающая, что обучение и эволюция по большому счёту делают одно и то же. А вспоминая работу про сравнение обучения нейросети через SGD с диффузионным процессом (Neural Network Diffusion, /channel/gonzo_ML/2394), то транзитивно можно, наверное, сказать, что и градиентные спуски -- это тоже эволюционные алгоритмы? Снова объединяются эволюция и обучение? И может в таком случае термодинамический компьютер (/channel/gonzo_ML/2313) -- универсальное железо для всего этого будущего AI? Есть над чем подумать.

Есть и открытые вопросы, например, очень большой вопрос про то, что диффузионки работают на конечном времени, а реальная эволюция потенциально бесконечна и open-ended. Как адаптировать Diffusion Evolution к open-ended сеттингу? Могут ли другие варианты диффузионных моделей привести к новым эволюционным алгоритмам? (почему нет?) Можно ли в эволюционные алгоритмы привнести inductive biases из диффузионок? Как латентные диффузионные модели соотносятся с нейтральными генами? Можно ли продвинуть диффузионки идеями из эволюции?

Короче, давайте активно кросс-опыляться!

Читать полностью…

gonzo-обзоры ML статей

08 November 2024 20:36

Напомним про обе штуки.

Диффузионные модели на пальцах. Прямой диффузионный процесс получает на вход картинку (вместо картинки может быть любой другой сигнал) и последовательно шаг за шагом добавляет в неё шум, пока она не превратится в совсем шумный сигнал. Прямой диффузионный процесс не очень интересен, интересен обратный -- он получает на вход шум и последовательно его убирает, “открывая” (создавая) скрывающуюся за ним картинку (как бы делая denoising). Прямой и обратный процессы могут называться соответственно diffusion и denoising. Примеры диффузионных моделей мы разбирали в лице DALLE 2 (/channel/gonzo_ML/919) и Imagen (/channel/gonzo_ML/980).

Эволюционные алгоритмы на пальцах. Представьте, что у нас есть какая-то сложная задача (например, найти оптимальную форму крыла самолёта), и мы создаём набор случайных решений -- как бы "популяцию" существ в природе. Каждое решение оцениваем по заданным критериям (насколько хорошо летает), лучшие решения "скрещиваем" между собой (берём части параметров от одного решения, части от другого), иногда случайно "мутируем" (слегка меняем некоторые параметры), и получаем новое "поколение" решений. Этот процесс повторяется много раз, и постепенно, как в естественном отборе, выживают и дают потомство всё более удачные варианты. В итоге мы получаем решение, которое может быть далеко не идеальным, но достаточно хорошим для практического применения. Обычно структура пространства параметров заранее неизвестна, поэтому часто начальная популяция стартует со стандартного нормального распределения. Главное преимущество такого подхода в том, что он не требует точного понимания, как устроена задача -- достаточно уметь оценивать качество решений. Среди популярных методов, например, есть CMA-ES и PEPG (этот, кстати, от Шмидхубера и ко, он тоже ими активно занимался https://people.idsia.ch/~juergen/evolution.html), но вообще там уйма всяких. Некоторые работают с дискретными наборами параметров, некоторые с непрерывными, здесь мы рассматриваем последние.

Как видно, и там, и там есть итеративное обновление данных и сэмплинг новых объектов из сложных распределений. Везде есть комбинация направленных обновлений и случайных пертурбаций. Это отбор+мутации в случае эволюции, случайный шум+обучаемый денойзинг в случае диффузии. Отсюда вопрос, связана ли механика этих двух процессов на фундаментальном уровне и есть ли глубокая математическая двойственность между биологической эволюцией и генеративным моделированием? Или это всё просто аналогия и суета сует?

Сначала авторы анализируют эволюцию с точки зрения генеративных моделей. Рассматривая популяции видов в биосфере, вариационный эволюционный процесс может быть осмыслен как трансформация распределений (transformation of distributions, dist2dist по аналогии с seq2seq?), распределений генотипов и фенотипов. Мутации и отбор совместно меняют формы этих распределений. Многие biologically inspired эволюционные алгоритмы могут быть поняты аналогично: они оптимизируют целевую функцию, поддерживая и итеративно изменяя распределение большой популяции. И это же, преобразование распределений, центральная тема многих генеративных моделей: VAE, GAN и диффузионки обучаются трансформировать простые распределения (часто стандартное Гауссово) в более сложные, где сэмплы представляют собой осмысленные картинки, звуки и тексты.

Читать полностью…

gonzo-обзоры ML статей

06 November 2024 01:11

Я правда не очень понимаю, а просто обучаемая температура не сработает? Она вроде немного параметров добавит, всего одна чиселка на софмтакс. Ну ок, если надо смотреть на входное распределение, то можно MLP поставить, будет больше параметров, но его можно шареным сделать на все софтмаксы. В общем вряд ли биг дил. Я уже много лет назад думал где-нибудь такое попробовать, и наверняка уже сто раз это всё попробовали, вот, сходу нашёл что-то на тему, например, https://arxiv.org/abs/2302.06130. И вообще это было бы логично, обсуждали похожий кейс давно тут /channel/gonzo_ML/364. Непонятно, зачем так сложно и полиномы четвёртой степени…

Anyway, проверили на той же самой max retrieval task, с адаптивной температурой (которая только в инференсе модифицируется) стало чуть и стат.значимо получше. Картинки с визуализацией внимания тоже стали чуть порезче на больших длинах. Но не радикально, я бы сказал.

Также проверили на Gemma 2B и бенчмарке CLRS-Text про algorithmic reasoning (https://arxiv.org/abs/2406.04229). Здесь всё посложнее, в данных много чисел с плавающей точкой, они разбиты на много токенов и фокусироваться на одном правильном здесь не очень полезно. Здесь можно было бы зафитить снова полином по той же процедуре, но для многоголовой джеммы это уже позапутаннее занятие, тут даже разобраться, что головы делают, сложнее. Поэтому здесь температуру берут и выучивают. Вуаля. На большинстве задач действительно лучше.

Мне в целом кажется, что работу такого вот класса если не o1, то o2 или новый вумный клод вполне мог бы уже и сделать, может не сам в одиночку, а в правильной мультиагентной архитектуре. Надо посмотреть, что там AI Scientist (https://arxiv.org/abs/2408.06292) генерил, насколько оно проще по сути, если проще.

В целом своим вкладом авторы больше считают не саму адаптивную температуру как таковую, а факт того, что надо смотреть на альтернативы софтмаксу и думать в свете предложенной теории. У ненормализованных вариантов внимания (включая линейные) сложнее получается ранжировать элементы. Жёсткое или локальное внимание тоже находится за пределами этой теории. Пока эти подходы не принесли крутых результатов в обычных трансформерах, но, возможно, мы просто не научились ещё их готовить. Может какие интересные гибриды подоспеют. Особенно авторы надеются на улучшение reasoning’а.

Такие дела.

Читать полностью…

gonzo-обзоры ML статей

05 November 2024 23:13

Удивительное рядом. Я только сегодня обнаружил, что популярный в прошлом проект DjVu (помните такой формат книг?) был разработан такими людьми как Leon Bottou, Yann LeCun, Patrick Haffner, Paul Howard, and Yoshua Bengio.

Пруф: https://djvu.sourceforge.net/credits.html

А вы знали?

Читать полностью…

gonzo-обзоры ML статей

05 November 2024 11:28

Системный Блокъ выложил подборку каналов про ML/AI с нами и соседями :)

Читать полностью…

gonzo-обзоры ML статей

11 December 2024 19:20

Шмидхубер всё не успокоится

https://people.idsia.ch/~juergen/physics-nobel-2024-plagiarism.html

Читать полностью…

gonzo-обзоры ML статей

09 December 2024 23:20

Что-то интересное.

https://blog.google/technology/research/google-willow-quantum-chip/

Today I’m delighted to announce Willow, our latest quantum chip. Willow has state-of-the-art performance across a number of metrics, enabling two major achievements.

* The first is that Willow can reduce errors exponentially as we scale up using more qubits. This cracks a key challenge in quantum error correction that the field has pursued for almost 30 years.

* Second, Willow performed a standard benchmark computation in under five minutes that would take one of today’s fastest supercomputers 10 septillion (that is, 10^25) years — a number that vastly exceeds the age of the Universe.

Читать полностью…

gonzo-обзоры ML статей

08 December 2024 14:27

Про проверку на RULER benchmark на входах от 16K до 128K токенов и размере блока в ¼ от длины последовательности написано, что точность проседает несильно, от 0 до 3%, а скорость возрастает до 5 раз (а на 70B модели и того больше). По таблице, правда, видно чуть другое -- на 7B модели ускорение до 2.7x, а точность _вырастает_. Не очень, кстати, понимаю, почему точность выше, вроде как с неаппроксимированным бейзлайном сравниваемся? Знаю я, конечно, истории, когда аппроксимация неожиданно оказывается лучше оригинала, потому что баги в оригинале (Ash недавно делился историей про https://github.com/ashvardanian/affine-gaps). Но как-то странно всё равно (spoiler, но дальше станет понятнее). На 70B модели точность падает, но ускорение выше, до 4.7x. На BABILong тоже всё сравнимо по качеству.

На длине 128K посмотрели на трейдоффы между размером блока и точностью. Логично, что с увеличением размера блока (когда один хост видит больше), качество выше.

Дальше оставили блок на 32K и увеличили размер входа до 1024K для 8B ламы. Просадка в качестве до 8%+, зато ускорение почти до 17x. На 70B ламе сделали блок 16K для входа 128K -- здесь качество -11.5%, скорость +8.7x.

Мне кажется, это довольно заметные просадки в качестве. Интересно сравнить это с принципиально другой альтернативой -- квантизацией. Какое там получается ускорение/ухудшение и если сопоставимое, то у квантизации есть выигрыш по другому измерению, на которое Nvidia по понятным причинам не очень смотрит, по задействованному железу и его цене. Но в любом случае, возможность шардить вычисления -- это хорошо, тем более что это всё ортогональные истории и когда оно сложится с обучением в низкой разрядности (а там вроде что-то идёт https://arxiv.org/abs/2307.00331), будет особенно интересно посмотреть на новые масштабы моделей. Забавно ещё, что Intel там как-то всё подёргивается (https://github.com/intel/intel-extension-for-transformers, но это не про обучение), но честно говоря не понимаю, ожидать ли от них вообще хоть чего-то.

В разрезе разных типов задач на RULER, качество работы Star attention разное. Single Needle-in-a-Haystack (NIAH) практически идентичен полному вниманию. Multi-NIAH и QA проседают заметнее. Multi-Hop Tracing ещё сильнее, он требует распространения информации и эффективной коммуникации, которой тут нет, так что это логично. Aggregation неожиданно заметно вырастает по качеству, и здесь оно видимо происходит от более качественной суммаризации внутри отдельных блоков на первой фазе алгоритма. В полном внимании, видимо, модель больше дистрактится на глобальный контекст и суммаризация по всему документу страдает из-за этого.

Поделали сколько-то абляций на NIAH: Single-NIAH, Multi-key NIAH, Multi-query NIAH.

Проверили две прикольные гипотезы про anchor блоки:
1) Модель выработала bias к абсолютной позиции блока
2) Семантическое содержимое этого блока важно для качества.

По 1) поварьировали позиции блока сохраняя его контент. Это всё мало влияет.
По 2) поварьировали контент блока (забивая его определёнными токенами, рандомом или делая шаффл). Очень влияет. Хуже всего константные токены, с ними ещё хуже, чем без блока вообще. Оригинальный контент лучше всего. Отдельным экспериментом проверили, а что если в качестве anchor block брать предыдущий? Всё равно похуже оригинального получается, но лучше остальных опций. В общем дело не в позиции, дело в содержимом. При росте размера этого блока качество тоже растёт.

Это, конечно, интересная история, что там такого в этих блоках в разных задачах, что оно настолько важно. Были же, наверняка, уже работы, оценивающие неравномерную значимость контента в разных позициях реальных датасетов, особенно на большом контексте? Поделитесь, если знаете хорошие примеры. Попахивает определённым inductive bias самих “реальных для нас” задач, что в целом логично.

В общем, интересно. Разделяй и властвуй, короче. Map & Reduce форева. И вообще работа даёт подумать над многим разным.

Читать полностью…

gonzo-обзоры ML статей

07 December 2024 17:00

Интересная картинка (https://arxiv.org/abs/2402.08797)

Читать полностью…

gonzo-обзоры ML статей

01 December 2024 17:43

16. Эволюция человеческой личности. Бессмертие человеческой личности не означает ее застывшей неизменности. Это может быть понято по аналогии с организацией на уровне макромолекул. Контролеры биологической эволюции — это гены, и они бессмертны. Однако они не остаются неизменными, а непрерывно изменяются вследствие мутаций, так что хромосомы человека, например, весьма и весьма отличаются от примитивных хромосом вирусов. Кибернетически бессмертные личности могут меняться и развиваться во взаимодействии с другими личностями сверхсущества, а также при взаимодействии между сверхсуществами, ибо плюрализм необходим для эволюции, и человечество, надо надеяться, будет пробовать различные виды интеграции, создавая различные сверхсущества. Те человеческие личности, которые возникнут в результате всех этих процессов, будут, вероятно, отличаться от нас так, как наши хромосомы отличаются от вирусов. Но определяющий принцип личности останется, по-видимому, неизменным, как остался неизменным принцип работы генов.

17. Как может происходить интеграция. Следует ли ожидать, что все человечество объединится в единое сверхсущество? С эволюционной точки зрения это и нежелательно, и маловероятно. Жизнь можно сравнить с пирамидой: вершина поднимается ввысь и одновременно расширяется основание. Хотя человечество и осуществляет контроль над биосферой, наши тела составляют лишь небольшую часть от всей биомассы. Основную ее часть все еще составляют примитивные организмы, такие, как мы находим в планктоне. Осуществление кибернетического бессмертия потребует, несомненно, чем-то пожертвовать; для начала, надо будет решительно сосредоточить усилия на дальнейшем развитии науки. Совсем не очевидно, что большинство людей в большинстве сообществ захотят поставить перед собой такую цель. Воля к бессмертию, как и всякая человеческая черта, широко варьируется от человека к человеку. Поскольку интеграция может быть лишь добровольной, надо ожидать, что только часть, вероятно небольшая, человечества образует сверхсущества, большинство же останется в состоянии “человеческого планктона”.

18. Интеграция на Космической сцене. Однако именно интегрированному человечеству суждено освоить Космическое пространство. Неинтегрированная часть не может конкурировать с нею; она может лишь поставлять материал для сверхсуществ. Без интеграции человечество не может претендовать на какую-либо серьезную роль в Космосе. Системные единицы, которые принимают решения, должны получать вознаграждение за свои решения; иначе они никогда не примут их. Попробуйте представить себе картину “человеческого планктона”, набитого в ракеты, чтобы достичь отдаленной звезды через десять или двадцать поколений. Играть роль в Космосе могут лишь существа, продолжительность жизни которых исчисляется Космическими же временами.

Читать полностью…

gonzo-обзоры ML статей

01 December 2024 17:43

7. Социальная интеграция. Возникновение человеческого разума тесно связано со следующим, в настоящее время протекающим метасистемным переходом, а именно: интеграцией человеческих существ в человеческое общество. Человеческое общество качественно отличается от сообществ животных благодаря способности людей создавать и развивать (а не только использовать для передачи сообщений) язык. Язык выполняет две функции: обмен информацией между индивидуумами и создание моделей действительности. Эти две функции на уровне социальной интеграции аналогичны функциям нервной системы на уровне интеграции клеток в многоклеточный организм. В материале языка люди создают новые символьные модели действительности (в частности, научные теории), которых не было создано природой на уровне нашей нервной системы. Язык — это как бы продолжение человеческого мозга. Более того, это единое продолжение мозга всех членов общества. Это коллективная модель действительности, которая совершенствуется всеми членами общества и передается от поколения к поколению. Давно отмечено, что человеческое общество можно рассматривать как единый организм. Тело этого организма есть совокупность всех людей и ими сделанных вещей. Его “физиология” — это культура общества и, прежде всего, язык.

8. Эра разума. Возникновение человеческого общества знаменует начало новой эры Универсальной Эволюции. Если раньше единственным механизмом эволюции был естественный отбор на базе мутаций генофонда, то теперь мы видим несравненно более быстрый процесс: эволюцию культуры человеческого общества. Вариация и селекция по методу проб и ошибок происходят теперь как результат сознательной воли человека. Двигателем эволюции мироздания становится творческая человеческая личность. Эволюция культуры, прогресс науки и техники перехватывают инициативу у биологической эволюции.

9. Глобальная интеграция. Пытаясь заглянуть в будущее, мы предсказываем, что социальная интеграция будет продолжаться в двух направлениях, которые можно назвать шириной и глубиной. С одной стороны, интеграция мировых культур приведет к образованию единого мирового сообщества и мирового правительства с ответственностью за экологию Земного шара. Этика кибернетического мировоззрения требует, чтобы каждый из нас заботился о сохранении вида и экосистемы и о максимизации потенциала для следующих шагов эволюции и интеграции.

10. Человеческие сверхсущества. С другой стороны, мы предвидим продолжение интеграции “в глубину”, а именно: физическую интеграцию индивидуальных нервных систем с созданием потенциально бессмертных человеческих сверхсуществ. Опираясь на известный эволюционно-биологический принцип: онтогенез повторяет филогенез, мы можем предположить, что человеческие индивидуумы будут рождаться и жить в молодом и зрелом возрасте подобно тому, как они живут сейчас, а затем принимать или отвергать интеграцию в сверхсущество. Таким образом, физическая интеграция индивидуумов приходит не на смену индивидуальной жизни, как мы ее знаем сейчас, а в дополнение к ней.

Читать полностью…

gonzo-обзоры ML статей

28 November 2024 20:38

The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight

Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.

Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.

Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).

Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.

Напомню, что MLP блок в Ламе выглядит так:

out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )

SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.

Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.

По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.

Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.

Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.

Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (/channel/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.

Читать полностью…

gonzo-обзоры ML статей

25 November 2024 17:39

О, Andrew Ng анонсировал библиотеку с универсальными коннекторами к LLM

Announcing new open-source Python package: aisuite!

This makes it easy for developers to use large language models from multiple providers. When building applications I found it a hassle to integrate with multiple providers. Aisuite lets you pick a "provider:model" just by changing one string, like openai:gpt-4o, anthropic:claude-3-5-sonnet-20241022, ollama:llama3.1:8b, etc.

pip install aisuite

Open-source code with instructions: https://github.com/andrewyng/aisuite

Thanks to Rohit Prsad, Kevin Solorio, Ryan Prinz, Jeff Tang and John Santerre PhD for helping build this!

Читать полностью…

gonzo-обзоры ML статей

16 November 2024 22:27

Вот вам зыкое субботнее.

Пока тут идут разговоры про возможную нехватку энергии для датацентров и AI и необходимость строить ядерные реакторы, некоторые смотрят глобальнее! Например, предлагают, как выйти за лимиты шкалы Кардашёва:

"Civilizations like this that consume stars, which we call 'stellivores,' would be able to expand in energy use beyond the luminosity limits of the Kardashev scale," said Haqq-Misra. "We are not at this level as a civilization on Earth yet, but we can at least think about the possibility that harvesting mass and converting it into energy (as Einstein's famous equation describes) provides a way for a civilization to reach energy use scales beyond those envisioned by the Kardashev scale."

Популярно:
New study examines how extraterrestrial civilizations could become 'stellivores'
Arxiv:
Projections of Earth's Technosphere: Luminosity and Mass as Limits to Growth

Так что AI будет чем заняться. Может где-то уже и занимается. Вон, в 1952-м спёрли три звезды и так и не вернули...

Популярно:
In 1952, a group of three 'stars' vanished—astronomers still can't find them
Arxiv:
A bright triple transient that vanished within 50 minutes

Blue Marble Space Institute of Science вообще отжигает. Вот вам ещё забористое:

Projections of Earth's technosphere. I. Scenario modeling, worldbuilding, and overview of remotely detectable technosignatures
Jacob Haqq-Misra, George Profitiliotis, Ravi Kopparapu
https://arxiv.org/abs/2409.00067

Читать полностью…

gonzo-обзоры ML статей

11 November 2024 23:03

Кажется, назревает опенсорсная 1.4T модель.

Причём с crowdsourced обучением и токенизацией.

https://cointelegraph.com/news/near-plans-to-create-world-s-largest-1-4-t-parameter-open-source-ai-model

Читать полностью…

gonzo-обзоры ML статей

08 November 2024 20:36

С другой стороны и диффузия может быть рассмотрена с точки зрения эволюции. Во время обучения точки данных зашумляются и модель учится предсказывать этот добавленный шум для того, чтобы обратить процесс вспять (кстати, над диффузионной машиной времени никто пока не работает?). В фазе сэмплинга модель стартует с точек из Гауссова распределения и инкрементально их обновляет через денойзинг, где сэмплы без шума являются идеалом. В этом случае направленный денойзинг может быть интерпретирован как направленный отбор, и каждый шаг добавляет небольшой шум (со знаком минус?) по аналогии с мутациями. Это всё напоминает эволюционный процесс и алайнится с идеями, интерпретирующими геном как параметризацию в латентном пространстве мультимасштабного генеративного морфогенетического процесса, а не просто чертежа организма. Если эволюционный процесс обратить, то эволюционировавшая популяция высококоррелированных и высокоприспособленных индивидов будет постепенно растворяться, аналогично прямому (forward) диффузионному процессу.

По аналогии с энергией и вероятностью в статфизике, эволюционные задачи можно связать с генеративными через отображение фитнеса в плотность вероятности: высокий фитнес соответствует высокой плотности вероятности. Авторы в итоге математически выводят новый алгоритм под названием Diffusion Evolution -- эволюционную оптимизационную процедуру, основанную на итеративной коррекции ошибок по аналогии с диффузионными моделями, но не полагающуюся на нейросети.

Вот его ключевые особенности:
1. Начинаем с популяции случайных решений (как с шума в диффузионных моделях)
2. На каждом шаге:
* Каждое решение оценивается фитнес-функцией
* Для каждого решения оценивается его "очищенная от шума" версия путем взвешенного усреднения с соседними решениями (больший вес у более успешных соседей)
* Решение делает небольшой шаг в сторону своей "очищенной версии" и получает небольшую случайную мутацию
3. По мере продвижения:
* Радиус поиска соседей постепенно уменьшается (как уменьшение шума в диффузионных моделях)
* Это позволяет сначала исследовать пространство решений глобально, а затем локально оптимизироваться

Ключевое преимущество алгоритма в том, что он может находить и поддерживать множество различных хороших решений одновременно, в отличие от многих классических эволюционных алгоритмов, которые обычно сходятся к одному решению.

С новым алгоритмом провели несколько экспериментов.

В первом эксперименте использовались пять разных двумерных ландшафтов приспособленности: Rosenbrock и Beale с одним оптимумом, и Himmelblau, Ackley, и Rastrigin со множественными. Сравнивались с другими эволюционными стратегиями: CMA-ES, OpenES и PEPG.

Эволюцию запускали 100 раз для каждого метода. В каждом эксперименте была популяция размером 512 и делалось 25 итераций (кроме OpenES, где понадобилась 1000 шагов до сходимости). Diffusion Evolution находит качественные и разнообразные решения, особенно на последних трёх ландшафтах, где остальным методам сложно и они скатываются к одному решению.

В эволюционных алгоритмах оценка фитнеса часто самая тяжелая операция, поэтому авторы попробовали уменьшить число итераций, позаимствовав cosine scheduling из работ про диффузионки. Это сильно уменьшило количество оцениваний приспособленности.

Читать полностью…

gonzo-обзоры ML статей

08 November 2024 20:36

Diffusion Models are Evolutionary Algorithms
Yanbo Zhang, Benedikt Hartl, Hananel Hazan, Michael Levin
Статья: https://arxiv.org/abs/2410.02543
Код: https://github.com/Zhangyanbo/diffusion-evolution

Анатолий Левенчук жалуется, что AI-блогеры опопсели (https://ailev.livejournal.com/1741494.html). Да, что-то в этом есть, мы опопсели. Мне тоже это не очень нравится, но про LLM и анонсы продуктов писать, конечно, проще, чем про фундаментальное. LLM нас всех совратили. Ну и кстати не только нас, многие рисёчеры (не буду показывать пальцем), что раньше выдавали классные статьи про новые архитектуры и разные другие прорывные вещи в ML, теперь клепают статьи про LLM. Один Лекун, молодец, держится. Ну ладно, не один, конечно, но всё равно молодец (хоть я и не согласен с некоторой его аргументацией). Давайте вернёмся к хардкору. Тем более, что он есть!

Интересное заявление от Майкла Левина (писали про него, например, тут /channel/gonzo_ML/1042) и ко: диффузионные модели -- это эволюционные алгоритмы. Как так?

В биосфере по крайней мере два процесса способны к генерализации и созданию новизны: эволюция (медленный процесс адаптации к среде в течение поколений организмов через естественный отбор) и обучение (быстрый процесс, позволяющий индивидам приобретать знание и генерализовать субъективный опыт в течение жизни). В последнее время стало особенно много работ про связь эволюции и обучения, от старого доброго Хинтона с “How Learning Can Guide Evolution” (1987) (https://content.wolfram.com/sites/13/2018/02/01-3-6.pdf) до Ванчурина, Вольфа, Кацнельсона, Кунина с “Toward a theory of evolution as multilevel learning” (2022) (https://www.pnas.org/doi/10.1073/pnas.2120037119) и Уотсона (не того) и Левина (того) с “The collective intelligence of evolution and development” (2023) (https://journals.sagepub.com/doi/10.1177/26339137231168355). Текущая работа утверждает, что конкретный класс диффузионных моделей, где генеративная модель занимается последовательным стохастическим денойзингом, может быть понят через эволюционный процесс, выполняющий естественный отбор, мутации и репродуктивную изоляцию.

Читать полностью…

gonzo-обзоры ML статей

06 November 2024 01:11

softmax is not enough (for sharp out-of-distribution)
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu
Статья: https://arxiv.org/abs/2410.01104

Вернёмся к тёплым ламповым обзорам, до которых NotebookLM пока не дотягивает. Сегодня любопытная работа про глубокие внутренности.

Как известно, в дефолтном механизме внимания внутри трансформера используется softmax, через который считаются итоговые веса внимания. Софтмакс переводит вектор логитов с произвольными значениями в вероятностное распределение, где всё суммируется в единицу. Также в софтмаксе может использоваться температура для модификации этого распределения (хорошая визуализация температуры тут https://lukesalamone.github.io/posts/what-is-temperature/).

Софтмакс используется много где, часто на выходах классификаторов, сейчас часто и внутри трансформера. Некоторые исследования связывают его успех с возможностью моделирования схем, в смысле circuits (https://distill.pub/2020/circuits/zoom-in/), внутри трансформера, что полезно для интерпретируемости.

В текущей работе авторы смотрят на режим out-of-distribution, когда обученной модели приходится работать на данных с распределением, отличающимся от встречавшегося в обучении, что особенно важно для reasoning engines. И здесь с софтмаксом проблема.

Возьмём модельный кейс, простую архитектуру с одной головой внимания. Задача -- предсказание элемента с максимальным значением в наборе (max retrieval task). Фичи элемента обрабатываются MLP перед тем, как поступить в блок внимания, а после внимания отправляются в выходной MLP, который делает финальное предсказание. Обучают на множествах размером не более 16 элементов. На инференсе проверяют на размерах сильно больших, до 2^11. Визуализация весов внимания показывает, что всё хорошо на размерах сравнимых с обучением, но дальше картинка портится -- распределение из резкого быстро размывается в сторону равномерного. Эксперимент на обученной Gemma 2B воспроизводит ситуацию, с ростом входа растёт энтропия (как прокси для sharpness) голов. В подтверждение доказывают лемму и теорему о том, что с ростом количества входных элементов и с фиксированным размером входного словаря софтмакс и должен размываться.

Чтобы ~~make softmax great again~~ исправить ситуацию и сделать софтмакс снова резким предлагают использовать адаптивную температуру. Помните, чем ниже температура, тем ближе софтмакс к hard attention, максимально резкому распределению. Но с нулевой температурой трансформеры так себе работают. Применение нулевой температуры к уже обученному трансформеру тоже так себе. Трансформерная голова, которая выучила получать резкое распределение, делает это увеличивая магнитуду весов. А большие магнитуды способствуют оверфиттингу и увеличению вероятности выбрать неправильный токен. Установка температуры в ноль здесь понизит точность.

Мы можем захотеть скорее сделать входные коэффициенты более резкими, и здесь авторы предлагают адаптивную температуру, которая зависит от энтропии входных коэффициентов. Понижение температуры будет монотонно понижать и энтропию.

Чтобы собрать функцию для адаптивной температуры, сначала сгенерили датасет входов, для которых максимальный элемент не получает самую большую вероятность. Нашли при каком значении температуры она при этом максимизируется, и вписали полином четвёртой степени для определения температуры по энтропии. Полученную функцию температуры используют во время инференса. Полученная функция используется как drop-in замена обычного jax.nn.softmax().

Читать полностью…

gonzo-обзоры ML статей

05 November 2024 11:28

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Читать полностью…

gonzo-обзоры ML статей

05 November 2024 01:25

Проверил в Гугле, действительно предлагает. Видимо спрос есть!

Читать полностью…