Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai (реклама и консультации) Habr @Andriljo Kaggle: Andrilko
Волшебник из страны О3.
12ый день показа решений от OpenAI завершился подарком под елочку: демо модели О3. На примере задачи соревнований ARC, где моделька выбила соту с огромным отрывом. До кучи еще всякие math метрики достигнуты уровня крутышей в решении задачек (опять же со слов авторов). Там же и лайвбенч для кодеров тоже побит.
Про "кодеры всё". Уже куча знакомых пришли узнать,что будет дальше. Мой ИМО, что действительно появление копайлотов и LLM уровня О3 (и круче, тк это будет улучшаться и далее) дадут буст производительности/эффективности в задачах. И вместо условных 100 землекопов, будут нанимать 25 со скиллом использования LMок или вовсе без него, в случае работы с копайлот ide.
Я все еще напоминаю свои старые пойнты:
1. Разработка foundation models станет уделом крупных мировых бигтехов.
2. Как следствие решения сместятся в область сервисов-оберток вокруг, со своими клевыми фичами и хорошим юзер-опытом аля Perplexity и Cohere и тп.
3. Также призываю задуматься, опираясь на п. 2 о разработке агентов (даже учитывая что под капотом OpenAI они уже есть), а также не забываем про RAG системы.
Успехов.
Тайны Марлизонского двора, разборки с дата-канальями от CDS Д'артаньяна одной из компаний нашего рынка. Канал моего старого друга о хаках в нашей индустрии, неприкрытые фейлы и интересные заметки про разные ML кейсы.
Заходите, читайте.👇
ModernBERT. Новый, модный,классный, твой.💃😊
Тут челики дали новую жизнь архитектуре BERT. Модель обогнала всех своих собратьев из энкодер семейства: DeBERTa,AlBERT и RoBERTa, и да GTE не в счет тк спецом обучена контрастивно.
Сделали все это за счёт много чего:
1. Оптимизации внимания,делают каждые 3 слоя глобал внимание, остальное sliding window attention (swa это как в лонгформерах).
2. Такое внимание помножено на RoPE позиционные эмбы.
3. Присыпано такое все 8к контекстом, а не 512 токенов.
4. Убрали смещения из нормализации и линейных слоев. Сдедали при нормализацию.
5. Добавили GeGLU активации.
6. Токенизация из OLMo модели, а не BPE. Но cls/sep токены оставили.
7. Сделали больше глубины: 22 и 28 слоев, для base и large версий соответственно.
Обучение на 2Т токенов: 1.7Т с контекстом 1024 далее 300B с 8к. Убрали NSP задачу ("предсказание" следующего предложения), оставив MLM как в RoBERTa. Для оптимизации инфера и обучения добавили torch.compile улучшений и flash attention3, убрали паддинги, сделав раздельную обработку внимания на сиквенс без pad.
Крч накрутили всего современного и круто работающего. Если бы у них не получилось, я бы даже удивился.
Глядеть модельки тут.
https://postnauka.org/video/51371 если уж про эмбеддеры говорить, то куда уж без экскурса в историю.
Читать полностью…Рад, что удалось приложить руку к проекту GigaEmbs. Замеры на ruMTEB ребята обещали докатить,по их замерам скор 67.9👇
UPD. Если есть вопросы по архитектуре, датке и тп пишите в комментариях.
Фи какая... Вышла новая малая моделька phi-4 (14B) от Microsoft 😜
Много споров вокруг small-lm от майкрософт семейства phi. Одни считают,что они fit on the test. Другие, уповают на качественный тюн и дистилляцию. В любом случае, метрики интересные.
По замерам самих майкров моделька не уступает бОльшим собратьям.🤙 И даже семейства gpt4-O. Замеры представлены выше на примере math-problem.📈
Уже баян, но как же смешно...
Upd. Особенно, когда по 200 баксов.
День полон новостей. На RuMTEB новый лидер от коллег из КНР.
KALM моделька, пока без репорта, но всего 500M параметров и бьет е5-mistral. Ждем репорт,чтобы актуализировать обзор.
Единственное,что стало меня как одного из оуенров напрягать на MTEB,что раздел классификация имеет бОльший вес и этим пользуются оуенеры моделек. Досыпают тренирвочные сеты ruMTEB по классификации в обучении и имеют сильный ап по лб за этот счет. Первыми это хакнули ребята из nvidia с их nv-embed.
KaLM видимо не стал исключением 😁, своих конкурентов он обогнал именно так +4 пункта в классификации. 📈
В остальных задачах почти нет победы, только в кластеризации +0.5 пункта и STS +1 пункт.
Хорошо поговорили с Виктором Кантором и командой ТехТок про Deep learning, NLP, и конечно GenAI. 🦾🤖🕺
Спасибо за приглашение 👇
Следите за новостями;)
Откроем новую неделю с мемного поста. Картинка от друже @Erlemar.
Вывод. Не стрессуй. Действуй.
Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney. Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.
На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.). Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане". После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.
Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.
Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.
Как гиперрост вызывает войны внутри компании
Картинки выглядит угрожающе, но на самом деле она лишь иллюстрирует, кто из первоначальной команды Open AI остался работать в компании. И добрые люди с Reddit сделали ее после внезапного заявления об уходе из компании главного технического директора Миры Мурати. Ее нет на картинке с первоначальной командой, она присоединилась к стартапу в 2018 году.
И говоря о проблема гиперроста, пример Open AI как нельзя лучше подходит в качестве иллюстрации. Именно головокружительный успех их продукта Chat GPT породил многочисленные проблемы, которые мы наблюдали весь прошлый год. После увольнения и возвращения Сэма Альтмана, казалось, что компания уладила внутренние противоречия и готова продолжать завоевывать рынок. Который, справедливости ради, не стоит на месте и выпускает все новых и новых конкурентов.
Компания рассматривает возможность перехода от некоммерческой организации с ограниченной прибылью к новой структуре, в которой инвесторы получат большую долю прибыли. При этом OpenAI обсуждает возможность передачи мистеру Альтману 7% акций в рамках усилий по реструктуризации в коммерческую компанию.
Однако, несмотря на то, что эксперты ожидают, что инвесторы в следующем раунде финансирования оценят компанию в 150 млрд долларов, неспособность Альтмана удержать топ-менеджеров также может стать для них тревожным сигналом. Один давний наблюдатель из Кремниевой долины говорит, что ощущение переворота похоже на то, что было в Uber в те дни, когда ее возглавлял Трэвис Каланик. «Феноменальный продукт, прогнившая культура», — так он описал ситуацию.
Как думаете, какие ошибки были допущены в период гиперроста? Мы видим, как минимум, несовпадение в ценностях компании.
Говорят, что выходит GPT-4o1 pro super star plus mode (вспомнил нейминг китайских авто). Но есть один нюанс. Цена 200$, Карл!!!
Читать полностью…Видел в одном канале канальи-манагера пафосные рассуждения, что любого сотрудника можно оценить по масштабу последствий от ошибочно принятого этим сотрудником решения. Как обычно отвечу кейсом.
Так сложилось, что я работал в структурах где цена ошибки высока, и соотношение контролирующих и проверяющих к непосредственно делающим сильно больше двух.
Однажды нас с коллегой вызывают в переговорку – там сидят эдакий проверяющий эксперт и его начальник.
Нам вменяют ущерб в 2 трлн рублей недополученный банком прибыли. На серьезных щах и эмоционально. 🤬
В итоге кейс по существу свелся к тому что у нас распределения поехали (по мнению этого сверхразума), а сравнивал он по средним (!).
В ответ коллега набросал нехитрый скриптец вроде тех что ниже
Начальник извинился и агрессивного дурачка уволили 🙌
Но мораль истории не в том как сравнивать распределения (я думаю, вы в курсе давно).
Не стоит переоценивать влияние стечения обстоятельств и приписывать только себе как заслуги так и провалы.
PS: кстати, с тестами Колмогорова-Смирнова или PSI тоже стоит обращаться внимательно, прикладываю ссылку на исследование стат свойств PSI https://scholarworks.wmich.edu/cgi/viewcontent.cgi?article=4249&context=dissertations
Данные, эволюция и роботы.
Недавно Илья Суцкевер выступил со своим видением настоящего и будущего обучения моделей AI.
1. Приятно,что вспомнили про то,что Москва датка не резиновая(а Дядя писал об этом аж в мае 2023). Даже интернет конечен, а синтой сыт не будешь. Это дает новые вызовы L0 этапам предобучения и возможно более не будет новых претрейнов. Да можно иметь вариации архитектуры, токенизации и пр.
В остальном мы будем различны только в своих данных, полученных или синтетически или проприетарных. Однако даже синта будет получена с помощью моделек имеющих общие претрейн сеты.
2. Агенты, агенты, агенты. Илья утверждает,что в скором будущем они будут везде. А также, в отличии от текущего "шаблонного" мышления моделей ИИ, они действительно будут хорошо рассуждать. Пока, по словам Суцкевера, модели в бОльшей степени опираются на шаблоны задач решение которых они видели в предобучении или тюне. Вместе с тем,чем лучше модели смогут рассуждать самостоятельно,тем менее предсказуемы они станут для нас. В пример приводятся стратегии которые находит ИИ играя в шахматы или Го против чемпионов-людей. Да, это все еще, может быть, местами метод грубой силы, а не четких рассуждений (быстрый поиск стратегий в глубину и ширину), но это уже будоражит. При этом, четких рецептов, как это произойдет, Илья не дал.
3. Эволюция и эволюционное развитие. Также, были затронуты темы эволюции интеллекта у животных в тч в сравнении с предками человека. Была представлена взаимосвязь массы тела и мозга для особей разных биологических видов. Утверждается,что именно в этом может лежать секрет масштабирования систем ИИ. Подобно тому,как у гоминидов (предки людей) зависимость массы тела и мозга отличны от других млекопитающих в логарифмической шкале.
Но Дядя бы еще затронул один момент с эволюционным развитием. А именно, применение и к агентным системам и к улучшению архитектур методов из природы. Вспомним генетический алгоритм. Он уже стал давно рабочей лошадкой в задачах дискретной оптимизации. Также, его сейчас стали применять для создания улучшенных архитектур моделей. Например, делаю над весами моделей и их структурой мутацию и скрещивание - порождают новые модели, потенциально улучшенные к функции цели. Выше я привел кейс команды sakana.ai, по генетическому/эволюционному мерджингу моделей. Но подобным образом мы можем менять не только архитектуру и веса модели,но и переписывать код. Представьте себе ИИ, который сам "рассуждает", как говорил Илья, и эволюционно может мутировать свои веса и программное обеспечение в месте с кодовой базой для улучшения своих способностей к обучению и инференсу.
А причем тут агенты? Сами методы инспирированные природой являются роевыми, т.е. в т.ч. легко ложатся на систему агентов. Алгоритмы колоний пчел,муравьев,рыб и т.п. уже давно используются для навигации и управления группой роботов. Но ранее эти алгоритмы прописывались вручную, с умением ИИ моделей рассуждать, они сами могут придумывать алгоритмы коллективного рассуждения и поведения,чтобы действовать эффективно сообща.
Вот где Саре Коннор становится страшно.
На этом воскресные мысли Дяди всё. В интересное время живем.
Второй важный нюанс, который не был затронут в публикации и о котором не упомянул ни один блогер на которого я подписан, это модель Giga Embeddings, которая вышла синхронно с LLM'ками.
Если кратко то это эмбеддинговая модель которая позволяет из инструкций извлекать эмбеддинги. Использует класс GigarEmbedModel, там как я понял взят только энкодер из GigaChat (мне в чатике подсказали, что это не совсем так), то есть на вход принимается последовательность токенов созданная токенизатором, а на выходе эмбеддинг, но похоже из-за того что это кастомный эмбеддер сделать из неё GGUF тоже скорее всего не получится (тут тоже казалось, что эта модель очень похожа на nv embed, которая в llama.cpp поддерживается).
Как я понял из карточки модели, надо использовать именно инструкции, так эмбеддинг будет точнее. Полагаю это можно будет задействовать в моём проекте роутера, попробую в общем её тоже.
Кому интересно, как такое может быть, за исключением "fit on the test".
Читаем тут про дистилляцию знаний и рассуждений. И тут про Orca , и тоже, как модели ученики учатся на рассуждениях учителя.
А я напоминаю,что топ-1 эмбеддер на ruMTEB все еще китайский KALM (score 68.26)
Читать полностью…МТС ИИ катанул тоже топ. ПОШЛА ЖАРА.
Видимо, к AIJ Сбера, МТС и ТБанк хотят драйвануть конкурентов.
Возвращаясь снова к вопросу демократизации и инволюции архитектур моделей.
/channel/zheltyi_ai/408
Что же за таинственные 7б и 32б, не qwen ли like?🤔
Ах да. Там ж так и написано.
Подкаст про технологии ИИ
Многие из вас в курсе, что я в этом году публикую второй сезон подкаста ТехТок, и этот сезон посвящен технологиям искусственного интеллекта. Цель - рассказать про важные для современного мира технологии на более широкую аудиторию, чем те, кто уже работает в AI. До сих пор подкаст был доступен только на YouTube, а теперь появился канал и на VK Видео, чтобы вы могли скинуть подкаст вашим родственникам и друзьям не из IT :)
VKвидео: kantortechtalk" rel="nofollow">https://vkvideo.ru/@kantortechtalk
YouTube: www.youtube.com/@KantorTechTalk
‼️Обязательно подписывайтесь и следите за новыми выпусками! В этом сезоне их будет еще шесть.
🎬Также вышел тизер подкаста с нашим следующим гостем, которого я уже несколько раз упоминал в канале за последнее время - с Александром Абрамовым :) Тема выпуска: большие языковые модели
Ну, что вы так напряглись, ну не справился дядя, ща будет мем. Закроем день с улыбкой.
Читать полностью…Вот пример специфичного запроса от подписчиков.
Для русского языка слово "отечество" специфично и поэтому генерация релевантна.
Но родное подвело... Да...
Запросы: История отечества и родная история.
Есть ли отечественные генеративные нейросети на самом деле?
В соцсетях сейчас вирусится видео, прикрепленное к посту: молодой человек рассказывает о том, как отечественные нейросети выдают крайне подозрительный результат по запросу нарисовать «родное».
Первое, что думают люди, видя такое, это что отечественных нейросетей на самом деле нет и они просто перенаправляют запросы в апишку Midjourney и им подобных зарубежных оригиналов.
Те, кто более прошарен, думают, что наши компании просто берут зарубежный опенсорс, разворачивают у себя, а русские запросы обрабатывают после перевода на английский.
А кто еще более прошарен, знает, что опенсорс в целом поддерживает и русский язык. Остается вопрос: так как же все-таки работают отечественные нейросети?
Зачем гадать, если можно спросить эксперта в области технологий AI, который сам имеет отношение к теме генеративного ИИ — Александра Абрамова. См. ответ у него в канале или репост ниже 👇
Поддержу канал нашей исследовательницы. Мысли интересные, вопросы тоже. Контент картиночный)👇
Upd. Оригинал отсюда
Cohere 3.5 с обновой Reranker.
Конкуренты антропика в домене RAG не дремлют. Cohere 3.5 новый базированный пайп e2e RAG. Тут всё, как мы любим: и преранк на эмбедах и реранк на кросс-энкодере. При этом ребята обновили механизм внимания для улучшения работы с контекстом намерений пользователя. Как утверждают авторы — цель закрыть эксплицитную и имплицитную часть запросов кожАнных. Помимо этого, добавлены новые сеты для 100+ языков по различным доменным запросам (наука,финансы и тп.). Все это дало значимый бОльший прирост к метрикам поиска. Также,напоминаю,что у ребят есть и мультимодальный эмбеддер.
Cohere прекрасный пример того,как можно зарабатывать на сервисе вокруг <your favourite LLM>. Помним,еще подобное и у perplexity.
Радуемся, следим, юзаем.
Создавай игры с GenAI и LLM.
Дядечка Ын продолжает радовать образовательным контентом. Курс про создание игр с ИИ.
Длительность курса 1 час. Можно использовать, кстати, как старт для вката в игровых агентов.