Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸Релиз Llama 3.1🌸
TL;DR Новая модель 405B, обновление моделей 7B, 13B, 70B версиями 3.1 с более высокими метриками на MMLU, коде, математике, длинном контексте, мультиязычных бенчмарках и бенчмарках по использованию API.
https://llama.meta.com/
Самое главное: качественная опенсорс LLM с агентными способностями.
Еще обновления:
— эффективный длинный контекст 128k
— в лицензии разрешён тренинг на данных, сгенерированных моделями
Помимо чекпоинтов с лучшими метриками, в релиз вошли фреймворки вокруг моделей и инструменты для запуска различных tools.
🟣Llama agentic systems: фреймворк для создания агентов на llama github (ждём сегодня)
🟣Llama toolchain: стек для подключения различных API Github
🟣Llama-recipes: Каталог документации и интеграций github
🟣PurpleLlama: модель для фильтрации и обеспечения safety генераций github
Заметила, что количество подписчиков увеличивается в те дни, когда я ничего не пишу🐕
Часто уменьшается, когда пощу 💀
У AIRI тоже летняя школа открывается, просто какая-то неделя постов про хорошие летние школы!
Читать полностью…🌸Oxford LLM School 2024🌸
#nlp #про_nlp
Открыт прием заявок в Oxford LLM School for social sciences!
Если у вас гуманитарный бэкграунд, и вы хотите погрузиться в устройство LLM и начать изучать их влияние на общество, то это отличная возможность!
В программе: вводные лекции в архитектуру языковых моделей, их применение, оценку, агенты. А ещё практические семинары и коллаборативные проекты!
Среди лекторов в этом году Гриша Сапунов и я. Буду читать про оценку LLM и какую-то часть про агенты.
Когда: 23-27 сентября 2024
Где: Nuffield College (University of Oxford)
Дедлайн подачи заявок: 29 июля!
🟣Сайт школы: https://llmsforsocialscience.net
🟣Подать заявку: https://llmsforsocialscience.net/posts/apply
#не_про_nlp
Вчера был сумасшедший день, не написала вам. У меня апдейт!
🌸Открытые данные и LLM🌸
#nlp #про_nlp
Прошлая неделя выдалась тяжелой для открытых текстовых данных.
🟣Open Library
Open Library, большая часть Internet Archive, про которую я рассказывала раньше, проиграла судебный процесс по копирайту против группы американских издательств.
Издатели вынудили Archive org удалить более 500 тысяч книг из общественного доступа. Многие из этих книг отсутствуют в оцифрованном виде где-либо еще, а так же составляют базу ссылок и источников Википедии. Заявление архива:
— More than 500,000 books have been taken out of lending as a result of Hachette v. Internet Archive, the publishers’ lawsuit against our library, including more than 1,300 banned and challenged books.
— We are appealing the decision that led to these takedowns in an effort to restore access to these books for all of our patrons.
Надежда есть! Международная федерация библиотек помогает побороться и восстановить доступ, легализуя статус "Controlled Digital Lending".
Список из 1300 названий запрещенных книг, которые требовали удалить в первую очередь, включает "1984" Оруэлла, "Оптимизм" Вольтера, "Декамерон" Боккаччо, книги с нетрадиционной любовной сюжетной линией -- это только то, что сразу бросилось в глаза в списке.
🟣Anna's Archive
Anna's Archive org заблокирован и переехал на новый домен: https://annas-archive.gs
На прошлой неделе в торрент-части появилось несколько десятков новых коллекций, суммарно 60Тб, доступных для скачивания напрямую как датасет либо в формате зашарженных архивов через торрент:
— Degruyter — дамп базы научных изданий Degruyter, метаданных пока нет, только архивы на торренте.
— Docer — дамп публично доступных документов из агрегатора docer.pl
— Duxiu — китайская библиотека оцифрованных книг, в большинстве научная литература, университетские издания.
— MagzDB — дамп базы всех периодических изданий из magzdb
— Open Library тоже доступна -- эта коллекция везде фигурирует под именем IA Controlled Digital Lending и OpenLibrary. Есть версия датасета от 26 марта, то есть сразу после проигыша суда Archive org.
🟣Ссылка на датасеты: https://annas-archive.gs/datasets
🟣Коммьюнити-торренты https://annas-archive.gs/torrents/upload
🌸Обучаем(ся) LLM с нуля🌸
#nlp #про_nlp
Андрей Карпаты продолжает создавать прекрасный образовательный контент по LLM после ухода из OpenAI!
Теперь, помимо замечательных видео, появился еще репозиторий с будущими главами учебника на Github по тренировке LLM с нуля, дообучению, мультимодальности, инференсу моделей, квантизации — и многим другим темам!
Курс — LLM101n: Let's build a Storyteller
🟣Github: https://github.com/karpathy/LLM101n
Курс точно будет интересен всем индустриальным специалистам и студентам, желающим погрузиться в работу с реальными инженерными проблемами своими руками.
Заявленные темы:
Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)
Пока курс создается, можно пересмотреть плейлист Neural Networks: Zero to Hero
Кстати, Intelligence — это ещё и "разведка" на англ
Отличный нейминг 👍
А вот и Илья Сутскевер нашелся!
Он с корешами основал новую контору - Safe Superintelligence Inc.
TLDR: будут строить безопасный суперинтелект без отвлечения на коммерцию. То есть это OpenAI в том виде, в каком и была изначально задумана.
Миссия Safe Superintelligence Inc.:
- Создание безопасного суперинтеллекта (SSI), который считается самой важной технической проблемой нашего времени.
- Миссия компании, название и весь продуктовый план полностью сосредоточены на достижении SSI.
Их цели :
- Разработать возможности SSI как можно быстрее, при этом всегда обеспечивая, чтобы меры безопасности опережали развитие.
- Сохранять единственный фокус на SSI без отвлечения на управленческие перегрузки или циклы продукта.
- Гарантировать, что безопасность, защита и прогресс защищены от краткосрочных коммерческих давлений.
- Собрать высококлассную команду инженеров и исследователей, полностью посвященных разработке SSI.
- Предложить возможности для людей заниматься значимой работой, которая решает значительную техническую задачу эпохи.
Вот только про open-source Илья пока не упоминал. Возможно, они также не будут ничего релизить, т.к. небезопасно. Но все равно очень интересно! Я верю в Илью больше чем в Альтмана, конечно, ведь Илья — это топовый учёный.
@ai_newz
ИИ-специалист опять на самом дне, видеоПочти
Я исполнила свою мечту в отпуске и увидела кашалота вживую! Ощущения непередаваемые
Заодно вытащили у него пакетик изо рта (он с ним играл)
Как будто плывешь, а с тобой рядом автобус, живой, с маленькими глазками
#не_про_nlp
🌸Как сделать себе визу Global Talent UK🌸
#не_про_nlp
Давно обещала пост про визы, наконец делюсь своим опытом.
Global Talent — имхо одна из лучших профессиональных виз в мире, которую можно оформить себе для релокации и жизни. Она дает право легально находиться в Великобритании до 5 лет, работать или не работать, причем вместе с семьей, а после этого срока сразу податься на постоянный ВНЖ и паспорт.
Ее можно сравнить с американской визой талантов, но сделать ее быстрее и проще, чем любую американскую визу гражданам РФ.
Получение визы делится на 2 этапа — 1) подача заявки, где вы собираете портфолио в специальном формате, что вы — талант и вообще легенда, а потом 2) обычная подача документов на визу.
На русском самый подробный гайд расписан вот тут: https://globaltalentvisauk.com/independetly — настоятельно рекомендую следовать ему!
Этап 1. Сбор портфолио 🇬🇧
Это по сути самый трудоемкий этап. Нужно собрать все бумажки и доказательства, что вы соответствуете любым 2 из 4 критериев по выбранной специальности: academia/research, art & culture, digital technology (для айтишников отдельный большой раздел — финтех, геймдев, ML и кибербеза).
Нужны ли вам для составления портфолио агенства? Решайте сами, но я считаю, что это совершенно бесполезно и стоит кучу денег. Вас спросят все то же самое, что вы и так будете про себя писать, но за кучу денег.
Если вы хорошо умеете писать грантовую документацию и отчеты, то волноваться вообще не о чем, вы все сделаете. Если не уверены в себе, лучше попросить у кого-то из знакомых, кто уже подавался, образец портфолио, а лучше несколько. Главное собрать "мясо" вашей заявки под критерии — ваши контрибьюшены в опен сорс, выступления на митапах, конференциях, измеримые успехи на работе и т.д. А дальше ChatGPT в помощь!
Важное на этом этапе — это получить 3-4 хороших рекомендательных письма, причем как минимум 1 от человека в Британии. Так что расчехляйте свой нетворк, ищите контакты людей, которые с вами работали. Письма должны иметь явную биекцию содержимому вашего портфолио и критериям, на которые подаетесь. И чем выше должности подписывающих, тем лучше!
Я лениво собрала все письма и доказательства где-то за месяц, вечерами с редбуллом.
Этап 2. Получение визы 🇬🇧
После сбора портфолио и его подачи, через какое-то время (до месяца) вы получите решение от оценивающей организации — endorsement (да) или отказ. Отказ должен быть мотивированный, и можно подать апелляцию или переподаться потом.
С этим андорсментом вы проводите оплату на себя и членов семьи (сумма такая, что можно заплакать) и подаетесь на получение визы — если вы вне UK, то приносите паспорт, сдаете отпечатки, и ждете, когда виза придет. Если вы уже в Великобритании, то просто через несколько недель получите карточку ВНЖ с новой визой (BRP).
Подаваться надо обязательно из страны, в которой у вас есть вид на жительство/гражданство! Это важно. Можно из РФ, я подавалась из Армении, визу ждала почти 4 месяца. Карточку BRP потом получала натурально в каком-то ларьке.
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
🌸Все про агенты в LLM🌸
#nlp #про_nlp #nlp_papers #agirussia
Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.
🟣Что такое агент?
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах
Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.
🟣Что добавить в агента?
— Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память: RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.
🟣Как оценивать агентов?
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!
🟣Открытые вопросы
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать no_action_needed
, заставить его потратить все оплаченные API лимиты
— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов
Полезные ссылки:
🟣AgentBench Github
🟣WebArena link
🟣Agent Landscape SurveyAgent Landscape Survey arxiv
🟣The Rise and Potential of Large Language Model Based Agents: A Survey arxiv
🟣блог Lilian Weng - autonomous agents link
🟣Agent protocol link
🟣ICLR 2024 Workshop on LLM Agents link
Субботний мемотред!
По случаю моего возвращения в постинг #шитпост
До понедельника тут серьёзного контента не будет!
Завтра выступаю на воркшопе ICML в 12:30 по мск, можно зарегистрироваться послушать бесплатно.
Towards Full Linguistic Diversity in Language Models
The 7th workshop on Neural Scaling Laws
🟣Расписание
🟣Регистрация на воркшоп
🌸Code Generation: синтетические данные и автоматическая оценка🌸
#nlp #про_nlp
Генерация кода — одна из основных "коммерческих" задач среди применений LLM.
Хорошая измеримость эффективности (сокращение времени написания кода, тестов, дебага), понятные метрики и возможность сразу перевести все в деньги (сколько % зп сеньоров сэкономлено) создали огромный рынок code assistants.
Несколько интересных работ вышли за последний месяц у всей технологической плеяды — от OpenAI, Meta, Anthropic. Во всех — первые шаги к агентности.
🌸Данные и валидация кода
Для обучения модели генераици кода нужны качественные данные — но где их взять в достаточном количестве? Открытый код с Github часто содержит слишком много багов. Ответ — качественная синтетика! Синтетически сгенерированный код можно валидировать на исполнимость, а также автоматически измерять его эффективность. Но можно пойти и дальше — и оценивать удобочитаемость, понятность кода, и некоторые жругие его качественные характеристики, чтобы код высоко оценивался профессионалами.
CriticGPT от OpenAI делает все это — модель-критик умеет автоматически оценивать сгенерированный код, что позволяет встроить ее в пайплайн RLHF, и делать пользовательский опыт с GPT-4-моделями лучше.
🟣Paper: https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
🟣Blog: https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
🌸Оптимизация кода LLM
Meta: LLM Compiler (уже переименован в Meta Large Language model compiler)
ИИ-компилятор дообучен оптимизировать низкоуровневый код на ассемблере и LLVM-IR (что? да!), чтобы ваш код исполнялся эффективнее. Модели на основе Code Llama выложены в открытый доступ: 7B и 13B. Есть также дообученные версии для дизассемблирования из-под x86_64 и ARM и ассемблирования назад в LLVM-IR. Отдельно доставляют систем промты!
🟣Paper: link
🟣Blog: https://ai.meta.com/research/publications/meta-large-language-model-compiler-foundation-models-of-compiler-optimization/
🌸Исполнение кода
Anthropic Claude 3.5
Новая версия Claude теперь обладает агентностью и может не только написать код к промту пользователя, но и безопасно исполнить его, в том числе вызывать различные API. Пожалуй, Anthropic стали самыми первыми в планомерном выкатывании автономных способностей языковых моделей. Правда, список tools & APIs надо передавать ассистенту самому.
🟣Blog: https://www.anthropic.com/news/claude-3-5-sonnet
🌸Оценка всех прототипов
SWEBench
Бенчмарки для кода быстро устаревают, SWE-Bench — пожалуй, на короткое время основной. 2.2к задач, собранных из реальных Github issues и пулл-реквестов к ним. State-of-the-art пока всего 19% решенных задач! В lite-версии — 43%. В качестве сабмита принимаются докер-контейнеры, так что обучиться на тесте будет тяжело.
🟣Leaderboard: https://www.swebench.com/
🟣Github: https://github.com/princeton-nlp/SWE-bench
🟣Paper: https://arxiv.org/abs/2310.06770
Генерация кода — это не только коммерческие применения, но и работа с языком более формальным, чем естественный язык, поэтому улучшение работы моделей с кодом может быть важным следующим шагом в улучшении таких способностей foundational models как сложные причинно-следственные связи, reasoning, агентность.
Открыт прием заявок на Лето с AIRI!⚡️
В этом году мы запускаем Школу совместно с Передовой Инженерной Школой ИТМО. Программа пройдет в Санкт-Петербурге с 20 по 30 августа.
🗓 Подать заявку можно по ссылке до 23:59 14 июля 2024 года.
Школа включает в себя лекции, семинары и практическую работу по направлениям:
— Мультимодальные архитектуры и генеративный ИИ в промышленности
— Модели воплощенного ИИ и обучение с подкреплением в робототехнике
— Искусственный интеллект и химия
— Доверенный искусственный интеллект
📍Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.
Подавайте заявки и делитесь постом с друзьями и коллегами!
🌸TLDR: со вчера я Research Scientist Manager в одной из core команд Llama!
6 месяцев собесов, миллион разных секций, технических, лидерских, литкода, бессистемных бесед по 3 часа, а кто вы по гороскопу, 100500 отказов на разных этапов — и вот я в месте, которое считаю одним из самых важных для языковых моделей и опенсорса. Моделирования естественного языка в целом.
Отношусь к этому очень серьёзно. Поверьте, на ближайшие месяцы синдром самозванца — мой ближайший друг.
Пишите в комментариях, что вам интересно, можно сделать серию постов про практику собеседований в faang и тд.
Давно по воскресеньям не было #female_vocals — так вот. Провожу день с прекрасной Элизабет Фрайзер, и делюсь с вами
Cocteau Twins — Pandora, 1984
Ethereal wave, dream pop
https://youtu.be/h_ICl20EJjY?si=cZ4iC3wWbY4gs_P-
В честь пятницы — мемотред! Давно не было
#шитпост
🥳Джулиан Ассанж на свободе!
Журналист заключил сделку с прокуратурой США. В обмен на признание вины Ассанжу зачтут срок пребывания в тюрьме Белмарш (5 лет) как наказание. Сейчас Ассанж направляется на остров Сайпан (территория США), где состоится финальный суд по его делу. После признания вины, суд отпустит Ассанжа на его родину - в Австралию. Ассанж не был на родине больше 15 лет, с 2010 года он находился под следствием, с 2012 по 2019 года безвылазно в здании посольства Эквадора в Лондоне, а с 2019 по 2024 в тюрьме строго режима Белмарш.
Освобождение Ассанжа - это результат не только качественной работы его адвокатов, но и широкая кампания в защиту журналиста, инициированная ресурсом Wikileaks. Ассанжа поддерживали множество социальных движений, деятелей культуры, лидеры левых партий и движений, среди них Джереми Корбин, Янис Варуфакис, Жан-Люк Меланшон и многие другие.
🌸Пост имени Ноама Хомского🌸
#nlp #про_nlp
В связи с прекрасным воскрешением Ноама Хомского на прошлой неделе, хочу все же сделать большой пост с описанием его наследия.
Хомский — один из самых цитируемых ученых в мире, и самый цитируемый ученый конца ХХ века — его научные работы процитировали более 500 тысяч раз, причём пик цитирования приходится на актуальные работы 2014 г.
🟣Лингвистическая теория
Основополагающие труды Хомского в лингвистике сгруппированы относительно нескольких идей:
1) язык имеет врожденные свойства и нейробиологические ограничения;
2) этими ограничениями должно быть можно объяснить все языковое многообразие и формализовать грамматику всех языков;
3) построив формализм, можно с его помощью генерировать корректные осмысленные высказывания на любом языке, а также сводить к универсальной форме все существующие данные.
Центральная работа — т.н. универсальная грамматика (Universal grammar), и надстройки вокруг нее, объясняющие различные явления в синтаксисе, морфологии, но даже и фонологии и семантике.
Теория неоднократно переделывалась и обновлялась с появлением новых данных и открытий в лингвистике — последняя редакция приходится на 2014 год
См Генеративная лингвистика
🟣Computer Science
К семинарам Хомского восходит исследование формальных языковкак подобласть информатики. Эта область начала развиваться около 1956 года, когда Хомский предложил математическую модель грамматики в связи с его изучением естественных языков. Вскоре после этого было установлено, что понятие грамматики имеет большое значение для программистов, когда синтаксис ALGOL был определен с помощью контекстно-свободной грамматики. Это развитие естественным образом привело к созданию синтаксически-управляемой компиляции.
Хомскому принадлежит также иерархия формальных грамматик, заложившая основу теории конечных автоматов, в частности, любимых всеми регулярных выражений.
См Иерархия Хомского
🟣Хомский vs Шэннон
Один из самых знаменитых и неразрешенных споров в LLM: можно ли опираться на чисто статистический подход для моделирования языка? Хомский считает, что нет. Статистическая апроксимация кучи непроанализированных данных не должна считаться научным достижением.
См Питер Норвиг про спор Хомского и Шэннона
🟣Антикапитализм, антиимпериализм, геополитика
Хомский неоднократно занимал непримеримую позицию в критике внешней политики США, занимаясь не только политическим активизмом, но и аналитической работой со стороны, которую в американских полит координатах можно назвать левой.
2011 — Хомский выступает на Occupy Wallstreet
Разоблачение работы американских медиа, методов пропаганды в СМИ, манипуляций общественным мнением:
1988 — Manufacturing Consent: The Political Economy of the Mass Media
Критика американского империализма:
1979 — The Political Economy of Human Rights — Камбоджа и Восточный Тимор
1983 —The Fateful Triangle — Роль США в Арабо-Израильском конфликте
1987 — On Power and Ideology: The Managua Lectures Counter-Revolutionary Violence: Bloodbaths in Fact & Propaganda — США и Вьетнам
1989 — Necessary Illusions: Thought Control in Democratic Societies
2003 — Hegemony or Survival — война в Ираке
См https://en.wikipedia.org/wiki/Political_positions_of_Noam_Chomsky
🟣Что еще посмотреть, почитать
Chomsky vs Shannon — фрагмент лекции Криса Маннинга https://www.youtube.com/watch?v=9PqOWu2_0MA
Кратко о влиянии Хомского на Computer Science https://exaud.com/noam-chomsky-computer-science/
Фрагмент из интервью: все преступления американских президентов: https://www.youtube.com/watch?v=5BXtgq0Nhsc
Человек из Нижнего Новгорода наносит ответный удар!
Как пишут на Hacker news, если ориентироваться на традиции названий, заложенные OpenAI, Safe SuperIntellligence будет одной из самых опасных компаний когда-либо существовавших! И тупой 😁
#шитпост
🌸Как сделать себе визу Global Talent UK🌸
#не_про_nlp
Несколько советов отдельно 🇬🇧
— Если у вас уже есть оффер от британского работодателя, и он предлагает вам оформить skilled worker visa и оплатить релокацию — имхо, нужно соглашаться. Это гораздо быстрее, и уже потом, находясь в Британии, вы сможете переподаться на Global talent. Skilled worker это по сути британский аналог H1B, то есть вы раб на визе, и за нее вам скорее всего оплатят все fees. Получить от работодателя компенсацию за Global talent менее вероятно, так как все будут понимать, что вы хитрый жук и не боитесь уволиться талант. Можете тут не повторять мою ошибку — я оформляла Global talent сразу, и в результате это заняло полгода и мне пришлось несколько раз переносить дату выхода, так как виза все еще не была готова.
— Оффер для подачи иметь совершенно не обязательно, что приятно! Просто переезжать без оффера страшновато. Само наличие такой визы на переговорный процесс влияет положительно, работодатель видит, что вы жук сильный и независимый, скорее всего имеете варианты и вам надо делать хороший оффер.
— Критерии "таланта" вполне мягкие, при желании можно практически любого профессионала подготовить под критерии оценки. Если время не жмет, можно даже специально поготовить свой кейс полгода — походить по конференциям, опубликовать пет-проджект и т.д., чтобы хватало материалов на кейс с запасом.
— Ну и напоследок: Если мы работали с вами вместе, вы думаете про переезд и вам поможет мое рекомендательное письмо — я буду рада!
🟣Чат помощи/советов по визе /channel/globaltalenthowto
🟣Гайд по оформлению всего самому, на русском https://globaltalentvisauk.com/
🟣Описание визы на британских "госуслугах" https://www.gov.uk/global-talent
Сегодня воскресенье, но будет музыкальная пауза без #female_vocals , а будет просто классика — видения будущего из прошлого
Jean Michel Jarre
Oxygene
1976
https://youtu.be/5ab7tIZNplM?si=4uMbvpgmu1pnZwbh
В это воскресенье в рубрике #female_vocals хочу просто поделиться с вами кавером, который очень люблю.
Считаю, что это песня на самом деле про собеседования и офферы в 2024 году
https://youtu.be/qS0YJZXmX2s?si=TPsLaSbEwNty7wFe
🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них.
🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д.
🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось.
🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть.
🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena
🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось!
С какими проблемами при оценке моделей вы сталкивались?
🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик.