boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

https://www.lesswrong.com/posts/pNkjHuQGDetRZypmA/it-s-a-10-chance-which-i-did-10-times-so-it-should-be-100

Прикольно про связь вероятностей и числа e

Читать полностью…

Борис опять

https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman

Читать полностью…

Борис опять

Reinforcement Learning дома 😩

Читать полностью…

Борис опять

🚀 TabM: новая DL архитектура для табличных данных

Новая большая статья по tabular DL при моем участии! Ссылки в конце поста.

Для практиков, TabM — это новый ответ на вечный вопрос: “Какую современную табличную архитектуру попробовать?”. На этот раз SOTA на бенчмарках простая, практичная и машстабируется на миллионы объектов.

Для области, TabM — это история о том, как сделать лучше, проще и дешевле одновременно. И как показать это на красивых информативных графиках 💅

Для любителей ML, TabM — это удобная точка входа в область: мы замерили и task performance, и training times, и inference throughput у многих моделей. Думаю, вводные части тоже будут интересными!

Для всех читателей: для быстрого обзора статьи, вы можете посмотреть всего три части:

📜 Abstract — TL;DR
🖼️ Figure 1 — модель
📈 Page 7 — результаты

В одном предложении: TabM is a simple and powerful tabular DL architecture that efficiently imitates an ensemble of MLPs.

Ссылки:

- arXiv
- GitHub (есть end-to-end пример и реализация в одном файле, но пока без пакета)
- Twitter (see the pinned post)
- Reddit (Ctrl+F “TabM”)

Читать полностью…

Борис опять

Шикарная ситуация: авторы стебанулись над рецензентами, которые заставляли их что-то ненужное (но может быть зато свое, родное) цитировать, и прямо написали об этом в тексте статьи.

Редактор все это дело пустил «в работу» и вот, статья, с таким красивым абзацем в конце введения, уже в печати 🥳

Одним словом авторы - капитальные красавчики. Другими словами - титановые шары у этих авторов 😁

Причем журнал вполне приличный (IF 8.1). Кризис научных журналов продолжается, в общем. Кстати, в том же MDPI, к рекомендациям типа «милок, ты вот эту пачку статей еще процитируй и все будет норм», относятя более чем строго. Своего вообще ничего нельзя советовать, а насчет чужих работ тоже еще десят раз уточнят, точно ли это нужно.

PS. Ссылка на саму статью авторов c Balls of Steel из Поднебесной тут.

Читать полностью…

Борис опять

Мир удивительно тесен, особенно наш ML/AI пузырь. Сейчас будет еще одна рекомендация.

В 16 лет мы познакомились в детском лагере с Аней, а теперь она тимлид Ozon RnD. Как и я когда-то она преподает машинное обучение на ФКН ВШЭ.

Рекомендую её маленький канал с инфографикой по DS. Еще там бывают вакансии в Ozon RnD 👀

Читать полностью…

Борис опять

https://www.reddit.com/r/ClaudeAI/comments/1gjob9a/petition_to_lower_claude_35_haiku_prices/

Цены у Anthropic действительно абсурдные

Читать полностью…

Борис опять

Скинули в нашем Опять чате

Читать полностью…

Борис опять

#обзор_статьи
# Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy

Ребята из T-Bank AI Research продолжают радовать вместе с МФТИ и МИСИС, на этот раз в области CV и робастности.

Вечная проблема ML это надежность. ML отлично работает в границах применимости модели, но может делать непредсказуемые вещи на данных непохожих на тренировочные. Очень тяжело понять, находимся мы в границах применимости или уже нет. Задача Out Of Distribution детекции состоит в том, чтобы определить насколько стоит доверять предсказанию на конкретном примере.

В DL эта задача решается в том числе с помощью ансамблирования. Если мы используем несколько разных моделей и они дадут несогласованные предсказания, значит пример скорее всего OOD.

Вечная проблема ансамблей в ML это диверсификация. Если все модели действуют одинаково, то ансамблировать их бесполезно. Обычно ансамбли делают используя разные архитектуры моделей или изменяя данные на входе.

Авторы предлагают новый метод обучения ансамблей нейронных сетей: Saliency-Diversified Deep Ensembles (SDDE). Он основан на идее, что можно понять насколько модели диверсифицированы по тому на какие признаки они опираются в предсказаниях.

Здесь нужно вспомнить такой метод интерпретации нейронных сетей как saliency maps. Для одной модели saliency map это когда мы сопоставили каждому пикселю входного изображения число которое тем больше, чем больший вклад он внес в предсказание модели. Есть разные методы вычислять такие карты, но наиболее стандартный GradCAM.

Идея авторов: если мы натренируем ансамбль так, чтобы saliency maps моделей в нем отличались, то получим диверсифицированные модели, которые будут принимать решения разными методами и следовательно их согласованность поможет отличать OOD примеры.

Как часто бывает в DL это достигается через дополнительную функцию ошибки: среднее косинусное расстояние между saliency maps рассчитанных с помощью GradCAM.

Авторы аггренируют предсказания ансамбля усредняя логиты моделей перед софтмаксом.

В результате такой ансамбль показывает лучшую калибровку, то есть вероятности на выходе больше схожи с настоящими (при идеальной калибровке если модель предсказывает 20%, то она оказывается права в 20% таких случаев). Метрики по точности на OOD датасетах лучше. При визуализациях так же видно, что модели ансамбля фокусируются на разных частях изображений.

Статья кстати очень хорошо, понятно и красиво написана.

Читать полностью…

Борис опять

Новый поиск в ChatGPT реально хорош.

На запросах вида "как приготовить куриный суп" выдача намного лучше, чем у Google. Просто по делу и не нужно продираться через стену копирайта.

Можно придраться только к цензуре. Поисковик который не хочет искать порно какие-то вещи на свое усмотрение это неприятно.

Но не все пока закрыто наглухо, торрент трекеры выдает :)

Читать полностью…

Борис опять

## Масштабы продаж

Издательство не может просто взять права на распространение, положить их на полку и ничего не выпустить. По договору они обязаны напечатать хотя бы один тираж. Размер этого обязательного тиража намекает на то, каких продаж можно ожидать. Как думаете, сколько? Ответ: 2 - 4 тысячи.

Если было продано несколько тысяч экземпляров, то книга считается бестселлером. Подавляющее большинство книг выпускается только в виде первого тиража, который потом утилизируется, потому что не продается.

Продажи книг это мир power law распределений: победитель получает все.

## Сроки

6-9 месяцев вы пишете рукопись. В процессе периодически показываете материал продюсеру от издательства, который дает обратную связь.

Вы сдаёте рукопись и 3-4 месяца идут редактура, корректура, дизайн обложки и прочее. Далее книга появляется в продаже. Примерно за месяц до этого начинается продвижение.

Пока что я пишу слишком медленно и не укладываюсь в сроки, что вызывает трясучку.

В случае самиздата, я уверен, все сроки умножаются на два.

———

В общем, со всех сторон план надёжный как швейцарские часы: денег не будет, продаж можно не ждать (но стремиться к ним я буду!), времени не много, а работы очень много. Зачем тогда? Потому что хочется сделать что-то стоящее и есть основания считать, что у меня получится.

Интересующимся очень советую эту серию постов на Хабре, где девушка описывает весь процесс написания, продаж и продвижения книги как раз по моей схеме от опенсорса к самиздату и до издательств. Она очень подробно разбирает все моменты, сравнивает предложения разных издательств и прочее прочее.

Читать полностью…

Борис опять

Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео

Читать полностью…

Борис опять

https://x.com/jack_frodo/status/1850577496082706722

Читать полностью…

Борис опять

Claude обновился, так что время протестировать его на единственном достойном бенчмарке: рисовании svg.

Напомню промпт:

Using SVG, draw a blue cube half behind a red cube on top of a yellow cube, with a purple cube in the background to the right


Читать полностью…

Борис опять

https://fxtwitter.com/KaiLentit/status/1848843623808540679

Читать полностью…

Борис опять

6 декабря в Москве и онлайн пройдёт конференция Conversations по разговорному и генеративному AI для бизнеса и разработчиков.

Вот что будет:
- Доклады про кейсы применения LLM, бенчмарки языковых моделей, голосовые технологии, RAG и многое другое. Подробности есть в статье на Хабре и сайте конференции.
- Дискуссии в бизнес- и технотреке.
- Выставка AI-решений.
- Нетворкинг.

Меня лично зацепили эти доклады:
- "LLM в действии: как с помощью чат-бота автоматизировать SQL-запросы и получать актуальную аналитику за минуты, а не дни" от команды Samokat (теперь Ecom Tech).
- "Много тонкостей, мало данных. Как построить RAG для документации по сложным продуктам, когда их больше 50" от команды Cloud Ru.
- "Масштабирование LLM приложений на миллионы клиентов" от команды Т-Банка.


Билеты можно купить здесь.

Организаторы сделали промокод на скидку 10% для подписчиков канала: CNVS24oRb.

Читать полностью…

Борис опять

🤪

Читать полностью…

Борис опять

⚡️В сеть слили новую лестницу грейдов в Сбере

Читать полностью…

Борис опять

Сегодня у меня для вас новое соревнование.

Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций на основе полусинтетических данных.

Старт: 5 ноября, но зарегистрироваться еще можно
Призовой фонд: 600 000 рублей.

Участвовать можно индивидуально или в команде до 4 человек. Метрика: ROC-AUC.

Подробности по ссылке.

Читать полностью…

Борис опять

Раньше я предлагал вам пройти опрос про рынок ML от DevCrowd. Появились результаты!

https://devcrowd.ru/ds24/

На скриншоте раскрыт секрет быстрого развития AI индустрии

Читать полностью…

Борис опять

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Читать полностью…

Борис опять

Мне пришли результаты генетического теста и там написано, что симптомом внезапной смерти является смерть.

Читать полностью…

Борис опять

https://arxiv.org/abs/2306.12001

Читать полностью…

Борис опять

Ярослав закончил МФТИ, делает свою студию по хардкорному внедрению ML/AI на производствах и рассказывает об этом в своем канале.

Причём проекты из реального сектора о которых мало где услышишь: литье стали, измерение объёма древесины, окллюзии мозга. Мне после применения CV на вертикальных фермах в Planet Farms очень откликается.

Приятно, что в канале нет новостей из мира AI, генераций картинок, освой профессию будущего и всего такого. И написано не слишком серьёзно, легко читать.

Такого контента про внедрения ML/AI очень мало, так что честно рекомендую: @r77_ai

Читать полностью…

Борис опять

Олимпиадники опять не дают делать комментарии под последним постом, так что пишите под этим

Читать полностью…

Борис опять

# Кратко про книги

Когда мне предложили писать научно-просветительскую книгу я изучал вопрос почти месяц и поговорил с несколькими лауреатами премии "Просветитель." Поделюсь с вами тем, что узнал.

## Деньги
Денег не будет. Сразу это обозначим. Если вы работаете с издательством, то получаете роялти около 20% от оптовой цены печатного экземпляра. Если книга стоит 400 руб, то автор получит примерно 20 рублей. Можно задрать цену книги, но тогда ее никто не купит. С электронными и аудио книгами порядок такой же. Успешные по меркам рынка книги продаются всего по несколько тысяч экземпляров, так что можете сами посчитать потенциал.

В случае самиздата вы получаете больше денег с продажи, но скорее всего гораздо меньше продаж.

На Хабре есть статья писательницы, которая выпустила нон-фикшн книгу про карьеру в IT и за два года заработала 26 тысяч рублей. Это выручка, то есть не считая расходы.

## Издательство или самиздат?
Есть два пути.

Самиздат: делаешь, что хочешь и публикуешь рукопись в электронном виде через Ридеро или ЛитРес. Эти площадки предоставляют услуги издательства по модели pay2win. То есть дерут с вас деньги везде, где могут. Вы сами платите за корректуру, редактуру, обложку, иллюстрации, запись аудиокниги и так далее.

Главный плюс этого пути: полный контроль. Второстепенный: вы забираете почти все деньги с продаж. Но денег не будет, так что это не важно.

Меня интересовала такая схема:
1. Публикую книгу в open-source по главам.
2. С выходом каждой главы собираю обратную связь и навожу суету.
3. Когда книга готова публикую через самиздат.
4. Когда книга успешно продаётся через самиздат иду в издательства и предлагаю масштабировать.
Звучало хорошо, но ниже расскажу, почему отказался от этой идеи.

Издательство: вы передаете исключительную лицензию на распространение на 5-7 лет, получаете роялти от продаж в районе 20%, а взамен они делают примерно все кроме написания рукописи от редактуры до продвижения. Последнее важно: издательство может продать вашу книгу в сетевые книжные магазины, а попасть туда самостоятельно у вас фактически нет шансов. Издательство может номинировать книгу на премию "Просветитель", а сами вы этого не можете сделать если не являетесь академиком РАН или кем-то еще очень особенным.

Взамен вы отдаете контроль. Вы больше не можете выбрать название или обложку. Конечно никто не сделает чего-то не спросив вас, но в конце концов решающий голос по многим вопросам у издательства. Так же вы теряете возможность выбирать где и как продается книга на время действия лицензии. Например, вы не можете продавать ее у себя на сайте.

В конечном итоге я решил работать с издательством. Я понял, что для меня критично, чтобы книга случилась, и чтобы ее прочитало как можно больше людей. Для обоих целей лучше писать с издательством.

По части моей схемы с open-source: никто так не делает. Слишком непредсказуемо. Даже если все получится издательства могут не взяться распространять книгу, которая уже лежит в открытом доступе. Мне конечно кажется, что самостоятельно я бы сделал все лучше всех, но объективно это не так. Наконец, я просто не потянул бы целую вторую работу в незнакомой сфере.

К тому же, мне само написало хорошее издательство и мне понравилось с ними взаимодействовать.

## Ты предлагаешь или тебе предлагают

Обычный сценарий написания книги: автору неймётся, он пишет рукопись, потом ходит и пытается кого-то убедить её напечатать. В большинстве случаев издательства отказываются, выдвигают не лучшие условия или делают все за деньги автора.

Другой сценарий этоткогда приходят к вам. Мой случай. Значит о вас узнали и есть запрос. Здесь вы минуете самую болезненную фазу.

Однако это не значит, что все схвачено. Сотрудник издательства предлагает вам писать, но далее вы готовите документ в свободной форме, где продаете свою книгу. Пишете о чем книга, для кого, кто вы, почему вас будут читать, как планируете продвигать и пример текста. Питчдек в мире книг. Редакционный совет издательства читает и решает, работать с вами или нет.

Одобрение совета было для меня дополнительным сигналом, что стоит писать.

Читать полностью…

Борис опять

Сбер проводит Конкурс красоты кода 2.0.

Это конкурс в пяти категориях, среди которых есть AI. В AI треке нужно решить задачу построения модели прогнозирования оттока.

Интересно, что решения оцениваются не по принципу побитой метрики как на Kaggle, а по качеству кода в нескольких номинациях.

Призы: iPhone 16, колонка SberBoom и возможность получить оффер в Сбер. Награждение пройдёт на конференции HighLoad в Москве 2 и 3 декабря.

Принять участие можно до 28 октября включительно, времени осталось немного.

Читать полностью…

Борис опять

По сравнению с предыдущей версией все параллелипипеды стали кубами, правда с недостающими сторонами, но добавился лишний темно-красный куб и перепутан порядок. Старый справился лучше. Правда если сделать несколько генераций, то можно получить то, что выдавал старый.

Что это говорит о моделях и искусственном интеллекте? Ничего.

Читать полностью…

Борис опять

Claude заставили играть в Universal Paperclips

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

Читать полностью…

Борис опять

https://fixupx.com/mengk20/status/1849214171591909700

Читать полностью…
Subscribe to a channel