boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

# Я пишу научно-популярную книгу про искусственный интеллект

Контракт с издательством подписан и можно наконец-то вам рассказать.

Когда мне предложили писать книгу про ИИ моя реакция была такой: "Я???"

Определённо мне не хватит экспертизы сказать что-то весомое по технической части или концептуализировать, что ИИ несет для общества.

Однако я обнаружил, что есть обделенная вниманием ниша, где именно я могу кое-что сделать. Все книги про ИИ делятся на технические, футурологические и про применение в бизнесе. Плюс всякий треш про ваш перввй миллиард на нейросетях. Вот чего не хватает: научпопа.

Я намерен написать лучшую книгу, которая объяснит любопытному читателю как работает искусственный интеллект. Без спекуляций о будущем, запугиваний, что вас завтра заменят, инструкций как трансформировать свой шиномонтаж с помощью ChatGPT. Без пустого хайпа.

Не знаю как самая важная тема века осталась без веселого просветительского материала, но постараюсь это исправить и рассказать, что действительно происходит и как оно работает.

Я хочу показать всем, что ИИ это очень интересно, доступно каждому и просто круто.

Редко выпадает шанс сделать что-то действительно отлично. Здесь я его вижу. Можно написать лучшую книгу в своем роде.

Всем известно, что писать книги сплошное удовольствие. Физик-космолог Макс Тегмарк в своей книге описывает как исследовал что-то связанное с космической радиацией. Шест лет работы, чтобы построить один график. В результате получилась статья в которой было шестьдесят соавторов. Он пишет, что это было самое изнурительное дело в его жизни. Потом добавляет: кроме этой книги.

Так что пожелайте мне удачи

Читать полностью…

Борис опять

Потом автор бросает настоящую бомбу: наша вселенная это математическая структура и есть четвертый тип мультивселенных в виде других математических структур.

Физика и вообще любая наука поразительно хорошо описывается математикой, но не ясно почему. Чем больше делишь частицы, тем больше находишь сущности у которых нет никаких свойств кроме математических. Из всех мультивселенных мы почему-то находимся в той, где все "настройки" законов физики подобраны идеально для нашего существования. По всем признакам время это иллюзия восприятия. Непонятно почему существует квантовая суперпозиция, которая пропадает при наблюдении, и что является наблюдением. Непонятно почему электрон может быть в множестве мест одновременно, но ноутбук, на котором я пишу этот пост, подозрительно статичен. Непонятно откуда берутся константы вроде веса элементарных частиц, которые выглядят просто случайным набором чисел.

Наконец, если есть мультиверсы, то они должны были возникнуть по какому-то закону. В конце концов есть функциональные законы физики, которые отличаются между вселенными, как упомянутые выше константы, и есть фундаментальные, как масса электрона. Если фундаментальные законы везде одинаковые, то они ведь тоже существуют в рамках чего-то.

Эти и другие вечные загадки решаются гиппотезой о том, что мы и все остальное существуем в чистой математической структуре. Математика не описывает мир. Мир и есть математика, а мы это обнаруживаем и описываем своим языком.

Важно, что не все, что угодно, является математической структурой. Математическая структура должна быть однозначно определена. Так что эта гиппотеза не говорит, что все, что мы можем представить, существует. Это было бы бесполезно как гиппотеза, потому что она бы ничего не предсказывала.

Куб тоже в каком-то смысле вселенная. Но он слишком прост, чтобы там могли возникнуть разумные наблюдатели. Поэтому мы не в кубе (или скорее не часть куба), а в чем-то гораздо более сложном. Например, может быть наша структура это волновая функция в бесконечномерном Гильбертовом пространстве или что-то такое.

Автор показывает, что эта идея красиво закрывает все вопросы. Или просто делает их бессмысленными. Не нужно спрашивать, что было до Большого Взрыва, потому что "что было до" это вопрос узколобого существа изнутри структуры. Математические структуры не меняются во времени, потому что время может быть частью структуры, а не наоборот. Структура описывает все, что происходило и "будет" происходить как f(x) = y описывает все точки на прямой. Как и прямая, эта структура ниоткуда не появляется, никуда не девается и ее никто не создавал.

Успокаивающий момент: это уничтожает гиппотезу симуляции. Страшно, что мы живем в матрице и завтра ее выключат. Однако возьмем куб как пример вселенной. Если я запишу описание куба на жесткий диск ноутбука это не значит, что куб существует на моем ноутбуке. Я описал куб, да. Но куб не перестанет существовать если я удалю файл. Наличие описания куба не делает его более или менее реальным. Если кто-то описал нашу вселенную программой и завтра выключит компьютер, чтож, мы ничего не заметим, потому что мы не "живем" в этом компьютере, мы не "живем" в описании, а "живем" в том, что было описано.

Все это может звучать странно, спекулятивно и необоснованно. Предполагайте, что это из-за моего плохого пересказа мыслей автора. На деле Тегмарк строит аргументы удивительным образом, взрывая мне мозг просто конструкциями вида "если А, то Б" с которыми у меня не получается спорить. Читается просто и понятно. Вместе со взрывом мозга присутствует и ощущение: ну да, разумно, в целом какой-то такой и был вайб, теперь понятно.

Могу лишь рекомендовать эту книгу, потому что я здесь вольно пересказал по верхам, а весь сок в конкретике, которая делает все это безумие правдоподобнее альтернатив.

В начало обзора книги

Читать полностью…

Борис опять

#книги
# Our Mathematical Universe by Max Tegmark

Потрясающая книга от физика-космолога, который посвятил карьеру фундаментальному вопросу о природе нашей реальности.

Я не большой фанат книг в жанре "теория всего", но начал читать и не смог остановиться.

Сначала автор описывает историю космологических теорий и то, как он изучал фоновую космическую радиацию: долетающее до нас излучение большого взрыва, оно же наше прошлое от момента создания вселенной. 

В первой части говорится о вполне конвенциональных вещах, но затянув читателя автор переходит к настоящему мясу. Он показывает, что на текущий момент лучше всего возникновение мира описывает теория космической инфляции. И что эта теория предсказывает наличие бесконечного множества вселенных.

Это рассуждение не оставляет никакой возможности, чтобы мультивселенные это научная фантастика или чисто философские допущения. Их наличие это предсказание теории. Нельзя принять теорию отказавшись от части ее предсказаний: ты или берешь весь пакет, или отвергаешь ее целиком. Точно так же как нельзя принять современную физику не купив вместе с ней черные дыры какими бы невозможными они ни казались. 

В парадигме множества вселенных наша вселенная это определенная область пространства. Она постоянно расширяется и делает это быстрее скорости света, поэтому мы физически не можем наблюдать ничего за ее пределами. 

Самый простой тип другой вселенной это другие области пространства из которых до нас еще не долетел свет. Реалистично он никогда не долетит, но в теории это могло бы произойти, то есть другая вселенная принципиально наблюдаема. В этой парадигме мы стоим в тумане и видим на какое-то расстояние вокруг себя. Это не значит, что за границей тумана ничего нет или что наш пузырь в тумане единственный или особенный. 

Автор показывает наличие целой иерархии мультивселенных из трех ступеней вселенных и что их наличие разрешает множество загадок физики.

Например, откуда берется случайность? Мир описывается детерминированными и простыми законами физики. Но упираясь в некоторые явления мы не можем сказать ничего кроме "хз, результат случайного процесса."

Вопрос разрешается красиво. Представим, что вы берете игральную карту, ставите ее вертикально на стол, выключаете свет и позволяете ей упасть. Карта упала или рубашкой вверх, или лицом. Изначальное положение атомов однозначно определило ее положение. Но вы не видите результат. Ваше лучшее предсказание: 50% вероятность любого исхода. Почему?

Часть 1/3

Читать полностью…

Борис опять

Кроме того у нашего прото-AGI терминальная неспособность понимать юмор, так что теперь будем отличать людей от ботов таким образом

Читать полностью…

Борис опять

Мне дали доступ к новому Voice Mode ChatGPT и сегодня у нас потрясающий урок английского языка

Читать полностью…

Борис опять

Авито проводит weekend offer: возможность получить оффер в команды Data Science, Data Engineering и Data Analytics за одни выходные.

Даты
DS: 5-6 октября
DE: 5-6 октября
DA: 19-20 октября

Особенно ищут по направлению Data Engineering в двух стримах: Python/SQL и Spark/Java/Scala.

Для участия заполните анкету до 1 октября, дальше тест, интервью и оффер.

Читать полностью…

Борис опять

Яндекс опубликовал на Хабре статью об использовании YandexGPT для генерации объявлений.

Я вообще не знал о такой функции: оказывается продавец большого количества товаров может отдать Яндекс.Директу их описания и получить автоматически сгенерированные объявления.

Отличная задача на ML System Design. Нужно объединить несколько источников данных, задействовать очень тяжёлую генеративную модель , эмбеддер и ранжирование, поддерживать большую нагрузку и все в условиях ограниченных ресурсов GPU. Хоть на собеседованиях давай.

Порадовал момент "сервис обрабатывает ВСЕГО ЛИШЬ 10 тысяч объявлений в секунду, поэтому нам пришлось ускорять :(".

Очень круто описан кейс оптимизации через асинхронную обработку, партицирование, параллелизацию, повышение утилизации GPU, дистилляцию эмбеддера и ранжировщика, устранение CPU бутылочных горлышек. Результаты впечатляют: RPS подняли до 70к+, снизили количество реплик в самом нагруженном месте на порядок.

Мне даже оказалось релевантно по работе, потому что обрабатывать много товаров тяжелым ML это прямо наш домен.

Один из самых клевых примеров применения LLM, что я видел.

Читать полностью…

Борис опять

Каждый диалог про AI Risk

А: AGI может быть очень опасен.
Б: Опять думеры со своим концом света.
А: А зачем нам AGI?
Б: Без него цивилизации конец и мы все умрем, ты что, не понимаешь?

Читать полностью…

Борис опять

https://www.astralcodexten.com/p/sakana-strawberry-and-scary-ai

Читать полностью…

Борис опять

Вот ещё от Тани:
/channel/rybolos_channel/1257

Читать полностью…

Борис опять

К стриму сегодня строго прилагается: как подготовиться к ML-интервью #шитпост

https://youtu.be/5bId3N7QZec?si=o0Ljk4tZvkOJQO2H

Читать полностью…

Борис опять

Мальчик: делает обратную совместимость, чтобы пользователям было удобно

Мужчина:

Читать полностью…

Борис опять

https://x.com/kazai_mazai/status/1836069739606466794

Секрет Португальского долголетия

Читать полностью…

Борис опять

https://mistral.ai/news/september-24-release/

Бесплатный мистраль API!

Читать полностью…

Борис опять

Мой дорогой друг запустил клевый проект и сейчас расскажет вам про него. Далее прямая речь

- - -

Привет 👋 Меня зовут Кирилл @Crpyto_mate и я делаю небольшой VPN сервис прямо в телеграме, чтобы смотреть ютуб и без проблем заходить в глобальный интернет из России. Или наоборот в Россию, но для этого надо написать мне в личку.

Я запилил VPN прямо в телеге как самый простой способ его себе подключить. Инструкция в 3 клика, опенсорсное приложение и всё работает автоматически.

Скорость и траффик 200 Гб в месяц. Если нужно больше пишите мне. Никаких логов.

Это стоит 300 рублей. На первый месяц всем скидка 50% и можно попробовать бесплатно перед покупкой.

Приложенька тут:
t.me/tg_vpn_bot/app

Читать полностью…

Борис опять

VLM в Нейро

Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!

Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.

Больше ни слова в посте, приятного прочтения поста!

Читать полностью…

Борис опять

Параллельные вселенные это бесконечный континуум. Существуют все вариации. В том числе бесконечное множество вселенных, где ваша жизнь вплоть до этого момента была видимо идентична для вас, но положение атомов немного отличалось. В каждой вселенной карта упала определенным образом. Вы просто не знаете в какой из этих вселенных вы находитесь. Так что вам приходится думать что произошло и в какой доле вселенных.

Важно, что не происходит какого-то магического спауна новых вселенных. Мне всегда было интересно в теориях мультиверсов: а если я поковыряюсь в носу это создаст параллельную вселенную? А вот перемещение одного атома создает другой таймлайн? А вселенные создаются только когда решение принимает что-то с сознанием, и, если да, чем оно такое особенное? В этой же парадигме все вопросы отпадают. Вселенные уже существуют, ничего не создается и не пропадает, а в сознании и субъективном восприятии нет ничего особенного. 

Таким образом оценка вероятностей это попытка локализовать себя в мультивселенной. Что объясняет невероятную эффективность условных вероятностей. Пусть вы находитесь в пустыне где десять тысяч лет не было дождя. Априорная вероятность, что сейчас пойдет дождь, стремится к нулю. Однако если над вами тучи то это абсолютно не важно. При условии наблюдения туч вы знаете, что находитесь в другом мире. Там, где сейчас 100% пойдет дождь, как бы это ни было невероятно в целом. 

Это объясняет и невероятную эффективность матожидания. Я играю в покер и понимаю, что у моего соперника комбинация карт лучше моей. Я знаю, что скорее всего он наверняка заработает больше денег в этом раунде. Почему? Ведь многое может случиться. Но я как человек с картой в темной комнате. При недостатке информации мне стоит предполагать, что я в типичной вселенной. В большинстве вселенных два туза побеждают разномастные 7,2. Это так же объясняет почему в нашем мире более простые теории чаще оказываются правдивыми: вселенная должна быть очень необычной, чтобы пирамиды были построены рептилоидами, которые при этом не оставили других свидетельств своего существования.

Интересно, что мультивселенные допускают возможность Бога если он подчиняется законам физики. И даже таких вселенных как у нас, без единого признака сверхестественного вплоть до текущего момента, но с явлением Бога через минуту. Однако я бы не ставил на это деньги. В типичной вселенной все произошло как произошло без огромной условности в виде того, что на самом деле существует вездесущий сверхразум, которому зачем-то надо варить людей в котлах и все такое, потому что сгенерировать текущее положение без него проще (а значит вероятнее), чем с ним. К тому же все подобные вселенные были бы неотличимы, так что нет причин полагать, что сейчас нам вероятнее явится Христианский Бог, а не Зевс или Слаанеш. Пари Паскаля, получается, разваливается. Если где-то есть Бог, то не в нашем мире.

Заметьте, что я нигде не говорю про время и будущее. Потому что время не течет и мы в нем не перемещаемся. Мы находимся в 4D пространстве-времени, где все наши состояния просто существуют. Мне кажется, что я перемещаюсь из прошлого в будущее, потому что эволюционно было полезно создать такое восприятие. На самом деле в каждой точке пространства (где я еще жив) существует мой мозг в текущем состоянии с его observer moment. Каждый из Борисов получает от своего мозга новостную ленту с нарезкой прошлых событий, что создает у него иллюзию, что он существовал во время этих событий. Далее ради своего выживания все Борисы пытаются предсказать будущее на шаг вперед.

Часть 2/3

Читать полностью…

Борис опять

Хирш канала вырос на 1

Читать полностью…

Борис опять

Если честно очень жаль!

Во время демо показывали, что оно будет уметь понимать интонацию, эмоции, музыку и звуки вокруг. Я надеялся, что оно поможет мне с комедией: тестировать разные способы донести шутку.

Однако то, что сейчас выкатили, это хуже бесполезного. Модель не только не может оценить произношение, но и дает вредные правдоподобно звучащие советы.

Я рассказал ей шутку и попросил улучшить. Она посоветовала мне добавить паузу и акцент. Попробовал: действительно стало лучше и даже модель об этом сказала. Но закрались сомнения, я сказал, что попробую еще раз для закрепления и зачитал максимально ужасно. Добавил ыканий, гэканий и пауз где мог. Ее ответ? That was excellent, you nailed it!

Я надеюсь, что мы все же увидим то, что показывали в демо

Читать полностью…

Борис опять

Подъехали политические координаты для ML-щиков

Читать полностью…

Борис опять

Вышла llama 3.2 с мультимодальностью на уровне GPT-4o-mini, а так же некая попытка сделать стандартизированный mlops в сфере LLM под названием llama stack.

Читать полностью…

Борис опять

Апдейт моделей Gemini 1.5 Pro & Flash

Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.

Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.

Читать полностью…

Борис опять

Прикольный момент с OpenAI o1 моделью в том, что её тестировали на задачу взломать сервер, сделали ошибку и модель взломала сандбокс, в котором она находилась. Упс, забыли сказать "взламывай цель, но не взламывай нас" и модель выполнила задачу как поняла.

При этом очевидно, что о1 это никакой не злой ИИ и у неё нет целеполагания. Получается, что умнейшие безопасники не смогли удержать в изолированной среде даже умный автокомплит.

Но мы точно сможем контролировать действительно опасную и умную машину! Абсолютно никаких причин сомневаться

Читать полностью…

Борис опять

Регуляризация это же фетшейминг модели

Читать полностью…

Борис опять

Ссылки после стрима
#career #interviews

Что, вроде неплохо зашло? Если что-то еще упустили - пишите в коменты. Может, еще соберемся. Можно для diversity и стартаперов позвать (Бориса без пхд уже звали).

Во флудливом чатике streamyard было и что-то полезное. Кроме кеков, из-за которых ведущем было сложно держать щи ровно.

- Лучший источник для ml system design, на мой взгляд. Дается структура и много типичных примеров. Еще был совет читать блоги компаний, особенно перед собесом с одной из компаний, ведущих неплохие блоги

- методичка Бориса о собесах

- SWE interviews at Meta

тут расписывал про ресурсы, которые мне помогли в долгом забеге по собесам

- Хороший ютуб канал для бихейва - alifeengineered?si=xzexq2vYf2ECGzpu">A life engineered

- мне очень помогли два канала экс-рекрутеров гугла: jeffhsipepi">Jeff Sipe и CoachErika">Erika Gemzer. Все про бихейв + у Джеффа есть плэйлист про переговоры

- Книга System Design Interview от Alex Xu - это классика. У него же недавно появилась про ML system design. Не читал, но если она хоть чуть-чуть похожа на System design, то это 🔥

- настольная книга карьеристов: Rise. (do better, look better, connect better). Много про менторство, личный бренд (в правильном смысле слова) и нетворкинг

- еще Таня развернула мысль про поведенческие собесы в этом посте.

Насчет записи стрима: файлик есть, а времени и желания монтировать - нет. Ставьте звёздочки, если нужна запись - подумаем 😀

Спасибо @kSasha за подбор ссылок

Читать полностью…

Борис опять

Стрим про большой-большой тех уже сегодня!

Подключайтесь в 17:30 CET:
https://streamyard.com/watch/udnqi3EWpmRH

Предложение ограничено и всё такое

Читать полностью…

Борис опять

ИТМО провел исследование open source решений в Российских реалиях ML/DS и выложил результаты. Так же можно прочитать статью на хабре.

Оценивали репозитории на Github по активности и аггрегировали в рейтинг компаний, опираясь на несколько критериев: количество open-source проектов в области Data/ML, показатели используемости этих проектов в России, качество реализации репозиториев, количество контрибьюторов и их активность.

На первом месте рейтинга Яндекс, у которого суммарно 65к звезд против 9.5к у ближайшего соперника, Сбера. По другим метрикам отрыв Яндекса такого же порядка или даже больше. Судя по результатам топ 3 самых популярных проекта это Catboost, YDB и YTsaurus. Так же среди популярных решений LightAutoML и GigaChain. Clickhouse это totally-not-Яндекс и не вошел в рейтинг. Но если бы вошел, то занял бы первое место.

В академии впереди всех Физтех (DeepPavlov) и тоже с большим отрывом от второго места, далее ИТМО (FEDOT) и ВШЭ.

Приятно видеть проекты российских компаний и университетов на том же уровне, что и Pytorch, Superset и MLFlow.

Читать полностью…

Борис опять

Сегодня утром обсуждали сайт реестра повесток в одном чате и я заметил, что там делаются запросы к API по пути вида ‘.../api/military/1010049444/doc/...‘. Этот номер очень похож на ID. На поверку так и оказалось: это был ID с Госуслуг. Поэтому я подумал, что кто-то вполне мог бы поперебирать айдишники и спарсить базу.

Но это само по себе мелочь, потому что просто перебирать айдишники недостаточно. Предсказуемые айдишники ускоряют парсинг, но нужно найти еще какую-то уязвимость, чтобы получить доступ к чужим данным. Не могли же они не разграничить права доступа?

Прошло всего часов двенадцать и вот. Залогинившись под любым аккаунтом можно было получать данные других людей. То есть уязвимость искать никому не пришлось, потому что не нужно искать дыру в заборе когда вокруг наших данных забыли его построить. Оставалось только найти способ откуда взять ID пользователей, чтобы выгрузить их данные...

Ваш и мой паспорта теперь open-source и скорее всего не в первый раз 👀👀😢🙂👀👀

Читать полностью…

Борис опять

В комментариях возникло недопонимание о том, что это за сервис такой, так что я обновил описание.

Tldr: Кирилл держит свои сервера и дает к ним доступ по подписке с управлением через телеграм приложение. Для подключения используются сторонние приложения. Это не потому, что Кирилл их рекламирует, а потому, что под каждую платформу уже есть крутое opensource приложение вдоль и поперек проверенное на безопасность. Например, я пользуюсь v2rayNG.

Читать полностью…

Борис опять

Стрим про карьеру, собеседования и бигтех
#career #interviews

Choose your fighter. Собрал вам тут бигтех-банду для стрима:

- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;

- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;

- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;

- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;

- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.

Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»

Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).

Записи не будет, все вживую. Мест – максимум 1000 😀

Читать полностью…
Subscribe to a channel