boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12937

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

uv — очень быстрый pip на стероидах с большими абмициями

Пост будет особенно полезным, если раньше не сталкивались с pip-tools. В конце есть пример испольвания.

uv — это новый и полезный уже сейчас инструмент от компании Astral, которая раньше сделала Ruff. Долгосрочная цель авторов очень амбициозная -- сделать uv единым инструментом для работы с Python и заменить все отдельные инструменты: pip, pyenv, virtualenv, pip-tools, ruff, tox, pipx, и т.д. В итоге любой инженер, аналитик, исследователь или студент сможет легко и единообразно устанавливать Python окружения и разрабатывать Python проекты.

В своей первой итерации uv — это в ~2x-100x раз более быстрая замена трём инструментам:

(1) pip. То есть uv очень быстро устанавливает Python пакеты, что особенно актуально для сложных окружений и особенно когда они устанавливаются регулярно (например, в Continuous Integration). Но и в быту при установке условного Jupyter ускорение в 5-10 раз ощущается очень приятно.

(2) pip-tools. Напомню, что в проектах важно фиксировать не только прямые зависимости (скажем, Django==5.0.3), но и непрямые (те пакеты, которые Django приносит с собой). Это нужно, чтобы у всех пользователей и на всех машинах было идентичное окружение. pip-tools помогает решить ровно эту задачу: он автоматически генерирует и поддерживает в актуальном состоянии ваш requirements.txt файл с полным списком зависимостей. А uv делает то же самое, но гораздо быстрее.

(3) venv & virtualenv. На фоне предыдущих пунктов создание виртуальной среды это скорее мелочь, но даже эту мелочь uv делает ощутимо быстрее :)

Я использовал uv пару раз для простых личных сценариев. Софт свежий, и чтобы понять, подходит ли он вам, можно посмотреть текущие ограничения и баги. По моему опыту и инфополю думаю, что установка обычных пакетов на linux/macos машины уже нормально работает.

---------

После установки uv можно скопировать и запустить примеры ниже в таком же порядке (проверено на v0.1.24).

Создать и активировать среду:


mkdir hello-world && cd hello-world
uv venv


Не забыть активировать среду:

source .venv/bin/activate


Установить пакет:

uv pip install pandas


Составить полный список зависимостей requirements.txt по pyproject.toml:

echo '[project]
name = "hello-world"
dependencies = ["scikit-learn==1.4.1.post1", "Django==5.0.3"]
' > pyproject.toml

uv pip compile pyproject.toml -o requirements.txt


Привести окружение в соответствие с requirements.txt (важное отличие от uv pip install -r requirements.txt: sync не только установит все из requirements.txt, но и удалит то, чего там нет, например, ранее установленный pandas и его зависимости):

uv pip sync requirements.txt


@simple_it_channel #python

Читать полностью…

Борис опять

https://www.reddit.com/r/slatestarcodex/comments/1bzkr8g/increasing_lifespan_in_mice_summary_of/

Для желающих жить вечно.

Бекграунд: фактически все известные способы продлить жизнь тестируются на мышах, а не на людях.

Оказалось, что большая часть интервенций, которые показывали хорошие результаты на мышах, не работают. Они продлевают жизнь, если мышам оставалось жить недолго. Но для здоровых мышей эффект пропадает.

Вроде как единственная интервенция, которая все ещё работает (на мышах, на людях неизвестно), это rapamycin.

Читать полностью…

Борис опять

https://www.youtube.com/watch?v=9_W2NhOuzrs

На днях проводил открытый урок по foundational моделям в computer vision. Это (достаточно краткий) обзор про CLIP, GLIP, DINO(v2), GroundingDINO и конечно же Segment Anything.

В этот раз даже не два с половиной часа, как в прошлый, а положенные полтора.

Читать полностью…

Борис опять

https://www.theintrinsicperspective.com/p/the-end-of-online-history

Читать полностью…

Борис опять

https://twitter.com/VictorTaelin/status/1776677635491344744

Читать полностью…

Борис опять

Каждая статья про ИИ агентов

Читать полностью…

Борис опять

tl;dr: gloomy search engine developer, $150k-250k/year + options, UK

Вчера наши читатели в комментариях были обеспокоены инфляцией эпитетов в наших постах. Мол, какие-то вы восторженные уж слишком, всё у вас сплошь крутое, топовое и сильнейшее, а меж тем кандидаты — это усталые серьёзные люди.

Мы прислушиваемся. Сегодня вакансия для усталых и серьёзных поисковых инженеров в Perplexity.ai — это те, которые делают очередной бесполезный conversational search для людей, которые не умеют гуглить.

У них как раз на днях стукнул год с момента первого релиза. Поздравляем. Вы официально больше не "молодой и перспективный стартап".
Недавно они, кстати, подняли раунд с оценкой в $500M. Могли бы и побольше, если бы постарались как следует.

Сейчас Perplexity расширяются, чтобы наконец-то стать полноценной унылой галерой, и хотят нанять серьёзного неулыбчивого бекэнд разработчика, который разбирается в индексировании и web search. Нужно четко понимать все этапы поиска от скрэппинга и кроулинга до индексации и ранжирования. Опыт в командах поиска или рядом с ним — обязательный критерий.

Перевозят в Лондон — там грязно и дорого. И душно еще в метро. Платят $150k-250k в год + опционы, что для UK, как известно, копейки.

За прочими серьёзными подробностями пишите @alinashorokhova. Или перешлите эту вакансию коллеге, который вас достал, чтоб он наконец-то уехал подальше.

Читать полностью…

Борис опять

Родной ФКН ВШЭ и Яндекс расширяют сотрудничество по направлениям DS/ML/AI. Мои впечатления на ФКН были исключительно положительные, всем рекомендую. Вышка это не только (и не столько) курсы с хорошим материалом, а ещё и потрясающая среда для развития и фана.

ФКН был основан ВШЭ и Яндексом 10 лет назад. За это время он стал одним из ведущих проектов в подготовке речерчеров, специалистов по ML и ИИ уже 10 лет — выпускниками факультета стали 3 385 человек (я в том числе). В этом году на факультете откроется новая магистратура по ИИ в маркетинге и продукте. На магистерской программе «Современные компьютерные науки» появится направление по ИИ, которое будет готовить специалистов по генеративным технологиям.

Также обещают развивать междисциплинарные программы для гуманитариев. А в ближайшие десять лет планируют увеличить количество выпускников программ Яндекса в 4 раза.

https://habr.com/ru/news/803381/

Читать полностью…

Борис опять

#щитпостинг
Как заработать на Kaggle

Всем известно, что Kaggle это отличный способ помочь науке, прокачать свои навыки, повесить себе лычек в резюме, заработать на лохах. Последнее особенно интересно, так как лох не мамонт и продолжит тратить месяцы своей жизни за 0.01% вероятность выиграть 10к долларов.

Предлагаю рецепт темки.

Для начала вам нужно человек 15 профессиональных решал соревнований и сервер с несколькими A100 картами. Это большие capital expenses, но их можно относительно быстро окупить. К тому же начинать можно с малого, но срок окупаемости темки будет выше. Важно нанимать решал в стране с хорошими, дешевыми и отчаянными программистами, например в Индии.

Схема проста: выигрываем соревнования всеми правдами и неправдами, параллельно продаем дополнительные услуги.

Про выигрывание. Здесь все несложно: участвуем во всех соревнованиях одновременно, человека по 2-3 на каждое. Пока лох выделяет пять часов после работы в неделю ваши ребята фигачат фултайм. Так же применяем все грязные трюки, которые можем. В первую очередь геймим метрику. Ищем лики в данных, претрейн модели которые видели тест и все такое. Неплохо работает брать публичные ноутбуки и ансамблировать их, но только это не обеспечит победу, к сожалению универсального способа побеждать нет. Ваша экономика будет работать за счет постоянного потока соревнований, то есть матожидания денег, а не за счет единичных побед.

Никогда не делимся ничем с сообществом до победы. После победы обязательно выкладываем описание решения (стоит умолчать о паре важных деталей) и пишем научную статью. Программа максимум это выкладывать в публичный доступ некорректную, но правдоподобную, информацию, чтобы сбить лохов с толку. Ваш капитал золотого медалиста позволит делать это авторитетно.

Оплату решал стоит сделать процентом от выигрыша. Матожидание их денег будет небольшое, но их будет мотивировать возможность повесить себе лычку kaggle gold в линкдине, чтобы иметь шанс свалить от вас в США.

Дополнительные услуги. Важно участвовать в соревновании из под одного аккаунта, как будто участвует один человек. В команде остается четыре свободных места. Если вы близки к золоту то можете продать аж четыре билета на присоединение к вашей команде другим любителям золотых лычек. Выплата за такой апсейл может превзойти сам куш соревнования.

Задача еще проще если вы участвуете в соревнованиях вне Kaggle. Там обычно ниже порог входа для организаторов, а значит выше вероятность найти утечку или другой способ получить легкую победу.

В моменты просадок команду можно занять участием в хакатонах. Опять же порог ниже, но еще важнее то, что там часто есть трек "покажи самую убедительную презентацию". Вас понадобится только профессиональный пиздабол-питчер, дизайнер на фрилансе для мокапов, моушн дизайнер на фрилансе для демо видео, несколько шаблонов мобильных приложений. Программировать ничего не нужно, от вас требуется только имитация питча стартапа. Когда какой-то проект победил его можно перепродавать без изменений на других хакатонах, потому что жюри имеют память золотой рыбки и им в целом наплевать.

Получив достаточно лычек вы так можете использовать их для продажи своих консультационных услуг и сделать нормальный бизнес. Это позволит оставаться на плаву когда нет соревнований или идет череда неудач.

Такой усредненный рецепт

Читать полностью…

Борис опять

Видели deepfake видео с актерами разными в TikTok. Ну там Том Холланд или Киану Ривз.

Так вот компания Intel имеет технологию по детекции того, что видео зафейкано (если что не последнее слово техники). Так вот самое интересное это как они это делают.

FakeCatcher от Intel использует цифровую версию фотоплетизмографии (rPPG) для обнаружения кровотока.
Этот метод работает, обнаруживая изменения объема кровеносных сосудов, анализируя цветовые вариации в пикселях видео, соответствующих кровотоку по лицу.

В основе старые добрые конволюционные сетки (они хорошо подходят для этой задачи). То есть формально мы учим сетку понимать изменения кровотока на лице между дипфэйком и реальным видео.

Спасибо моему бывшему коллеге Артуру за наводку. И вот источник.

P.S. В последнем наборе в YC не одна компания занимается детекциией фэйков.

Читать полностью…

Борис опять

Настало время правильного ответа!

Но его не будет, потому что я его не знаю.

Однако в комментариях предложили много хороших версий. Мне самой вероятной кажется та, что изначально модель сходилась к локальному минимуму и для большого уменьшения лосса требовался маленький шаг, поэтому норма градиентов была небольшой. Подробнее от автора: /channel/boris_again/2373?comment=12903

Дело так и останется нераскрытым, так как у меня нет времени препарировать модель, ведь работает нормально. Но если бы я это изучал, то начал бы с логгирования норм градиентов по слоям.

Читать полностью…

Борис опять

Че там по моделям мира

Читать полностью…

Борис опять

Обычный чел по имени Питер

Читать полностью…

Борис опять

https://app.suno.ai/song/0a0ccd21-9465-4b61-bf23-6cad71a1ca0c/

Читать полностью…

Борис опять

Suno.ai 🤔

Весь вечер слушаю треки в Suno, и чот я прям несколько раз щупал себя, что я не сплю. Послушайте тренды — это же офигеть.

А я в своем стиле закину вам трек (feat. @ollmer):
https://app.suno.ai/song/a3106ba8-1cc8-45d2-8220-cfa9d0dcdfde

Читать полностью…

Борис опять

Его отправят в дурку потому что использует TSNE вместо UMAP

Читать полностью…

Борис опять

Знаю, что в канале сидят не только машинлернеры, но и люди связанные с инфраструктурой и облаками.

Yandex Cloud запустила программу сертификации по облачным сервисам Yandex Cloud Certified Engineer Associate.

В целом давно пора. Сертификация навыков специалистов – это признак взросления сферы.

По своей сути это экзамен в виде теста из 65 заданий с выбором одного из нескольких ответов. Для прохождения нужно набрать 70% и более правильных ответов.

Перечень тем включает в себя вещи в которых я не ничего не понимаю вопросы из шести областей: базовые облачные технологии, хранение и анализ данных, DevOps и автоматизация, бессерверные технологии, безопасность, облачный биллинг.

Прохождение экзамена платное, стоит 7000 рублей за попытку. Первым участникам предлагают скидку в 50%.

Первый экзамен пройдет 11 апреля. Записаться на тест можно по ссылке.

Читать полностью…

Борис опять

https://slatestarcodex.com/2015/11/03/what-developmental-milestones-are-you-missing/

Абсолютный мастрид, при этом чтения на пару минут

Читать полностью…

Борис опять

Полицейский разворот - это унылый и скучный манёвр.

Зацените нейронный разворот от Sora

Читать полностью…

Борис опять

https://frankzliu.com/blog/vision-transformers-are-overrated

Tldr: resnet50 может быть так хорош как ConvNext и ViT на Imagenet 21k если его правильно учить

Читать полностью…

Борис опять

Pro-tip: если компания предоставляет четыре недели декретного отпуска при рождении ребенка значит вы можете сделать двенадцать детей и отдыхать целый год

Мне только что подтвердили это в одной компании, инфа 100%

(сори я маловато спал)

Читать полностью…

Борис опять

Мои друзья из @hrlunapark набирают людей в AI компании первого эшелона: Perplexity, Databricks, Cohere, METR и другие. Позиции часто с вилками сильно выше рынка. Так же они очень душевные ребята и заботятся об AI safety. Периодчески буду закидывать сюда вакансии, которые могут быть вам релевантны, и надеюсь кто-то из моих подписчиков попадет в топовый AI стартап.

Читать полностью…

Борис опять

Еще один лайфхак. Если конец соревнования близок, а хорошего решения нет, то можно использовать такой рецепт:
1. Предлагаем человеку с самым хорошим решением объединить команды и ансамблировать решения. Если вы уже золотой медалист это будет выглядеть привлекательно. В крайнем случае можно заплатить за место, возможно даже попадем в конкурента.
2. Заходим к нему в команду
3. Сохраняем решение
4. Выходим из команды
5. Ансамблируем его решение со своим
6. Продаем места в своей команде, заработав на разнице

Ладно, это шутка, так сделать нельзя. Kaggle защищает от такого поведения!

Однако можно сделать иначе:
1. Заходим в команду
2. Сохраняем решение
3. Больше не заходим в этот аккаунт
4. Присоединяемся к соревнованию со второго аккаунта
5. Ансамблируем решение со своим, продаем места и далее по плану

Читать полностью…

Борис опять

https://openasteroidimpact.org

Потрясающе

Читать полностью…

Борис опять

В этот четверг, 20:00 по Москве, буду вести открытый урок курса ОТУС Computer Vision про foundational models. Будет обзор с примерами, приходите

Читать полностью…

Борис опять

HIDDEN STATES HIDDEN STATES 🤟🤟🤟

https://app.suno.ai/song/f32061d4-c4c0-495d-b82f-0e742a9c2765/

Украл у /channel/simple_it_channel

Читать полностью…

Борис опять

Загадка для подписчиков.

Seq2Seq трансформер не очень большого размера файнтюнится на небольшом датасете. Оптимайзер AdamW, LR scheduler просто линейное снижение начиная с 2e-05. Батч сайз 40. Все настройки обучения это стандартные Seq2SeqTrainingArguments из Huggingface.

Норма градиента снижается, но на шаге 2000 вырастает с 0.6 до 0.88 и далее остается на этом уровне. Лосс на этом шаге и далее уменьшается как раньше. Метрики качества на валидации на этом шаге и после тоже никак не отличаются в своем поведении.

Что случилось и что это говорит об обучении модели?

Читать полностью…

Борис опять

Who would win?
1. Всемирно известная команда аналитиков, основанная очень успешным инвестором, использующая инновационные методы Байесовского вероятностного моделирования с опытом раскрытия сложнейших преступлений.
2. Ноунейм студент физик с дотошностью уровня мега-аутизм.

Вы не задавали себе этот вопрос, но получите ответ. Для меня это было лучшее чтиво за месяц.

В левом углу ринга Rootclaim, в правом неизвестный Peter Walker.

Rootclaim публикует невероятно детальные разборы и прогнозы о сложнейших вопросах в нашем мире. Они серьезно относятся к точности своих предсказаний, поэтому предлагают $100 000 тому, кто опровергнет их исследование и будет более прав. Если ответ можно получить достоверно (например, умрет ли ВВП от рака) то стороны заключают пари и ждут результата. Во всех остальных случаях собирается панель экспертов, стороны проводят дебаты, эксперты определяют победителя.

Питер? Вот его регалии:


Physics student, programmer, and mountaineer


Вопрос на повестке: был COVID-19 мутацией возникшей на рынке в Ухане или результатом лабораторной утечки? Это странный вопрос, так как эксперты по нему сначала однозначно были за первую версию и обзывали всех сомневающихся конспирологами, затем сменили консенсус на утечку, а затем снова сменили консенсус на естественное происхождение. Вопрос сам по себе очень сложный, но в добавок он стал ещё и невероятно политизированным.

Rootclaim утверждает, что COVID-19 это результат утечки. Это увидел неизвестный Питер и решил поставить почти все свои деньги на то, что сможет доказать обратное. Собрали панель экспертов и провели дебаты.

Результат? Питер абсолютно уничтожил Rootclaim. Он не только привел более хорошие аргументы, подкрепленные доказательствами и хорошими вероятностными оценками, но и дебатировал гораздо лучше. У парня была презентация на 10 слайдов на любое возражение оппонента.

Я прочитал транскрипт дебатов и был однозначно убежден в его правоте. Как бы я не любил Байесовскую рациональность, Питер ей не пользовался (хотя много пользовался оценками вероятностей) и выиграл в сухую. 😎

Я не скажу, что ответ очевиден. Гиппотеза утечки всё ещё остается правдоподобной и возможно мы увидим новый разворот консенсуса. Однако при текущей информации анализ Питера кратно сильнее.

Весь транскрипт, обогащенный необходимым контекстом, а так же анализ того, что всё это говорит про Байесовское моделирование, прогнозирование и общественные дискуссии в целом, читайте здесь:
https://www.astralcodexten.com/p/practically-a-book-review-rootclaim

Читать полностью…

Борис опять

Лучший хит пока что

https://app.suno.ai/song/5b206a38-eea1-4d5b-9a60-7b4b1f2da17f

Читать полностью…

Борис опять

Turns out SOMEBODY has to wrangle atoms in the real biological world

💀

Читать полностью…
Subscribe to a channel