life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin
uv — очень быстрый pip на стероидах с большими абмициями
Пост будет особенно полезным, если раньше не сталкивались с pip-tools. В конце есть пример испольвания.
uv — это новый и полезный уже сейчас инструмент от компании Astral, которая раньше сделала Ruff. Долгосрочная цель авторов очень амбициозная -- сделать uv единым инструментом для работы с Python и заменить все отдельные инструменты: pip, pyenv, virtualenv, pip-tools, ruff, tox, pipx, и т.д. В итоге любой инженер, аналитик, исследователь или студент сможет легко и единообразно устанавливать Python окружения и разрабатывать Python проекты.
В своей первой итерации uv — это в ~2x-100x раз более быстрая замена трём инструментам:
(1) pip. То есть uv очень быстро устанавливает Python пакеты, что особенно актуально для сложных окружений и особенно когда они устанавливаются регулярно (например, в Continuous Integration). Но и в быту при установке условного Jupyter ускорение в 5-10 раз ощущается очень приятно.
(2) pip-tools. Напомню, что в проектах важно фиксировать не только прямые зависимости (скажем, Django==5.0.3), но и непрямые (те пакеты, которые Django приносит с собой). Это нужно, чтобы у всех пользователей и на всех машинах было идентичное окружение. pip-tools помогает решить ровно эту задачу: он автоматически генерирует и поддерживает в актуальном состоянии ваш requirements.txt файл с полным списком зависимостей. А uv делает то же самое, но гораздо быстрее.
(3) venv & virtualenv. На фоне предыдущих пунктов создание виртуальной среды это скорее мелочь, но даже эту мелочь uv делает ощутимо быстрее :)
Я использовал uv пару раз для простых личных сценариев. Софт свежий, и чтобы понять, подходит ли он вам, можно посмотреть текущие ограничения и баги. По моему опыту и инфополю думаю, что установка обычных пакетов на linux/macos машины уже нормально работает.
---------
После установки uv можно скопировать и запустить примеры ниже в таком же порядке (проверено на v0.1.24).
Создать и активировать среду:
mkdir hello-world && cd hello-world
uv venv
source .venv/bin/activate
uv pip install pandas
echo '[project]
name = "hello-world"
dependencies = ["scikit-learn==1.4.1.post1", "Django==5.0.3"]
' > pyproject.toml
uv pip compile pyproject.toml -o requirements.txt
uv pip sync requirements.txt
https://www.reddit.com/r/slatestarcodex/comments/1bzkr8g/increasing_lifespan_in_mice_summary_of/
Для желающих жить вечно.
Бекграунд: фактически все известные способы продлить жизнь тестируются на мышах, а не на людях.
Оказалось, что большая часть интервенций, которые показывали хорошие результаты на мышах, не работают. Они продлевают жизнь, если мышам оставалось жить недолго. Но для здоровых мышей эффект пропадает.
Вроде как единственная интервенция, которая все ещё работает (на мышах, на людях неизвестно), это rapamycin.
https://www.youtube.com/watch?v=9_W2NhOuzrs
На днях проводил открытый урок по foundational моделям в computer vision. Это (достаточно краткий) обзор про CLIP, GLIP, DINO(v2), GroundingDINO и конечно же Segment Anything.
В этот раз даже не два с половиной часа, как в прошлый, а положенные полтора.
https://www.theintrinsicperspective.com/p/the-end-of-online-history
Читать полностью…https://twitter.com/VictorTaelin/status/1776677635491344744
Читать полностью…tl;dr: gloomy search engine developer, $150k-250k/year + options, UK
Вчера наши читатели в комментариях были обеспокоены инфляцией эпитетов в наших постах. Мол, какие-то вы восторженные уж слишком, всё у вас сплошь крутое, топовое и сильнейшее, а меж тем кандидаты — это усталые серьёзные люди.
Мы прислушиваемся. Сегодня вакансия для усталых и серьёзных поисковых инженеров в Perplexity.ai — это те, которые делают очередной бесполезный conversational search для людей, которые не умеют гуглить.
У них как раз на днях стукнул год с момента первого релиза. Поздравляем. Вы официально больше не "молодой и перспективный стартап".
Недавно они, кстати, подняли раунд с оценкой в $500M. Могли бы и побольше, если бы постарались как следует.
Сейчас Perplexity расширяются, чтобы наконец-то стать полноценной унылой галерой, и хотят нанять серьёзного неулыбчивого бекэнд разработчика, который разбирается в индексировании и web search. Нужно четко понимать все этапы поиска от скрэппинга и кроулинга до индексации и ранжирования. Опыт в командах поиска или рядом с ним — обязательный критерий.
Перевозят в Лондон — там грязно и дорого. И душно еще в метро. Платят $150k-250k в год + опционы, что для UK, как известно, копейки.
За прочими серьёзными подробностями пишите @alinashorokhova. Или перешлите эту вакансию коллеге, который вас достал, чтоб он наконец-то уехал подальше.
Родной ФКН ВШЭ и Яндекс расширяют сотрудничество по направлениям DS/ML/AI. Мои впечатления на ФКН были исключительно положительные, всем рекомендую. Вышка это не только (и не столько) курсы с хорошим материалом, а ещё и потрясающая среда для развития и фана.
ФКН был основан ВШЭ и Яндексом 10 лет назад. За это время он стал одним из ведущих проектов в подготовке речерчеров, специалистов по ML и ИИ уже 10 лет — выпускниками факультета стали 3 385 человек (я в том числе). В этом году на факультете откроется новая магистратура по ИИ в маркетинге и продукте. На магистерской программе «Современные компьютерные науки» появится направление по ИИ, которое будет готовить специалистов по генеративным технологиям.
Также обещают развивать междисциплинарные программы для гуманитариев. А в ближайшие десять лет планируют увеличить количество выпускников программ Яндекса в 4 раза.
https://habr.com/ru/news/803381/
#щитпостинг
Как заработать на Kaggle
Всем известно, что Kaggle это отличный способ помочь науке, прокачать свои навыки, повесить себе лычек в резюме, заработать на лохах. Последнее особенно интересно, так как лох не мамонт и продолжит тратить месяцы своей жизни за 0.01% вероятность выиграть 10к долларов.
Предлагаю рецепт темки.
Для начала вам нужно человек 15 профессиональных решал соревнований и сервер с несколькими A100 картами. Это большие capital expenses, но их можно относительно быстро окупить. К тому же начинать можно с малого, но срок окупаемости темки будет выше. Важно нанимать решал в стране с хорошими, дешевыми и отчаянными программистами, например в Индии.
Схема проста: выигрываем соревнования всеми правдами и неправдами, параллельно продаем дополнительные услуги.
Про выигрывание. Здесь все несложно: участвуем во всех соревнованиях одновременно, человека по 2-3 на каждое. Пока лох выделяет пять часов после работы в неделю ваши ребята фигачат фултайм. Так же применяем все грязные трюки, которые можем. В первую очередь геймим метрику. Ищем лики в данных, претрейн модели которые видели тест и все такое. Неплохо работает брать публичные ноутбуки и ансамблировать их, но только это не обеспечит победу, к сожалению универсального способа побеждать нет. Ваша экономика будет работать за счет постоянного потока соревнований, то есть матожидания денег, а не за счет единичных побед.
Никогда не делимся ничем с сообществом до победы. После победы обязательно выкладываем описание решения (стоит умолчать о паре важных деталей) и пишем научную статью. Программа максимум это выкладывать в публичный доступ некорректную, но правдоподобную, информацию, чтобы сбить лохов с толку. Ваш капитал золотого медалиста позволит делать это авторитетно.
Оплату решал стоит сделать процентом от выигрыша. Матожидание их денег будет небольшое, но их будет мотивировать возможность повесить себе лычку kaggle gold в линкдине, чтобы иметь шанс свалить от вас в США.
Дополнительные услуги. Важно участвовать в соревновании из под одного аккаунта, как будто участвует один человек. В команде остается четыре свободных места. Если вы близки к золоту то можете продать аж четыре билета на присоединение к вашей команде другим любителям золотых лычек. Выплата за такой апсейл может превзойти сам куш соревнования.
Задача еще проще если вы участвуете в соревнованиях вне Kaggle. Там обычно ниже порог входа для организаторов, а значит выше вероятность найти утечку или другой способ получить легкую победу.
В моменты просадок команду можно занять участием в хакатонах. Опять же порог ниже, но еще важнее то, что там часто есть трек "покажи самую убедительную презентацию". Вас понадобится только профессиональный пиздабол-питчер, дизайнер на фрилансе для мокапов, моушн дизайнер на фрилансе для демо видео, несколько шаблонов мобильных приложений. Программировать ничего не нужно, от вас требуется только имитация питча стартапа. Когда какой-то проект победил его можно перепродавать без изменений на других хакатонах, потому что жюри имеют память золотой рыбки и им в целом наплевать.
Получив достаточно лычек вы так можете использовать их для продажи своих консультационных услуг и сделать нормальный бизнес. Это позволит оставаться на плаву когда нет соревнований или идет череда неудач.
Такой усредненный рецепт
Видели deepfake видео с актерами разными в TikTok. Ну там Том Холланд или Киану Ривз.
Так вот компания Intel имеет технологию по детекции того, что видео зафейкано (если что не последнее слово техники). Так вот самое интересное это как они это делают.
FakeCatcher от Intel использует цифровую версию фотоплетизмографии (rPPG) для обнаружения кровотока.
Этот метод работает, обнаруживая изменения объема кровеносных сосудов, анализируя цветовые вариации в пикселях видео, соответствующих кровотоку по лицу.
В основе старые добрые конволюционные сетки (они хорошо подходят для этой задачи). То есть формально мы учим сетку понимать изменения кровотока на лице между дипфэйком и реальным видео.
Спасибо моему бывшему коллеге Артуру за наводку. И вот источник.
P.S. В последнем наборе в YC не одна компания занимается детекциией фэйков.
Настало время правильного ответа!
Но его не будет, потому что я его не знаю.
Однако в комментариях предложили много хороших версий. Мне самой вероятной кажется та, что изначально модель сходилась к локальному минимуму и для большого уменьшения лосса требовался маленький шаг, поэтому норма градиентов была небольшой. Подробнее от автора: /channel/boris_again/2373?comment=12903
Дело так и останется нераскрытым, так как у меня нет времени препарировать модель, ведь работает нормально. Но если бы я это изучал, то начал бы с логгирования норм градиентов по слоям.
https://app.suno.ai/song/0a0ccd21-9465-4b61-bf23-6cad71a1ca0c/
Читать полностью…Suno.ai 🤔
Весь вечер слушаю треки в Suno, и чот я прям несколько раз щупал себя, что я не сплю. Послушайте тренды — это же офигеть.
А я в своем стиле закину вам трек (feat. @ollmer):
https://app.suno.ai/song/a3106ba8-1cc8-45d2-8220-cfa9d0dcdfde
Его отправят в дурку потому что использует TSNE вместо UMAP
Читать полностью…Знаю, что в канале сидят не только машинлернеры, но и люди связанные с инфраструктурой и облаками.
Yandex Cloud запустила программу сертификации по облачным сервисам Yandex Cloud Certified Engineer Associate.
В целом давно пора. Сертификация навыков специалистов – это признак взросления сферы.
По своей сути это экзамен в виде теста из 65 заданий с выбором одного из нескольких ответов. Для прохождения нужно набрать 70% и более правильных ответов.
Перечень тем включает в себя вещи в которых я не ничего не понимаю вопросы из шести областей: базовые облачные технологии, хранение и анализ данных, DevOps и автоматизация, бессерверные технологии, безопасность, облачный биллинг.
Прохождение экзамена платное, стоит 7000 рублей за попытку. Первым участникам предлагают скидку в 50%.
Первый экзамен пройдет 11 апреля. Записаться на тест можно по ссылке.
https://slatestarcodex.com/2015/11/03/what-developmental-milestones-are-you-missing/
Абсолютный мастрид, при этом чтения на пару минут
Полицейский разворот - это унылый и скучный манёвр.
Зацените нейронный разворот от Sora
https://frankzliu.com/blog/vision-transformers-are-overrated
Tldr: resnet50 может быть так хорош как ConvNext и ViT на Imagenet 21k если его правильно учить
Pro-tip: если компания предоставляет четыре недели декретного отпуска при рождении ребенка значит вы можете сделать двенадцать детей и отдыхать целый год
Мне только что подтвердили это в одной компании, инфа 100%
(сори я маловато спал)
Мои друзья из @hrlunapark набирают людей в AI компании первого эшелона: Perplexity, Databricks, Cohere, METR и другие. Позиции часто с вилками сильно выше рынка. Так же они очень душевные ребята и заботятся об AI safety. Периодчески буду закидывать сюда вакансии, которые могут быть вам релевантны, и надеюсь кто-то из моих подписчиков попадет в топовый AI стартап.
Читать полностью…Еще один лайфхак. Если конец соревнования близок, а хорошего решения нет, то можно использовать такой рецепт:
1. Предлагаем человеку с самым хорошим решением объединить команды и ансамблировать решения. Если вы уже золотой медалист это будет выглядеть привлекательно. В крайнем случае можно заплатить за место, возможно даже попадем в конкурента.
2. Заходим к нему в команду
3. Сохраняем решение
4. Выходим из команды
5. Ансамблируем его решение со своим
6. Продаем места в своей команде, заработав на разнице
Ладно, это шутка, так сделать нельзя. Kaggle защищает от такого поведения!
Однако можно сделать иначе:
1. Заходим в команду
2. Сохраняем решение
3. Больше не заходим в этот аккаунт
4. Присоединяемся к соревнованию со второго аккаунта
5. Ансамблируем решение со своим, продаем места и далее по плану
В этот четверг, 20:00 по Москве, буду вести открытый урок курса ОТУС Computer Vision про foundational models. Будет обзор с примерами, приходите
Читать полностью…HIDDEN STATES HIDDEN STATES 🤟🤟🤟
https://app.suno.ai/song/f32061d4-c4c0-495d-b82f-0e742a9c2765/
Украл у /channel/simple_it_channel
Загадка для подписчиков.
Seq2Seq трансформер не очень большого размера файнтюнится на небольшом датасете. Оптимайзер AdamW, LR scheduler просто линейное снижение начиная с 2e-05. Батч сайз 40. Все настройки обучения это стандартные Seq2SeqTrainingArguments из Huggingface.
Норма градиента снижается, но на шаге 2000 вырастает с 0.6 до 0.88 и далее остается на этом уровне. Лосс на этом шаге и далее уменьшается как раньше. Метрики качества на валидации на этом шаге и после тоже никак не отличаются в своем поведении.
Что случилось и что это говорит об обучении модели?
Who would win?
1. Всемирно известная команда аналитиков, основанная очень успешным инвестором, использующая инновационные методы Байесовского вероятностного моделирования с опытом раскрытия сложнейших преступлений.
2. Ноунейм студент физик с дотошностью уровня мега-аутизм.
Вы не задавали себе этот вопрос, но получите ответ. Для меня это было лучшее чтиво за месяц.
В левом углу ринга Rootclaim, в правом неизвестный Peter Walker.
Rootclaim публикует невероятно детальные разборы и прогнозы о сложнейших вопросах в нашем мире. Они серьезно относятся к точности своих предсказаний, поэтому предлагают $100 000 тому, кто опровергнет их исследование и будет более прав. Если ответ можно получить достоверно (например, умрет ли ВВП от рака) то стороны заключают пари и ждут результата. Во всех остальных случаях собирается панель экспертов, стороны проводят дебаты, эксперты определяют победителя.
Питер? Вот его регалии:
Physics student, programmer, and mountaineer
Лучший хит пока что
https://app.suno.ai/song/5b206a38-eea1-4d5b-9a60-7b4b1f2da17f
Turns out SOMEBODY has to wrangle atoms in the real biological world
💀