boris_again | Unsorted

Telegram-канал boris_again - Борис опять

12936

life = curiosity + irreducible noise Whois: https://t.me/boris_again/1652 Лс: @btseytlin

Subscribe to a channel

Борис опять

Сегодня последний день регистрации на международные соревнования по ИИ от ФСП для студентов и школьников.

Я немного помогал готовить задачи по Computer Vision, NLP и ML, так что гарантирую, что там интересно.

➡️ Приглашаются студенты и школьники от 15 лет.

➡️ Регистрация закрывается сегодня в полночь.

➡️ Соревнования пройдут 7-8 декабря в онлайн формате.

➡️ Возрастные группы:
⚪️15-18 лет (команда из 2 человек)
⚪️16+ лет (команда 2-4 человека)

➡️ Что ждет участников?

⚪️ Kaggle-style, Docker-based соревнование с приватным тестовым датасетом и shuffle этапом.
⚪️ Нестандартные задачи: на стыке ML/NLP для всех возрастов и задача по CV только для 16+.

➡️ Призы:
⚪️ 70 тыс. руб в категории 15-18 лет
⚪️ 130 тыс. руб. в категории 16+

Регистрация открыта на сайте, присоединяйтесь и предлагайте знакомым подрастающим ML инженерам!

Читать полностью…

Борис опять

https://github.com/google/langfun

Глазам не верится, но выглядит как действительно нормальная либа а-ля лангчейн

Читать полностью…

Борис опять

Эмодзи в статьях? Эмодзи в статьях.

Читать полностью…

Борис опять

Мне тут показали, что реклама в моем канале теперь так выглядит :(

Паша, ты должен был бороться со злом, а не вот это вот всё!

Абсолютно ужасно, особенно учитывая, что я никак не могу это контроллировать. Я бы заплатил, чтобы у меня в канале такого не было.

В общем платите за телеграм премиум, за неимением лучших вариантов продвигайте подписочные модели монетизации вместо рекламных 🤪

И ставьте себе адблоки, Blockada на телефоны, вот это всё. Как минимум будете видеть меньше такого, хоть это и не поможет внутри телеграма.

Читать полностью…

Борис опять

Там Таня из DLS выложила клевый лонгрид:
https://atmyre.github.io/blog/2024/ind_bias/

Читать полностью…

Борис опять

https://www.theintrinsicperspective.com/p/i-said-no-to-20000-because-writers

Читать полностью…

Борис опять

Вообще вы можете помочь мне с книгой.

Я пишу главу про вероятности и классификаторы.

Нужен датасет:
- Учебный
- Не скучный и не тривиальный
- Прикольный
- С понятными фичами
- Не заезженный (никакого Титаника)
- Бинарная классификация
- Желательно дисбаланс классов
- Способность оценивать вероятность события и работать с неопределенностью должна быть важна, а не просто "хотелось бы f1 повыше"
- Желательно не "бизнесовый" и не душный
- Для классического мл, но может быть и nlp если tfidf способен норм справиться

Я сузил выбор до таких вариантов:
- Fraud: https://www.kaggle.com/datasets/arpan129/insurance-fraud-detection/data
- Suicide/Depression: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- Stellar classification: https://www.kaggle.com/datasets/fedesoriano/stellar-classification-dataset-sdss17

Фрод идеально подходит для демонстрации работы с неопределенностью (если хреново предсказываем вероятности то не зарабатываем деньги). Но он бизнесовый и скучный. Остальные прикольные, но менее практичные и как будто там вероятности не так важны.

В итоге я в тупике. Канал, помогай! 😇😇😇❤️

Читать полностью…

Борис опять

Время крутых возможностей спасать мир от моего друга Васи! Лично ручаюсь. Даю ему слово:

🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ

Мы — сообщество Unitaware. Ищем амбициозных и талантливых людей в области ML/AI для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)

💼 Что вас ждет?

• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.

👤 Кого мы ищем?

• Отличный английский и опыт в ML/DL (публикации, стажировки, проекты).
• Программирование на уровне ведущей техкомпании.
• Достижения: олимпиады или учеба на топовых кафедрах.
• Интерес к снижению рисков от продвинутых AI-систем.

Срок подачи: до 31 декабря (лучше до первой недели декабря).

Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, это максимизирует шансы при прочих равных. За рекомендацию подходящего кандидата также предусмотрено вознаграждение

Читать полностью…

Борис опять

https://www.astralcodexten.com/p/how-did-you-do-on-the-ai-art-turing

Читать полностью…

Борис опять

6 декабря в Москве и онлайн пройдёт конференция Conversations по разговорному и генеративному AI для бизнеса и разработчиков.

Вот что будет:
- Доклады про кейсы применения LLM, бенчмарки языковых моделей, голосовые технологии, RAG и многое другое. Подробности есть в статье на Хабре и сайте конференции.
- Дискуссии в бизнес- и технотреке.
- Выставка AI-решений.
- Нетворкинг.

Меня лично зацепили эти доклады:
- "LLM в действии: как с помощью чат-бота автоматизировать SQL-запросы и получать актуальную аналитику за минуты, а не дни" от команды Samokat (теперь Ecom Tech).
- "Много тонкостей, мало данных. Как построить RAG для документации по сложным продуктам, когда их больше 50" от команды Cloud Ru.
- "Масштабирование LLM приложений на миллионы клиентов" от команды Т-Банка.


Билеты можно купить здесь.

Организаторы сделали промокод на скидку 10% для подписчиков канала: CNVS24oRb.

Читать полностью…

Борис опять

🤪

Читать полностью…

Борис опять

⚡️В сеть слили новую лестницу грейдов в Сбере

Читать полностью…

Борис опять

Сегодня у меня для вас новое соревнование.

Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций на основе полусинтетических данных.

Старт: 5 ноября, но зарегистрироваться еще можно
Призовой фонд: 600 000 рублей.

Участвовать можно индивидуально или в команде до 4 человек. Метрика: ROC-AUC.

Подробности по ссылке.

Читать полностью…

Борис опять

Раньше я предлагал вам пройти опрос про рынок ML от DevCrowd. Появились результаты!

https://devcrowd.ru/ds24/

На скриншоте раскрыт секрет быстрого развития AI индустрии

Читать полностью…

Борис опять

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Читать полностью…

Борис опять

Особенно меня порадовал момент, когда в первом туториале они говорят, что элайнмент это очень важно, но наша либа позволяет его сломать, смотрите как

Читать полностью…

Борис опять

Nebius такой типа "мы Европейская компания и нам можно доверить инвестиции"

Если серьёзно то поздравляем ребят

Читать полностью…

Борис опять

# Искусство ходить по прямой

Как по мне можнэество вопросов успеха (успешного), достижений и агентности в целом упираются в способность пройти по прямой.

По крайней мере лично мне не сложно понять, что нужно делать. Кажется, что у меня все хорошо с планированием. Но моя проблема всегда на следующем этапе: сделать. И тут я не могу похвастаться особыми успехами.

Пройти по прямой из точки А в точку Б, то есть взять и сделать то, что ты хочешь сделать, это настоящее искусство. Не сделать вид, что делаешь. Не убедить себя, что ты делаешь. Не сделать все, что мог. Не приложить героические усилия, чтобы сделать. Не выяснить почему не получается сделать. Не научиться делать. Словом, не бродить вокруг, а пройти по прямой. Взять и сделать.

Способность к самосаботажу поразительная штука. Последнее серьезное упражнение в борьбе с этим было когда я на энтузиазме писал статью про прогнозирование ковида. Это была важная для меня тема, ведь я правда думал, что есть мизерный шанс повлиять на принимаемые решения и спасти людей. Но в первую очередь это было личное испытание. Могу ли я сделать что-то сложное, чего от меня никто не ожидает, просто потому, что я так решил? Объективно в той работе не было ничего катастрофически сложного. Проект на три месяца это не самое трудное, что может случиться с человеком. И все же я пронаблюдал весь зоопарк попыток моего разума саботировать работу. Думаю я чаще хотел бросить, чем нет. И это было забавно, потому что рационально я видел только плюсы в том, чтобы этим заниматься, а иррационально все казалось бессмысленным. Один из тех случаев когда чуйка твой враг и вредитель. Я довел то дело до конца и это один из предметов личной гордости.

С книгой я снова в той же ситуации, но сложность выше. Проект на год, гораздо сложнее, есть дедлайн и ответственность, нужно параллельно работать. И снова я вижу одни плюсы в том, чтобы этим заниматься. И снова я отлично знаю, что делать. Все очень просто. Пиши каждый день. В целом книга не многим сложнее чем те эссе на 10 тысяч слов, которые я писал на Сабстек просто для удовольствия.

Я снова вижу путь из точки А в точку Б. И снова мне трудно пройти по этой прямой. Очень быстро я превратил книгу из того, что я делаю для себя, в работу за которую я себя ругаю. И вот я сижу за столом и разговариваю с двусторонней плюшевой осьминожкой в её злом положении, персонифицируя в ней своего внутреннего критика и объясняя ему как пройти далеко и надолго. Напоминаю себе, что книга это классное занятие, которым можно заняться если захочется. Что я буду ценен независимо от того, буду я писать книгу или нет. Словом, убеждаю себя, что не обязательно писать книгу, чтобы стало легче писать книгу. Не самый прямой путь. Хоть и самый рабочий на данный момент.

Вероятно это происходит из-за того, что разные части меня не могут договориться куда надо идти. Думающая часть ясно видит, что надо писать книгу. Что мне хорошо когда я это делаю и что это принесет плоды в будущем. Какая-то другая часть думает, например, что лучше не пытаться, чтобы не разочароваться. И вот мы боремся. Так что если уж я не могу просто идти по прямой, то стараюсь хотя бы в среднем двигаться в нужную сторону.

Я думаю способность ходить по прямой это определяющий фактор. Хороший предиктор успеха в любом деле. Он немного менее важен чем знать куда идти, так как уверенно идти не в ту сторону может быть даже хуже. Но без него дела не делаются. Книга это очередное упражнение в этой способности. Хочется верить, что с каждым таким испытанием открываются возможности делать все более сложные вещи.

Читать полностью…

Борис опять

Сегодня 1 декабря - день математика, поздравляю всех, кто относит себя к математикам :)

Официально такой профессиональный праздник в России закрепили в этом году. Дата выбрана в честь дня рождения Николая Ивановича Лобачевского, создателя неевклидовой геометрии.

Математический институт им. Стеклова подготовил инфографику со сравнением геометрий.

Читать полностью…

Борис опять

https://www.reddit.com/r/LocalLLaMA/comments/1gx5kb0/claude_computer_use_wanted_to_chat_with_locally/?share_id=Dhgr4haHfvD7IvZmH_KBW&utm_content=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1

2024: смотришь как ллмки секстятся

Читать полностью…

Борис опять

Yandex Cloud запустил AI Assistant API. Это набор инструментов для создания помощников на базе YandexGPT. В отличие от простого вызова генерации LLM этот API из коробки дает возможность хранить историю переписок и делать поиск по базе знаний с помощью RAG.

Причем базу знаний можно сделать довольно масштабной: до 1000 файлов, каждый до 128мб и до 100 поисковых индексов.

Новый сервис закрывает базовый юзкейс диалогового помощника без необходимости заниматься инфраструктурой, писать свои велосипеды или использовать, не приведи Господь, Langchain.

Читать полностью…

Борис опять

Ищу датасет классификации для про вероятности с прицелом на какие-то прикольные учебные датасеты.

В итоге хочу поделиться списком. Будет полезно для тех, кто делает курсы по ML!

- Fake News
- https://www.kaggle.com/datasets/aadyasingh55/fake-news-classification/
- https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset
- Spam emails https://www.kaggle.com/datasets/ashfakyeafi/spam-email-classification
- Tiktok claims https://www.kaggle.com/datasets/raminhuseyn/dataset-from-tiktok
- Экзопланеты: https://www.kaggle.com/datasets/keplersmachines/kepler-labelled-time-series-data?select=exoTrain.csv
- Credit card fraud: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
- Depression detection: https://github.com/rafalposwiata/depression-detection-lt-edi-2022/tree/main
- Soccer database: https://www.kaggle.com/datasets/hugomathien/soccer
- Suicide/Depression: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- Insurance Fraud:
- https://www.kaggle.com/datasets/ravalsmit/fraudulent-claims-detection-dataset?select=fraudulent_claim.csv
- https://www.kaggle.com/datasets/arpan129/insurance-fraud-detection/data
- Stellar classification: https://www.kaggle.com/datasets/fedesoriano/stellar-classification-dataset-sdss17
- Divorce: https://www.kaggle.com/datasets/andrewmvd/divorce-prediction

Не по классификации, но я считаю надо выделить:
- https://www.kaggle.com/datasets/vipullrathod/fish-market
Предсказание веса рыбы! AI для продажи рыбы на рынке. Разве это не прекрасно? Кроме шуток редко встречаются датасеты где признаки связаны с лейблом по понятным физическим законам. А жаль, ведь это помогает показать как ML аппроксимирует зависимость из реального мира. Обычно для таких примеров я беру вес и рост людей, но это уже заезженно. Вес рыбы намного прикольнее.

Читать полностью…

Борис опять

Это не оверинжениринг если:
1. Тебе было весело
2. PM не заметил

Читать полностью…

Борис опять

https://www.lesswrong.com/posts/pNkjHuQGDetRZypmA/it-s-a-10-chance-which-i-did-10-times-so-it-should-be-100

Прикольно про связь вероятностей и числа e

Читать полностью…

Борис опять

https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman

Читать полностью…

Борис опять

Reinforcement Learning дома 😩

Читать полностью…

Борис опять

🚀 TabM: новая DL архитектура для табличных данных

Новая большая статья по tabular DL при моем участии! Ссылки в конце поста.

Для практиков, TabM — это новый ответ на вечный вопрос: “Какую современную табличную архитектуру попробовать?”. На этот раз SOTA на бенчмарках простая, практичная и машстабируется на миллионы объектов.

Для области, TabM — это история о том, как сделать лучше, проще и дешевле одновременно. И как показать это на красивых информативных графиках 💅

Для любителей ML, TabM — это удобная точка входа в область: мы замерили и task performance, и training times, и inference throughput у многих моделей. Думаю, вводные части тоже будут интересными!

Для всех читателей: для быстрого обзора статьи, вы можете посмотреть всего три части:

📜 Abstract — TL;DR
🖼️ Figure 1 — модель
📈 Page 7 — результаты

В одном предложении: TabM is a simple and powerful tabular DL architecture that efficiently imitates an ensemble of MLPs.

Ссылки:

- arXiv
- GitHub (есть end-to-end пример и реализация в одном файле, но пока без пакета)
- Twitter (see the pinned post)
- Reddit (Ctrl+F “TabM”)

Читать полностью…

Борис опять

Шикарная ситуация: авторы стебанулись над рецензентами, которые заставляли их что-то ненужное (но может быть зато свое, родное) цитировать, и прямо написали об этом в тексте статьи.

Редактор все это дело пустил «в работу» и вот, статья, с таким красивым абзацем в конце введения, уже в печати 🥳

Одним словом авторы - капитальные красавчики. Другими словами - титановые шары у этих авторов 😁

Причем журнал вполне приличный (IF 8.1). Кризис научных журналов продолжается, в общем. Кстати, в том же MDPI, к рекомендациям типа «милок, ты вот эту пачку статей еще процитируй и все будет норм», относятя более чем строго. Своего вообще ничего нельзя советовать, а насчет чужих работ тоже еще десят раз уточнят, точно ли это нужно.

PS. Ссылка на саму статью авторов c Balls of Steel из Поднебесной тут.

Читать полностью…

Борис опять

Мир удивительно тесен, особенно наш ML/AI пузырь. Сейчас будет еще одна рекомендация.

В 16 лет мы познакомились в детском лагере с Аней, а теперь она тимлид Ozon RnD. Как и я когда-то она преподает машинное обучение на ФКН ВШЭ.

Рекомендую её маленький канал с инфографикой по DS. Еще там бывают вакансии в Ozon RnD 👀

Читать полностью…

Борис опять

https://www.reddit.com/r/ClaudeAI/comments/1gjob9a/petition_to_lower_claude_35_haiku_prices/

Цены у Anthropic действительно абсурдные

Читать полностью…
Subscribe to a channel