data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

-

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

Помните, недавно в США образовался новый совет по безопасности использовании ИИ, в котором нет ни одного человека из опенсорса? Туда пригласили представителей OpenAI, Microsoft, Nvidia, Adobe, IBM, владельцев мелких авиалиний (?) и еще много-много мало относящихся к ИИ людей. А вот Цукерберга, Лекуна и Маска на фан-встречу не позвали.

Случайность? Вряд ли. Буквально на днях по Твиттеру разлетелась схема, которую нарисовал один влиятельный дядя инвестор. По его мнению это то, что на самом деле происходит за кулисами спектакля «регуляризация ИИ».

Именно так крупные игроки сосредотачивают власть над технологией в своих руках и, что главное, избавляются от опенсорс конкурентов. А от реальной регуляризации тут одно слово.

Читать полностью…

Data Secrets

Лучший подарок другу дата сайентисту

Это 👆 доска Гальтона. Она состоит из набора штырьков, о которые случайно отталкиваются засыпанные сверху мелкие шарики. Каждое столкновение шарика со штыком – это испытание Бернулли (отлетит влево или вправо).

Симметричное построение доски Гальтона обеспечивает удивительное: при достаточно небольшом количестве рядов препятствий биномиальное распределение в соответствии с центральной предельной теоремой становится нормальным гауссовским колоколом.

Случайности не случайны.

Читать полностью…

Data Secrets

Как собрать свой GPU с нуля за две недели, не имея никакого опыта:

Шаг 1: Изучить фундаментальную теорию устройства GPU
Шаг 2: Разработать собственную архитектуру GPU
Шаг 3: Написать собственный низкоуровневый язык для своей GPU
Шаг 4: Написать на этом языке два мат.ядра
Шаг 5: Забилдить GPU в Verilog и запустить ядра
Шаг 6: Спроектировать микросхему и верифицировать ее в OpenLane EDA
Шаг 7: Вы великолепны


Если вы подумали, что мы сошли с ума, то (пока еще) нет. Это реальная история инженера по имени Адам Маджмудар. Он действительно с нуля, без опыта проектирования GPU, за две недели разработал мини-видеокарту.

Полное описание всех этапов разработки можно найти в репозитории или в треде на X.

Вы знаете, что делать.

Читать полностью…

Data Secrets

Качки 🤝 математики

А какой сегодня ты? 😎🤓

Читать полностью…

Data Secrets

Привет всем тем, кто хотел поглубже познакомиться с новым хайповым KAN, но осилить статью на 50 страниц с формулами не сумел

Для вас, любимые подписчики, мы менее чем за сутки с момента выхода статьи написали на нее обзор! В нем вы найдете:

– Легкое и непринужденное объяснение теоремы Колмогорова-Арнольда
– Ответ на вопрос «а почему до этого раньше никто не додумался?»
– Объяснение архитектуры KAN на пальцах
– Сравнение KAN с перцептроном
– Туториал по запуску KAN из коробки на Python

Прочитать разбор можно на нашем сайте: https://datasecrets.ru/articles/9

Читать полностью…

Data Secrets

История про гениев маркетинга 😂

Помните тот милый оранжевый девайс Rabbit R1 с ИИ? Напоминаем: это что-то вроде супер-умной карманной голосовой станции. В его основе – Rabbit OS на голосовом управлении, которая сама рулит всеми программами: может заказать еду, вызвать такси и еще много всего.

Так вот. Когда создатели рассказывали про изобретение три месяца назад, они утверждали, что операционка Rabbit OS уникальна, такой вообще нигде нет и в ней сила. Тогда даже никому не пришло в голову проверить.

А сейчас выяснилось, что никакой уникальности нет. Милый кролик основан на немного подшаманеной Android. Это означает, что систему можно установить на смартфон, и функционировать она при этом будет точно так же.

Вот такой анекдот.

Читать полностью…

Data Secrets

Но самое прекрасное в новом подходе из поста выше – это установка 😍

P.S. За мем спасибо нашему чату 🤍

Читать полностью…

Data Secrets

Продолжается дикая погоня за ИИ-специалистами. На этот раз новости из Apple.

Как мы уже слышали, за 10 лет Apple скупила около 20 ИИ-стартапов, в первую очередь из-за людей. В том числе корпорацией выкуплены FaceShift, Fashwell, Emotient и другие.

Но это не все. Оказывается, Apple активно хантит сотрудников Google. С 2018 они переманили как минимум 36 топовых специалистов.

И еще одна интересная деталь: Apple рекламирует свои вакансии с работой в одном из двух офисов в Цюрихе. При этом об одном из них неизвестно вообще ничего, на карте его нет и даже люди, живущие по соседству, не знают о его существовании.

Только секретных лабораторий нам не хватало…

Читать полностью…

Data Secrets

Внимание: градиентный спуск

Читать полностью…

Data Secrets

40 лет развития Boston Dynamics за полторы минуты.

@xor_journal

Читать полностью…

Data Secrets

Теперь любимый мем админа

Читать полностью…

Data Secrets

+ 1 ресурс в коллекцию: датасеты для LLM

На многих примерах (в том числе на LLama-3 и Phi-3) мы уже видели, что развитие LLM = создание качественных корпусов данных.

Так вот. Тут разработчик из Лондона взял и описал в этом репозитории все датасеты для предобучения или файнтюнинга LLM в формате таблицы: ссылка, размер, авторы, дата и личные пометки.

Кроме того, там есть указания, как собрать свой собственный качественный датасет, и что вообще значит «качественный».

Одним словом - кайф. Забирайте себе.

Читать полностью…

Data Secrets

⚡️ В Абу-Даби прошла первая гонка болидов-беспилотников. Заезды начались с дуэли автопилота с российским гонщиком «Формулы-1» Даниилом Квятом, в которой он уверенно одержал победу.

Дальше беспилотники восьми команд гонялись уже между собой, иногда врезаясь в стены и внезапно разворачиваясь. В итоге первым финишировал болид ребят из мюнхенского университета — им вручили приз $2.25 млн.

Самое время собирать команду XOR для участия, принимаем заявки.

@xor_journal

Читать полностью…

Data Secrets

Тем временем GPU, которые подпольно производит Chanel:

Читать полностью…

Data Secrets

Я трачу и не плачу 💸

По данным нового финансового отчета Meta, компания каждый месяц теряет миллиарды на AR и VR. Стесняются ли они этого?

Ни капли. Цукерберг сам говорит инвесторам о том, что пройдет куча времени, пока ИИ начнет приносить прибыль.

При этом в планах у Meta увеличить инвестиции в разработку ИИ до $35-40 млрд в год. Ничего не скажешь, делают красиво.

Читать полностью…

Data Secrets

💡Интересуетесь Data Science? Изучите гибридные рекомендательные системы на примере LightFM.

Познакомьтесь с коллаборативной фильтрацией и контентным подходом в рекомендательных системах, научитесь объединять их при помощи модели LightFM.

📚И все это под руководством опытного эксперта на открытом практическом уроке от OTUS, где вы:

- познакомитесь с двумя подходами к построению рекомендательных систем: collaborative filtering и content-based;
- изучите архитектуру модели LightFM, которая позволяет объединять эти подходы;
- примените модели LightFM на практике.

📌Встречаемся 7 мая в 20:00 мск в преддверии старта курса «Рекомендательные системы». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS!


Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://clck.ru/3AT2tV

Читать полностью…

Data Secrets

Вы просили постоянную рубрику «что почитать на выходных». Что ж, чего не сделаешь ради подписчиков: советуем любимую книгу админа

Читать полностью…

Data Secrets

OpenAI, возможно, скоро выйдут на рынок с собственным поисковиком. Работать будет на основе GPT, конечно же. Движок будет анализировать источники, уточнять информацию и составлять на основе всего это суммаризированный ответ.

Такой опыт для OpenAI не первый. Прошлым летом они уже внедрили в своего бота ответ на базе поиска в Bing, то есть полноценный сёрчер станет просто расширением уже существующей технологии.

Сочувствуем акциям Google

Читать полностью…

Data Secrets

Да, в последнем посте мы подложили вам пасхалку, но не удержались и объявляем открыто: мы запускаем сайт Data Secrets!

Там мы будем публиковать еще больше новостей, статей, разборов, полезных материалов, туториалов... В общем, все, что только может быть нужно Data Scientist'у.

Для нас это большой шаг в развитии проекта. Мы надеемся, что теперь будем вносить еще больший вклад в сообщество.

В знак поддержки принимаются 🔥

Читать полностью…

Data Secrets

Сэм Альтман: «GPT-4 это самая глупая из моделей, которую вам предстоит использовать».


Такой нескончаемый хайп вокруг новых моделей OpenAI кончится либо тем, что GPT-5 будет шокирующе хороша, либо тем, что словам Альтмана больше никто не поверит.

Надеемся на первый вариант 😕

Читать полностью…

Data Secrets

Тот самый тимлид, у которого список статей размером с Войну и Мир и PhD в 19

Читать полностью…

Data Secrets

Там вышедший час назад убийца нейросетей производит небывалый фурор среди исследователей. Сейчас все расскажем ⬇️

В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации.

А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN.

KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмагорова-Арнольда.

Не будем вдаваться в детали. Главное: KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется. Единственный минус: из-за обучаемых активаций тренится все это дело в разы дороже и дольше, чем MLP.

И тем не менее, возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров.

Статья | Код

Читать полностью…

Data Secrets

Google подружили Gemini с медициной

Вчера вышла новая статья от исследователей из Google, в которой они файнтюнят свою LLM для медицинских задач. Кстати, в ней 71(!) соавтор.

Файнтюнили на датасете, схожем с Med-PaLM2, но с добавлением self-training с поиском. Идея:
1) просим модель сгенерировать поисковой запрос по вопросу, иначе говоря "загуглить" то, что у нее спрашивают
2) на основе результатов запроса генерим с помощью модели цепочки мыслей
3) фильтруем ложные цепочки, а на остальных дообучаем модель
4) с дообученной моделью возвращаемся к пункту №1

Итеративные алгоритмы сбора данных сейчас в моде, это исследование не стало исключением. Еще ученые прикрутили поиск с учетом неопределенности и дополнительную генерацию запросов для решения конфликтов среди ответов модели.

Конечно же, Med-Gemini выбила SOTA. Результат: 91% на MedQA. Обратите внимание: это всего на 1п.п. лучше GPT-4, который специально не файнтюнился под медицину. Кроме того, стоит отметить, что MedQA - классический, но далеко не лучший бенчмарк для оценки такой модели (исследование).

Читать полностью…

Data Secrets

Apple переманивает десятки инженеров из Google для своего ИИ-проекта

По данным FT, в последнее время Apple массово расширенияет подразделения по ИИ и ML. Больше всего новых сотрудников пришли из Google (речь идет о десятках).

Самым значимым стал переход главы лаборатории ИИ Google Brain Джона Джаннандреа, который пришел на руководящую должность в Apple. Затем его примеру последовали не менее 36 инженеров Google.

Вот такая нынче реальность, борьба БигТеха идет не за их выбор пользователем, а за выбор их компании разработчиками.

Читать полностью…

Data Secrets

🤖 Как строятся прогнозы в Machine Learning?

Начните с открытого практического урока от OTUS. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд.

💻 На вебинаре разберем:

- как подходить к моделированию временных рядов;
- как разбить их на тренировочную и тестовую части и проводить кросс-валидацию;
- как разложить временной ряд на основные компоненты и построить авторегрессионную модель ARIMA/SARIMA;
- метрики качества, специфичные для моделей временных рядов.

👉 Встречаемся 7 мая в 20:00 мск в преддверии старта курса «Machine Learning. Professional».

💣 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://clck.ru/3APAHx

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Читать полностью…

Data Secrets

Загадка века: на LMSYS арене появилась таинственная модель gpt2-chatbot, которая лучше gpt-4

На самом лидерборде модель пока не отображается, но в разделе Direct Chat с ней можно поболтать. Энтузиасты уже потестили бота, и вот что нам известно:

☯️С большинством задач модель действительно справляется лучше, чем gpt-4. Например, она без подсказок щелкнула олимпиадную задачу по математике.

☯️Непонятно, кто выпустил модель, но несколько критериев (в том числе общие рабочие приемчики джейлбрейкинга) указывают на то, что за всем стоит OpenAI.

☯️Пока что все сходятся в предположении, что это GPT-4.5.

☯️Альтман сразу после выпуска написал в своем X: «i do have a soft spot for gpt2», то есть «да, у меня есть слабость к gpt2». Совпадение? Не думаем.

А что подсказывает вам ваш внутренний детектив?
❤️ – 100% OpenAI
🗿 – да нет, не они

Читать полностью…

Data Secrets

Смотрите, какой модный 💅

Это Сэм Альтман в 2008 на презентации Apple рассказывает про приложение для шэринга локаций. Приложение было создано Loopt – первой компанией Альтмана, которую он основал еще в колледже.

Кстати, в 2012 Loopt чуть не обанкротился, но основатели успели вовремя продать компанию.

Читать полностью…

Data Secrets

В Google уволили целую команду Python разработчиков 😳

Конспирологи уже утверждают, что ИИ в Google способен полностью заменить разработчиков, и поэтому те больше компании не нужны.

На самом деле все проще. Google просто решили сократить косты и будут набирать новую команду в Мюнхене, где труд программистов в среднем дешевле.

Читать полностью…

Data Secrets

Интересное открытие: французский sklearn имеет только одного инвестора со статусом Platinum, и это… Chanel.

CTO HuggingFace в ответ на это сострил: «Франция богата, но не на GPU».

Читать полностью…

Data Secrets

Когда плачут даже мужчины:

Читать полностью…
Subscribe to a channel