Всё, что может быть интересно медиа про Яндекс: новости, анонсы, заявления, комментарии, инсайды и другие горячие и не очень события ⚡️ PR-команда: pr@yandex-team.ru
🌎 Вчера мы объясняли, как технология OmniCast помогает показывать прогноз погоды с точностью до квартала. Городской микроклимат устроен иначе, чем за городом — даже в соседних городских кварталах погода может быть разной. Аналитики и метеорологи Яндекса провели исследование и разобрались, почему так происходит. Пересказываем основные выводы в карточках.
Подписывайтесь 👉 @techno_yandex
🗜 🎵 Практически любой звуковой файл, который вы слышите, так или иначе обработан и сжат. Из-за этого звучание музыки, которую слышат люди, как правило, отличается от того, как её задумал артист. Сегодня в Яндекс Музыке стали доступны более 25 миллионов треков в lossless-формате FLAC, сохраняющем качество на уровне студийной записи. Объясняем, что такое lossless и как слушать такое аудио в Яндекс Музыке.
Зачем сжимать аудиофайлы?
Во время оцифровки звука звуковую волну преобразуют в набор чисел — записывают её параметры в каждый момент времени. Чем больше данных записано, тем выше качество оцифрованного звука. Но качественное аудио занимает много места на устройстве, а для его трансляции (например, на стримингах) нужен быстрый интернет. Поэтому файлы обычно сжимают, уменьшая их размер.
Сжатие — это всегда потеря качества?
Необязательно. Есть два основных типа сжатия аудио — lossy и lossless.
• Lossy compression — сжатие с потерями
Форматы: MP3, AAC, OGG и другие
Этот метод удаляет из аудиофайла то, что человек практически не слышит. Например, слишком высокие или низкие частоты, а также тихие звуки, маскируемые более громкими. Такая обработка уменьшает размер файла и снижает его качество, хотя в большинстве случаев определить разницу на слух сложно.
• Lossless compression — сжатие без потерь
Форматы: FLAC, ALAC, APE и другие
Этот метод работает аналогично сжатию в ZIP-архив — не удаляет, а оптимизирует данные в исходнике. Например, ищет повторяющиеся данные и группирует их. Это помогает уменьшить объем файла, хотя и не так сильно, как при сжатии с потерями. Зато при воспроизведении lossless-файлов можно восстановить всю звуковую информацию.
Как слушать Яндекс Музыку в lossless-формате?
Вот так: иконка ⚙️ в плеере ➡️ «Превосходное». Или «Настройки звука» ➡️ «Качество звука» ➡️ «Превосходное».
В этом режиме Яндекс Музыка воспроизводит треки в lossless и других высококачественных форматах. Разницу будет слышно в хороших наушниках, а также домашних и автомобильных аудиосистемах.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🎙🔊 В 1881 году французский изобретатель Адер Клеман представил на Международной электрической выставке в Париже невероятную для того времени технологию: установив в парижской опере несколько телефонов, он в режиме реального времени передал с их помощью звуки музыки в один из павильонов выставки.
Телефон, изобретённый Александром Беллом всего пятью годами ранее, в 1876-м, уже получил широкое распространение, но никому не приходило в голову использовать его так. Более того, Клеман сумел сделать звук трансляции стереофоническим. Для этого он расположил несколько телефонов в разных точках у сцены, а слушателям выдавали по два наушника.
Самым знаменитым посетителем выставки стал писатель Виктор Гюго, автор «Собора Парижской Богоматери». По свидетельствам очевидцев, Гюго, которому было под 80, был потрясён этим опытом.
Несмотря на то, что о новой технологии написали многие издания по всему миру, до 1884-го у неё, по сути, был один пользователь — король Португалии Луиш I. С помощью телефона он в реальном времени слушал все оперы, на которые не получалось прийти лично.
Во второй половине 1880-х превратить технологию в коммерческое предприятие пытались в Бельгии и Швеции, но лишь в 1890-м — под брендом «Театрофон» (фр. Théâtrophone) — технология стала доступна широкому кругу пользователей во Франции.
Поскольку частных телефонов в то время было немного, «Театрофон» предлагал пользователям слушать оперные новинки при помощи аппаратов, установленных в отелях и других подобных местах. 5 минут стоили 50 сантимов, что мог позволить себе более или менее любой человек, имевший постоянную работу.
Для владельцев домашних телефонов была предусмотрена система подписок: пользователи покупали себе пакеты прослушивания на разное количество минут. Одним из самых известных подписчиков был писатель Марсель Пруст, который, по воспоминаниям современников, проводил c «Театрофоном» огромное количество времени.
Уже в 1910-х «Театрофон» значительно утратил популярность, а в 1932 году прекратил существование — на смену пришли радиостанции и граммофонные записи.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
👨💻 Технодайджест недели
Google представила новые смартфоны Pixel с нейросетевыми функциями. Компания анонсировала четыре модели, в том числе Pixel 9 Pro Fold с гибким экраном, и посвятила существенную часть презентации их нейросетевым функциям. Так, одна из них позволяет добавить человека на групповой снимок, если нет возможности попросить кого-нибудь сфотографировать всех вместе. Помимо смартфонов, Google анонсировала умные часы Pixel Watch 3, которые теперь доступны в двух размерах, и наушники Pixel Buds Pro 2 с улучшенным шумоподавлением.
Realme показала прототип смартфона с зарядкой мощностью 320 ватт. Компания продемонстрировала на видео, как гаджет заряжается с 2 до 100% за четыре минуты и 20 секунд. Размер блока питания при этом такой же, как у зарядки для смартфона Realme GT3, поддерживающего мощность 240 ватт.
Российские школьники заняли первое место на олимпиаде по ИИ. В команду вошли четверо учеников и выпускников московской школы «Летово». Во время соревнования они решали задачи в области машинного обучения, а также генерировали видео под музыкальный трек. Российская команда набрала 99 баллов из 100, второе и третье места заняли команды из Польши и Сингапура соответственно.
В соцсети X появился чат-бот Grok 2. Он работает на базе одноимённой языковой модели от xAI и генератора изображений FLUX от Black Forest Labs. xAI утверждает, что Grok 2 обходит Claude 3.5 Sonnet и GPT-4 Turbo по качеству текстовых ответов. Кроме того, пользователи соцсети заметили, что генерация изображений через чат-бота практически не имеет ограничений, типичных для других аналогичных сервисов.
Английская Премьер-лига начнёт использовать iPhone для определения офсайдов. Лига заключила контракт с Genius Sports, которая разработала систему VAR на базе 28 смартфонов и алгоритмов для синхронизации и быстрой обработки данных. Такие системы будут установлены на каждом стадионе команд, участвующих в лиге, а тестирование начнётся позже в рамках сезона 2024-25.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🌎🤖 Сериал о технологиях фантастических вселенных продолжается. Сегодня Deus Ex — мир, в котором основным двигателем технологического развития становятся модификации тела и сознания.
Если вы пропустили предыдущие серии, вот некоторые из них: «Дюна», Fallout, «Кин-Дза-Дза» и Cyberpunk 2077.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
☕️ Самая знаменитая кофеварка в мире. Она не только варила кофе, но и научила людей общаться в интернете по-новому. Как именно — рассказываем в ролике.
Больше таких видео — на наших страницах в techno_yandex">YouTube Shorts и VK Клипах.
Подписывайтесь 👉 @techno_yandex
👩💻 Технодайджест недели
Google DeepMind научила робота играть в настольный теннис на уровне людей. Робот состоит из роборуки с ракеткой и механизма, позволяющего ей двигаться вдоль теннисного стола. Во время тестов робот выигрывал у людей в среднем в 45% случаев, но во всех матчах с новичками сумел одержать победу.
Китай начал создавать аналог системы Starlink. Она будет предоставлять беспроводной доступ в интернет: сначала в Китае, а с 2027 года — глобально. 6 августа на орбиту отправились первые 18 спутников, а к концу 2025 система должна состоять из почти 650 аппаратов.
Google внедрила нейросети в свою платформу умного дома. Одна из новых функций позволяет создавать сценарии умного дома, описывая их простыми словами. Нейросеть Gemini проанализирует запрос и создаст нужную автоматизацию. Также Gemini будет анализировать видео с умных камер, что позволит получать уведомления о событиях с текстовым описанием, а также отвечать на вопросы пользователя.
Сбер представил умную колонку SberBoom Home с Zigbee-модулем. Он позволяет подключать Zigbee-устройства к умному дому без хаба. Кроме того, колонка получила дисплей для отображения времени, погоды и другой информации. Также компания показала SberBoom Mini 2 с обновлённым дизайном.
Суд в США признал Google монополистом на американском рынке поиска и рекламы. В решении суда отмечается, что «Google — монополист, и он действовал соответствующим образом, чтобы сохранить свою монополию». В качестве одного из примеров суд привёл контракты компании с производителями гаджетов, операционных систем и браузеров, благодаря которым Google был в них поисковиком по умолчанию. На текущем этапе разбирательства суд лишь признал компанию виновной, но ещё не назначил наказание.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
Это EP-1320 — попытка представить, какой могла бы быть средневековая бит-машина. Компания-разработчик Teenage Engineering называет её первым в истории электронным инструментом, который воспроизводит звуки гитернов, лютен, колёсных лир и других инструментов европейского Средневековья.
Это один из самых красивых гаджетов года, на наш взгляд. А какие гаджеты — неважно какой эпохи — кажутся самыми красивыми вам? Расскажите (и покажите) в комментариях!
Подписывайтесь 👉 @techno_yandex
🤖🤝👩🏻🎓 Этим летом студенты ВШЭ впервые защитили дипломы, в работе над которыми они применяли языковую модель YandexGPT. Вспоминаем, как вузы прошли путь от запрета нейросетей до их интеграции в учебный процесс.
🤔 Ноябрь 2022. Запуск ChatGPT и беспокойство в вузах
«Этот инструмент может давать быстрые ответы, но не развивает критическое мышление и другие навыки, необходимые для учёбы», — так отреагировала на запуск ChatGPT Дженна Лайл, пресс-секретарь Департамента образования Нью-Йорка.
⛔ Конец 2022 — начало 2023. Запреты во всём мире
Образовательные учреждения начали ограничивать доступ к ChatGPT на учебных компьютерах и запрещать работы, написанные нейросетями.
🧑🎓 Январь 2023. Первый диплом, целиком написанный нейросетью
Студент РГГУ Александр Жадан защитил диплом, написанный с помощью ChatGPT. После этого вуз задумался о разработке инструментов распознавания генеративного контента, но диплом в итоге зачли.
🤞🏻 Март 2023. Изучение новых возможностей
Университет Хельсинки одним из первых увидел в нейросетях перспективную технологию и выпустил рекомендации по их использованию.
✅ Август 2023. Постепенная отмена запретов
Осознав, что запретить нейросети сложно, а чат-бот не способен заменить человека в образовательном процессе, в вузах решили, что эффективнее научить студентов правильно пользоваться новой технологией, — и начали разрешать использование нейросетей. В России первым стал Московский городской педагогический университет.
👍🏻 Октябрь 2023. Нейросети как образовательный инструмент
Исследование, проведённое Оксфордским университетом, показало, что 68% преподавателей из Великобритании видят в нейросетях преимущества для образования.
🦾💪🏻 Начало 2024. Сотрудничество вузов и разработчиков
Аризонский государственный университет объявил о партнёрстве с Open AI, а Норвегия закупила 110 000 лицензий GPT-3.5 Turbo для студентов и преподавателей.
🤝 Июнь 2024. YandexGPT в Высшей школе экономики
Дипломники ВШЭ получили доступ к большой языковой модели из семейства YandexGPT. Её использовали для выполнения рутинных действий — суммаризации, оформления ссылок, формирования выводов, структурирования и перефразирования текста. Это помогло студентам освободить время для творческих задач. В ВШЭ признали эксперимент успешным и собираются в следующем году повторить и расширить его.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🤖🧠 Все технологические достижения человечества в одной инфографике (очень-очень большой)
Делимся находкой, которую можно рассматривать бесконечно: генеалогическое древо (а точнее, целый лес) технологий, изобретённых людьми за последние 500 лет — от печатного станка до генерации изображений. Проект Calculating Empires предлагает посмотреть на технологические достижения в историческом контексте, чтобы лучше понять причины современных проблем (например, социального неравенства и глобальных изменений климата) и найти пути их решения.
Подписывайтесь 👉 @techno_yandex
🔒 Наступит ли будущее без паролей? Спросили об этом руководителя команды безопасности FinOps & ID Илью Глебова и разработчика из группы разработки API Яндекс ID Егора Князева.
Чем плохи пароли?
Люди используют их небезопасно. Если у человека один пароль для разных сервисов, то взлом одного сервиса даст злоумышленникам и пароль от остальных. Также случаются утечки, пароль можно подобрать, а ещё его можно забыть.
А беспарольный вход?
Вероятность фишинга снижается до нуля: закрытые ключи привязаны к определённым доменам. Но если существует резервный способ входа — по паролю, — злоумышленник может создать видимость, что сейчас доступен только он, и предложит ввести пароль.
Что заменит пароли?
Возможно, Passkeys — универсальная технология входа по лицу или отпечатку, поддерживаемая во всех популярных ОС и браузерах. Её основной компонент — асимметричная криптография: механизм, используемый, например, для электронных подписей. Сервис, в котором вы регистрируетесь, сохраняет публичную часть ключа, а закрытая часть хранится на вашем устройстве. При этом все ваши устройства в рамках одной экосистемы синхронизированы между собой — то есть достаточно одного ключа.
Когда пароли исчезнут?
Скорее всего, никогда. Модель беспарольных входов предполагает, что есть провайдер, который обеспечивает хранение и синхронизацию ключей (например, разработчики ОС — Microsoft, Google, Apple). Для первоначального входа в аккаунт провайдера нужно использовать пароль, хотя есть физические FIDO2-ключи. Можно настроить его для входа в аккаунт ОС, и для вас наступит беспарольное будущее.
Безопасно не иметь пароля?
Отсутствие пароля ≠ отсутствие аутентификации. Раньше сервис хранил информацию о пароле, сейчас хранит публичную часть ключа (утечки этой части не критичны). Поэтому, пока не взломали сами алгоритмы асимметричной криптографии, лежащей в основе Passkeys, не иметь пароль безопасно. Хотя если такое случится, пострадает сетевая инфраструктура в целом.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
👨💻 Технодайджест недели
Представлен Friend — носимый гаджет с эмпатичным ботом. Это подвеска с микрофоном, который может постоянно слушать разговоры вокруг, и кнопкой, позволяющей обратиться к гаджету напрямую. При этом в нём нет динамика и экрана, поэтому бот присылает сообщения на смартфон: комментарии к событиям в жизни пользователя, советы и тому подобное.
Ходячих роботов научили помогать в магазине. Это два отдельных проекта от компаний Mentee Robotics и DeepRobotics. Первая научила своего человекоподобного робота помогать человеку в инвалидной коляске, следуя за ним с тележкой, чтобы он мог класть в неё продукты. А DeepRobotics показала, как можно использовать в качестве тележки для покупок её четвероногого робота: в ролике робопёс следует за хозяином на поводке, перенося при этом большую бутылку с водой и другие грузы массой около 20 килограмм.
Arc’teryx и Skip представили штаны с электромоторами. Моторы в области колена работают синхронно с движениями человека, облегчая ходьбу. Штаны весят около трёх килограмм, но разработчики утверждают, что благодаря помощи от электромоторов человек в них будет ощущать себя легче примерно на 13,5 килограмма.
В Москве и Санкт-Петербурге протестируют беспилотные трамваи. В этих регионах ввели экспериментальный правовой режим, регулирующий работу автономного транспорта в городской среде. На первом этапе трамваи проедут не менее 3000 километров с водителями-испытателями, а затем смогут ездить полностью автономно.
В Instagram* и WhatsApp* появились боты-двойники. Функция, пока запущенная только для пользователей в США, позволяет создать персонализированного бота, который сможет самостоятельно общаться с другими пользователями от лица владельца аккаунта: переписываться в личных сообщениях и отвечать на комментарии.
* Сервисы компании Meta, которая признана экстремистской организацией и запрещена в РФ
Perplexity начнёт делиться доходами с владельцами контента. Компания будет выплачивать часть дохода от рекламы авторам контента, который её нейросеть использует при составлении ответа на поисковый запрос. Пока программа работает для ограниченного списка сайтов, в том числе Time, Fortune и WordPress.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🤖🔍 В июле в ТЕХНО вышло много интересных материалов — вот некоторые из них:
🔸 Как отличить контент, сгенерированный нейросетями, и какие приложения в этом помогут
🔸 Как люди устанавливали рекорды сборки кубика Рубика и в какой момент их обогнали роботы
🔸 Как компания Atari похоронила миллионы картриджей с видеоиграми, а потом их нашли энтузиасты
🔸 Как появились мифы о зарядке смартфонов и почему фирменный кабель для неё не обязателен
🔸 Как Рэй Долби придумал шумопонижение звукозаписи и при чём тут индийский фольклор
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🤖 Разработчик Яндекса создал робота, который побил мировой рекорд по скорости сборки кубика Рубика. До этого самым быстрым был робот Mitsubishi — он собрал кубик за 0,305 секунды. Новый рекорд — 0,203 секунды.
Коротко рассказали в карточках, как это удалось, а всеми подробностями создатель робота Александр Кротов поделился на Хабре.
Подписывайтесь 👉 @techno_yandex
🎁 Подводим итоги конкурса песен, зашифрованных с помощью Шедеврума
Первой все девять песен расшифровала Дарья @loveray13, поздравляем!
В ближайшее время мы свяжемся с вами и договоримся о доставке призов: бокса с нейросетевым мерчем и умной ленты Яндекса. Остерегайтесь мошенников, мы не запрашиваем платёжные данные. Доставка призов бесплатная.
В будущем вас ждут новые конкурсы и розыгрыши, а пока мы продолжим рассказывать о самом интересном в мире технологий.
Подписывайтесь 👉 @techno_yandex
☂️ Яндекс Погода запустила технологию OmniCast, которая прогнозирует температуру с точностью до квартала каждые пять минут. Разбираемся, как она устроена и как посмотреть в сервисе на «дыхание» своего города.
Подписывайтесь 👉 @techno_yandex
❤️ Знакомьтесь: это первый сервер Яндекса. На вид это обычный персональный компьютер, однако у него особое назначение — сервер необходим для сетевых взаимодействий: он принимал и передавал большие объёмы данных.
В 1997 году, когда только появился Яндекс, таких серверов было двадцать. Конкретно на этом работала первая версия Яндекс Поиска, и он считается самым первым среди тех двадцати. Для своего времени сервер считался очень производительным и стоил около 8 000 долларов. Внутри у него процессор Intel Pentium II с тактовой частотой 266 МГц, оперативная память на 384 МБ и два жёстких диска по 9,1 гигабайта.
Такой объём жёстких дисков кажется сегодня чем-то несерьёзным, но в 1997 году весь рунет состоял из примерно 5 000 русскоязычных сайтов и занимал всего около 4 гигабайт. Сегодня на компьютере можно запустить «Библейский компьютерный справочник». Эту программу в середине 1990-х создали программисты компании «Аркадия» под руководством Ильи Сегаловича — впоследствии одного из основателей Яндекса.
И да, увидеть этот сервер живьём может любой желающий. Несколько лет он провёл в московском Политехническом музее, а сейчас находится в московском Яндекс Музее на Парке культуры.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex и @yandexmuseum
🔲 Нейросеть Яндекса поможет врачам выявлять признаки редкого заболевания spina bifida на ранних сроках беременности. В разработке нового сервиса участвовали специалисты из Yandex Cloud, студенты ШАД и врачи ультразвуковой диагностики из НМИЦ Кулакова.
↗️ ИИ-решение для помощи врачам в диагностике spina bifida доступно на сайте фонда «Спина бифида». Чтобы узнать вероятность патологии, нужно загрузить УЗИ, сделанные во время первого скрининга.
➡️ Код проекта выложен в открытый доступ. Его можно использовать, чтобы создавать инструменты для выявления патологий.
Подписывайтесь ✨ @yandex
💿🪦 Компакт-диски, винил и аудиокассеты — самые популярные аудионосители в истории, и они не просто живы в цифровую эпоху, а снова набирают популярность. Вспоминаем 5 других носителей, которые казались перспективными, но не смогли завоевать место на рынке.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
📱📂 Вчера вечером Google представил новые модели Pixel, в том числе складной Pixel 9 Pro Fold. За последний месяц раскладушки также показали Samsung, Honor, Xiaomi и другие. Складные модели есть почти у всех известных брендов, но доля продаж таких гаджетов всё ещё минимальна.
Разбираемся, почему смартфоны с гибким дисплеем «не взлетели» и станут ли они когда-нибудь популярными.
Подписывайтесь 👉 @techno_yandex
🤖🤔 Машинное разобучение (machine unlearning) — это процесс удаления каких-либо данных из ML-модели без её полного переобучения с нуля. В отличие от машинного обучения, благодаря которому алгоритм получает новые знания, процесс разобучения, наоборот, заставляет модель забыть определённую информацию. После этого алгоритм перестаёт выдавать её в своих ответах, но сохраняет остальные знания и умения.
Для чего это нужно и какую информацию модель может забыть?
• Для защиты персональных данных, которые по какой-то причине попали в датасет и «сохранились» в неизменном виде.
• Для защиты авторских прав — скажем, модель может забыть картины определённого художника и не генерировать изображения в похожем стиле.
• Для исправления ошибок, если в обучающих данных была неверная информация.
• Для предотвращения неэтичных ответов, например, содержащих стереотипы и оскорбления.
Как можно разобучить модель?
Самый очевидный способ — извлечь лишние данные из датасета и переобучить алгоритм заново. Но в случае с большими нейросетями это может быть слишком долго и дорого. Методы, позволяющие обойтись без полного переобучения, пока только начинают развиваться.
В прошлом году организаторы NeurIPS — одной из главных конференций по машинному обучению — провели конкурс методов разобучения нейросетей. Авторы лучших методов предложили сначала стирать информацию, реинициализируя часть слоёв нейросети или добавляя шум, а затем проводить этап «починки», дообучая модель на датасете без нежелательных данных, чтобы исправить возможное падение качества работы модели.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
👋 Привет, это Миша, редактор ТЕХНО. Это история про музыку и про то, как меня обманули нейросети.
Подписывайтесь 👉 @techno_yandex
🤖🤔 Журналисты The Washington Post проанализировали около 40 000 диалогов с чат-ботами и выяснили, какие запросы им отправляют чаще всего.
Люди дают нейросетям творческие задания, используют их для учёбы, в качестве поисковиков или персональных ассистентов и просто болтают с ними. При этом некоторые пытаются обойти встроенные ограничения нейросетей с помощью промптов, чтобы заставить чат-ботов говорить на запретные темы.
Для чего используете чат-ботов вы? Расскажите в комментариях.
Подписывайтесь 👉 @techno_yandex
🤔 Какая технология, на ваш взгляд, оказала наибольшее влияние на человечество? Книгопечатный станок? Чат-боты? Паровой двигатель? Что-то другое? Принимаем любые ответы в комментариях!
Подписывайтесь 👉 @techno_yandex
🔍 Как раньше искали информацию с помощью компьютеров. Каталог всех имеющихся в мире ссылок и другие способы из недалекого прошлого
Больше таких роликов — на наших страницах в techno_yandex">YouTube Shorts и VK Клипах.
Подписывайтесь 👉 @techno_yandex
🤖 Большие языковые модели требуют всё больших ресурсов. Чтобы снизить требования алгоритмов к железу и сжать нейросеть так, чтобы запускать её на более доступных GPU, учёные разрабатывают методы квантизации. В их числе и исследователи из Яндекса. Они разработали ряд методов, включая SpQR и представленные недавно AQLM и PV tuning, которые позволяют сжать модель в несколько раз, сохранив 95% и более качества ответов по метрике перплексии. Мы спросили Руслана Свирщевского, одного из учёных Yandex Research, занимающихся развитием методов квантизации, о том, что это и зачем нужно.
Что такое квантизация?
Это метод сжатия весов модели, который — для экономии памяти — позволяет хранить веса моделей не как массивы 32- или 16-битных чисел, а как наборы 3–4- битных (иногда даже менее) кодов.
Зачем нужны квантизованные модели?
Это нужно, если полноразмерная модель не помещается в память GPU. Качественно квантизованная из 16 в 4 бита модель, может дать практически такой же результат, как неквантизованная модель того же семейства. А ещё квантизованные модели потенциально могут работать быстрее, так как требуют копировать меньшие объёмы данных в память GPU, что возможно при дополнительной оптимизации и написании низкоуровневого кода для CUDA.
Есть ли предел в квантизации моделей?
Когда работаешь над статьёй, кажется что выжимаешь все возможности из алгоритма. Но проходит время, и появляются ещё более оптимальные методы. Так год назад пределом казались 4 бита, а сейчас вышли статьи о квантизации моделей в 2–3 бита, среди которых наша AQLM остаётся самой сильной. Появляются работы и про сжатие в 1 бит, правда, с потерей качества. При этом сами модели становятся лучше и эффективнее используют свои веса. Так, модели семейства LLaMA-3 заметно умнее моделей LLaMA-2 тех же размеров, но сжимаются они несколько хуже.
Есть ли смысл использовать модели без квантизации?
Да, если есть достаточно железа и/или важно не рисковать даже малейшими потерями в качестве. А ещё для них есть ускоренные реализации типа vLLM или CTranslate2, которые очень ограниченно поддерживают квантизацию.
Почему нельзя сразу обучать модель в 3–4 бита на параметр?
При обучении важно передавать через слои модели градиенты (вектора изменений весов). Квантизация бы округляла их слишком сильно, что затрудняет качественное обучение. Есть методы, совмещающие обычные и квантизованные веса при обучении, например Qlora, но они предназначены для дообучения моделей пользователями с ограниченными ресурсами. Исходные модели же, как правило, обучают организации, имеющие доступ к значительным вычислительным ресурсам.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🎧🤖 Можно ли использовать музыку для обучения нейросетей?
24 июля Ассоциация звукозаписывающих компаний Америки (RIAA) подала иски против компаний Suno и Udio, которые разрабатывают нейросети, генерирующие музыку. Представители музыкальной индустрии считают, что компании используют защищённые авторским правом музыкальные произведения для создания моделей, генерирующих музыку. Эта музыка достоверно имитирует привычные записи, сделанные людьми, и всё это, по их мнению, нарушает законодательство.
Когда будет вынесено судебное решение — неизвестно. Вчера в блоге Suno появилась посвященная разбирательству запись, где есть такие слова:
Подобно подростку, который создаёт собственные рок-композиции после прослушивания образцов жанра, или подобно учителю и журналисту, изучающим созданные кем-то материалы, чтобы почерпнуть новые идеи, обучение не расценивается как нарушение. Оно никогда не было нарушением и не стало им сейчас.
📖 Минутка языкознания в ТЕХНО! Хотим рассказать про синдром СИА, который часто встречается в мире технологий.
Так называют повторное использование слова, которое уже включено в аббревиатуру. Например, CD-диск — это «компактный диск диск», а IT-технологии — это «информационные технологии технологии».
Само словосочетание «синдром СИА» — тоже пример синдрома СИА, поскольку расшифровывается как «синдром синдром избыточного акронима». Этот термин был в шутку предложен одним из авторов журнала New Scientist в 2001 году, однако с тех пор вошел в научный обиход и используется в работах лингвистов.
Кстати, многие лингвисты не считают синдром СИА серьезной речевой ошибкой, поскольку повторение слов для усиления ясности свойственно многим языкам. В этом смысле русское «чуть-чуть» или «да-да» близки по своей сути к «CD-диск». Также синдром СИА иногда позволяет уточнить, о чем идет речь, поскольку похожие аббревиатуры могут обозначать разные вещи. Например, CD — это компакт-диск, а Cd — это общепринятое сокращение для кадмия.
🤔 Пишите в комментариях, если сталкивались с другими примерами синдрома СИА.
Подписывайтесь 👉 @techno_yandex
👀 В этом видео робот Figure 01, созданный с использованием мультимодальной нейросети от OpenAI, угощает человека яблоком, хотя тот не просил об этом напрямую. Он может делать это благодаря пространственной осведомлённости.
Пространственная осведомлённость (spatial awareness) — это способность анализировать окружающее пространство, отслеживать находящиеся в нём объекты, учитывать их форму и положение, а также реагировать на них. Термин применяют по отношению к людям, а также системам искусственного интеллекта.
Для чего это нужно?
Пространственная осведомлённость позволяет машинам выполнять задачи, требующие от них физического контакта с окружением или понимания поведения объектов в нём. Она нужна роботам, беспилотному транспорту, роверам-доставщикам, а также системам дополненной реальности.
Работы в этом направлении активно велись ещё во время бума беспилотных автомобилей, а с появлением мощных мультимодальных нейросетей оно получило новый импульс. Например, недавно Фей-Фей Ли, известная учёная и создательница проекта ImageNet, основала стартап World Labs. Он занимается разработкой системы, способной понимать физический мир так же, как человек. Всего за несколько месяцев стартап привлёк около $100 млн инвестиций.
Как этого добиться?
При создании систем, которые понимают окружающую среду, используют сразу несколько технологий:
🛜 Датчики (лидары, камеры, радары, GPS) — чтобы собирать информацию об окружающей среде
👀 Компьютерное зрение — чтобы обрабатывать информацию с датчиков и распознавать объекты
🗺 Карты и пространственные трёхмерные модели — чтобы анализировать движение окружающих объектов
🛞 Системы управления — чтобы принимать решения и и планировать собственные перемещения
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex
🎧 Прочитайте историю американского инженера Рэя Долби, благодаря которому мы слушаем качественно записанную музыку.
🤝 В 1949 году 16-летний Рэй Долби познакомился с русским учёным Александром Понятовым. Этот офицер белой армии уехал из России после Гражданской войны в США и основал компанию Ampex, которая производила профессиональные аудио- и видеомагнитофоны.
📋 Работая в Ampex, Долби заинтересовался проблемой шумопонижения — устранением шумов из звукового сигнала. Но качественного шумопонижения для звукозаписи тогда не было — это считалось невозможным.
🇮🇳 В 1963-м Долби уехал в Индию советником при ЮНЕСКО, взяв магнитофон, чтобы записывать фольклорные выступления. Качество записи его не устроило, и он понял, что хочет посвятить жизнь решению этой проблемы.
🎙️ В 1965-м Долби основал Dolby Laboratories, где помимо него работали три сотрудника. Через полгода он представил профессиональную систему шумопонижения Dolby-A. Она делила диапазон звуковых частот на четыре поддиапазона, и в каждом уровень шума уменьшался на 10 дБ. Это была сенсация.
🎶 В 1966-м английский лейбл Decca Records сделал первую запись с Dolby-A. «Первой чистой записью в истории» стал фортепианный концерт Моцарта в исполнении советского пианиста Владимира Ашкенази. Через год уже два десятка крупных компаний использовали Dolby-A, сделав её стандартом.
🔊 В 1960-х магнитофоны стали появляться у миллионов людей по всему миру. Шумопонижение для них было критически важно, и Долби разработал систему Dolby-B, также на много лет ставшую стандартом.
📽️ В начале 1970-х Долби занялся звуком в кино. Первым фильмом, озвученным с помощью системы Dolby, стал «Заводной апельсин» Стенли Кубрика. А в середине 1970-х появилась технология Dolby Stereo для записи звука на киноплёнку, определившая то, как звук мы слышим в кинотеатрах сейчас (первым фильмом с Dolby Stereo стали «Звёздные войны»). Позднее Dolby Laboratories разработала технологии Dolby Digital 5.1 и Dolby Atmos, которые до сих пор позволяют компании оставаться лидером в области технологий звука в кино.
⭐ Долби был непубличным человеком, но получил десятки наград. В 1989-м — Оскар за научно-технические достижения и Эмми в той же категории, а в 1995-м — Грэмми за выдающиеся достижения в мире звукозаписи. Уже после его смерти, в 2013 году, на Аллее славы в Голливуде появилась его звезда.
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь 👉 @techno_yandex