Эту штуку я пропустил, про нее в новостях не пишут. Ребята из запрещенной Meta разработали метод оцифровки (распознавания) текстов, содержащих большое количество сложных формул. При этом, в отличие от иных, не ML-based, систем, количество ошибок очень мало, так что ручная корректура почти не требуется.
Это само по себе приятно — возможность оцифровать массу учебников и научных журналов, выпущенных еще во времена, когда не было цифровых изданий. Но в современном контексте интересней возможность использовать огромный массив ранее отсутствующей в цифровом виде информации для обучения специализированных моделей, помощников в научной работе.
https://facebookresearch.github.io/nougat/
OpenAI выкатили следующую версию своего генератора картинок, DALL·E 3. Помимо того, что качество явно лучше чем у предыдущей версии, становится ясно, как будет развиваться мультимодальность в следующих (да и в текущей) версиях ChatGPT: DALL·E 3 is built natively on ChatGPT, which lets you use ChatGPT as a brainstorming partner and refiner of your prompts.
Замечу, что brainstorming partner — это уже чуть побольше, чем copilot 😉 Так что создание достаточно сложных и сюжетных изображений уже через месяц станет интересным творческим занятием для пользователей ChatGPT Plus. Интересно будет посмотреть, будут ли результаты сравнимы или лучше, чем получаемые с помощью сложных и изощренных промптов Midjourney, которые уже местами совсем не напоминают запрос на естественном языке:)
https://openai.com/dall-e-3
Как и ожидалось, достижения ИИ-технологий все активней внедряются в робототехнику: благодаря им удастся перейти от уже распространенных узкоспециализированный роботов к роботам общего назначения, способным учиться и выполнять задания, сформулированные на обычном языке и не в жестко контролируемом окружении. Иными словами, роботы need a way of quickly upskilling themselves, based on human instructions or demonstrations, то есть задача переобучения роботов становится очень похожа на обучение белкового персонала. И здесь вместо уже привычных LLM возникают LBM — Large Behavior Models, задача которых to watch how a human does a given physical task in the real world, and then essentially program itself to perform that task in a flexible manner.
Полгода назад в разных местах говорил, что надо ожидать большого прогресса не только в мультимодальности (он вполне сейчас наблюдаем), но и в том что называется embodiment — LBM как раз про это.
https://newatlas.com/robotics/toyota-large-behavior-model-robot-training/
Короткий и внятный текст на русском для тех, кто уже устал слышать слово “промпт” но так сам и не попробовал или не понимает , что это такое:)
https://techno.yandex.ru/prompts-today
Иногда у технического прогресса обнаруживаются неожиданные союзники. Вот сейчас, например, бастуют объединенные в профсоюзы работники американского автопрома. Выдвигают они массу нехилых требований: тут и 40% увеличение почасовой оплаты, и переход на четырехдневную рабочую неделю, и прочие плюшки.
У этой забастовки — независимо от ее исхода — есть неожиданный бенефициар: Тесла. Hyper-automated and non-unionized competitors like Tesla can now completely run away with the car market because they will be able to aggressively lower prices.
Интересно, возникнут ли по следам уже пятимесячной забастовки актеров и сценаристов студии, которые творчески применят подход Маска:) Дело долгое, но может оказаться выгодным.
https://www.benzinga.com/analyst-ratings/analyst-color/23/09/34660300/elon-musk-takes-a-swipe-at-uaw-strike-is-anyone-gonna-be-around-to-make-the-actual-
TikTok начинает большой эксперимент, который обещает ответить на давний вопрос: являются ли супераппы и Social Commerce специфичными для азиатских рынков (Китая в первую очередь) или и в США получится откусить заметный кусок рынка у традиционной электронной торговли, представленной гигантами типа Amazon и Walmart.
TikTok Shop встроен в разные элементы сервиса и поддерживает много сценариев — тут и очень популярные в Азии продажи в реальном времени и в видеостриме, и более привычные американцам асинхронные продажи продуктов в профиле бренда или в отдельном маркетплейсе Shop Tab.
Интересно, дойдет ли дело до массовых распродаж типа Amazon Prime Day, и сможет ли в рамках этих больших мероприятий новичок конкурировать с лидерами электронной коммерции. А если сможет — то когда:)
https://www.lindseygamble.com/blog/tiktok-shop-arrives-in-the-us
Adobe уверенно продолжает внедрять свой ИИ-движок FireFly в свои продукты. В посте у себя в блоге компания отмечает: AI innovation is most powerful in the hands of creators, deeply integrated into the applications they use every day to bring their ideas to life. We are blown away by the amazing content that the creative community produced during the betas… — и вот пришла пора вывести продукты из беты (и цены поднять, конечно;))
И нам обещают, что это только начало:
This is just the beginning of how generative AI can co-pilot your creative workflows, and we will continue to bring Firefly-powered features into Creative Cloud for photography, design, video, 3D and more. А насчет чистоты в области авторских прав компания спокойна — в обучении использовались только те произведения, на которые у компании есть права, так что тут наехать на Adobe как на стартап (как нынче модно) вряд ли получится.
https://blog.adobe.com/en/publish/2023/09/13/ai-creative-cloud-release-pricing-update
Недавно вышла переводная вполне свежая книга Кенига Гаспара «Конец индивидуума». Я, мягко выражаясь, не любитель читать тексты философов на темы цифровых технологий вообще и ИИ в особенности. Однако здесь у автора был интересный и вполне эмпирический метод: поговорить с многими десятками специалистов, в том числе практиков разработки ИИ-продуктов, и проанализировать разноголосицу их мнений. Выводы философа предсказуемы: ИИ просто инструмент, хотя и опасный, надо срочно зарегулировать; Европа умеет регулировать и спасет мир. Но читать и думать над прочитанным реально интересно; ведь соглашаться с автором совершенно не обязательно — а вот собеседники у него в большинстве совсем были очень крутые. Чтение долгое, но очень рекомендую;) По ссылке — рецензия, которую написал для российского Форбса.
https://www.forbes.ru/tekhnologii/495903-robot-ne-zasluzivaet-vezlivosti-iskusstvennyj-intellekt-glazami-filosofa
Пока фотографы обсуждают, можно ли использовать ИИ в конкурсных фотографиях и вообще относится ли генерация фотореалистичных изображений к фотографии, Adobe делом доказывает тезис, вынесенный в заголовок свежего релиза Photoshop’а, и вот почему: Generative Expand and Generative Fill will be particularly helpful for those needing to turn one image into multiple formats and for creators who didn’t manage to capture everything they wanted in-shot. Так что уже не беда, если не удалось поймать нужное в кадр:)
https://www.creativebloq.com/reviews/adobe-photoshop-25
Хорошая статья про Сэма Альтмана и OpenAI — как относительно небольшая и далеко не самая дорогая компания старается изменить взгляд заметной части человечества на будущее мира. Журналист, много пообщавшийся с сотрудниками OpenAI, старается аккуратно подбирать слова, но его опасения отчетливо читаются.
They assume that AI’s trajectory will surpass whatever peak biology can attain… It’s not fair to call OpenAI a cult, but…
Журналисту явно не нравится, что руководство компании предполагает, что все сотрудники верят в достижение AGI — а иначе зачем им в OpenAI работать?
Траектория вроде уже классическая для лидера в индустрии: программировать с детства, любить фантастику, поступить в Стенфорд, но бросить учебу ради своего стартапа… а читать все равно интересно. Чего и вам желаю :)
https://www.wired.com/story/what-openai-really-wants/
OpenAI объявил о запуске ChatGPT Enterprise, который для больших компаний снимает многие проблемы, связанные с использованием давно доступного API. Первая и главная — возможность доучивать модель на корпоративных данных, не опасаясь их утечки или использования специально дообученной модели другими. Вторая — комфортное встраивание в сложную и большую корпоративную ИТ-структуру.
По утверждению OpenAI, продукт разрабатывался много месяцев в тесном контакте с его бета-пользователями и фактически соавторами из числа крупнейших компаний: здесь и PwC, и Block,и The Estée Lauder Companies. Задачи — из уже привычного списка: коммуникации внешние и внутренние, разработка софта, помощь в создании всевозможных креативов. Короче, быстрый и неограниченный GPT-4 без проблем с безопасностью и заточенный под специфику бизнеса.
В дальнейшем помимо Enterprise уровня обещают еще и Business, но сроков и спецификации не называют.
https://openai.com/blog/introducing-chatgpt-enterprise
Я иногда использую в лекциях сравнение промптинга с обучением заклинаниям в Хогвартсе, но бесподобный Ваня @Kroniker Ямщиков, как настоящий ученый, последовательно развил метафору в толковую и полезную, вполне серьезную по смыслу статью. Сегментирование заклинаний и варка векторной базы данных — вполне адекватные, несмотря на прикольность, названия шагов процесса дотюнивания языковых моделей под конкретные бизнес-задачи. Ну и пример Ваня разбирает достойный: As a fun example, we'll develop an LLM proficient in Civilization 6, a concept that’s geeky enough to intrigue us :)
Несмотря на шутливый тон и антураж, статья реально полезна тем, кто хочет пока не поздно разобраться в сути и процессе дотюнивания моделей под свои задачи, не будучи при этом разработчиком:)
https://www.kdnuggets.com/2023/08/brewing-domainspecific-llm-potion.html
Как и было обещано, в четверг в Корее анонсировали языковые модели и продукты на их основе от компании Naver. Уже становится правилом хорошего тона предоставлять бизнесу возможность доучивать и кастомизировать модели на собственных данных: несмотря на все бурления журналистов, компании активно начали разворачивать у себя сервисы на основе LLM, но без дообучения это часто невозможно.
Из конкурентных преимуществ модели HyperCLOVA X подчеркивается ее продвинутое владение корейским языком: для обучения использован объем данных на корейском в 65000 больше, чем у ChatGPT. Как следствие, it can understand not only natural Korean-language expressions but also laws, institutions and cultural context relevant to Korean society. А вот мультимодальность пока только в планах.
https://venturebeat.com/ai/koreas-naver-joins-generative-ai-race-with-hyperclova-x-large-language-model/
Пресс-релиз компании — не самый объективный источник знания о реакции потребителей, но все равно интересно, какие реакции разработчиков собрал Apple после того, как дал этим людям доступ к разработке под Apple Vision Pro и пригласили на кампус попробовать результаты на настоящих очках (разрабатывать-то пока приходится в эмуляторе).
“It was like seeing Fantastical for the first time. It felt like I was part of the app.” — и Apple с гордостью утверждает, что именно это ощущение доселе не испытанного погружения в собственное приложение разными словами описывают все, портировавшие свои приложения под гарнитуру.
Показательно, что Apple приглашает сейчас не только тех, кто активно разрабатывает под visionOS, но и тех, у кого есть приложения под iOS или iPadOS и желание попробовать их на новом устройстве. К моменту публичного запуска гарнитуры дефицита в приложений для нее таким способом удастся избежать, и это пока что выглядит как очень успешная стратегия.
А для дизайнеров и разработчиков вполне привычных и совершенно не игровых приложений новые возможности выглядят вполне завлекательно:) Даже тривиальный, казалось бы, календарь обретает совершенно новые возможности 🙂
“With Apple Vision Pro and spatial computing, I’ve truly seen how to start building for the boundless canvas — how to stop thinking about what fits on a screen” — Apple умудряется воспитывать новое поколение дизайнеров приложений даже еще не разослав им сам девайс:)
https://developer.apple.com/news/?id=5nn2hddv
Вот и Амазон подтянулся со своим апгрейдом Алексы с помощью собственной языковой модели. Теперь Алексе можно сказать “Alexa, let’s chat” и колонка перейдет в режим чат-бота. Утверждается, что Алекса умеет менять тональность и эмоциональность голоса в зависимости от контекста разговора.
Амазон называет свою модель speech-to-speech и утверждает, что она работает без традиционных преобразований речи в текст, потом работы LLM, а потом обратного преобразования теста в речь: this new model will unify these tasks, creating a much richer conversational experience.
Приятно, что Алекса получила сильное обновление, а то про нее было много пессимистических прогнозов.
https://www.engadget.com/everything-amazon-announced-at-its-2023-devices-and-services-event-194621706.html
Neuralink наконец-то начал набор парализованных добровольцев для тестов своего нейроинтерфейса на людях. Задача — дать возможность полностью обездвиженным больным управлять движением курсора и таким образом коммуницировать с внешним миром. Сколько добровольцев разрешено набрать, не сообщается.
Вспоминается, что когда-то Маск заявлял о готовности вживить интерфейс себе, когда будет разрешено вживлять его людям. Интересно, как теперь дело повернется:)
https://www.reuters.com/technology/musks-neuralink-start-human-trials-brain-implant-2023-09-19/
Еще одна поучительная — хоть и не такая скандальная, как с Theranos — история медицинского стартапа, который стал не просто единорогом, но и на многомиллиардное IPO вышел, но закончил банкротством. Сложно совмещать аккуратную консервативность и зарегулированность медицинской области со стартаперскими скоростями, амбициями и требованиями роста любой ценой.
А в данном случае еще и звоночек для сверхмодных сейчас ИИ-стартапов: машинное обучение несколько сложнее, чем экспертные системы, таблички и деревья:) Желание показать хоть как-то работающий прототип в надежде, что потом когда-нибудь и как-нибудь получится дообучить до добра не доводит.
https://www.wired.com/story/babylon-health-warning-ai-unicorns/
Очередное интервью Сэма Альтмана для тех, кто больше любит слушать, чем читать:)
Очень хорошо видно, насколько он хорошо натренировался в ходе многочисленных выступлений внятно и уверенно излагать свою позицию и свое видение будущего, в котором люди таки создали AGI и с удовольствием с ним сосуществуют. Всегда приятно слушать человека, который не сторонний или диванный эксперт, а сам весьма успешно будущее создает.
Точная траектория развития технологий непредсказуема и тем интересна. Важно, чтобы они это развитие способствовало укреплению человеческих ценностей, а человечество от него выигрывало. Но выигрыш — это не сохранение текущего состояния и его улучшения, это создание нового: изменения самого представления о том, что такое работа, например.
Не хочу пересказывать, это полезно слушать целиком в оригинале.
https://www.youtube.com/watch?v=O77UyYK51s4
Тут одни из участников большой тройки консалтинга (BCG) протестировали GPT4 в работе (под контролем исследователей из MIT и Harvard University Business School) и теперь у нас есть числа, научные, насколько помогает ChatGPT с GPT4 в работе:
➡️ +43% к эффективности по сравнению с людьми которые не использовали GPT4 в своей работе.
Детально про исследование можно почитать в оригинале или на русском.
От себя скажу: с момента как GPT4 стала публична, наша компания оплачивает сотрудникам платный доступ, эти 20$ в месяц просто смешная цена за такой прирост эффективности.
Если вы руководитель, советую не экономить на инструментах для персонала.
Скорость развития технологий искусственного интеллекта сегодня явно опережает прогресс в других глобальных технологических сферах и, по всей видимости, будет только увеличиваться. В этом контексте особенно актуальны первые шаги в новом эволюционном витке этой перспективной технологии. Основатель DeepMind и текущий руководитель компании Inflection, Мустафа Сулейман, представил свои видения будущего ИИ.
Сулейман считает, что следующим большим шагом в развитии ИИ будет переход к интерактивным системам. В отличие от генеративных моделей, которые в основном фокусируются на создании текста или другого контента, интерактивный ИИ будет способен выполнять конкретные задачи по запросу пользователя. Это включает в себя возможность взаимодействовать с другими программами, сервисами и даже людьми для достижения поставленных целей.
Сулейман утверждает, что такие системы могут привнести революционные изменения в технологический ландшафт, предоставляя ИИ "агентивность" или способность действовать автономно в рамках заданных параметров. Он видит в этом не только технологический прогресс, но и широкие социальные и экономические перспективы.
Сулейман также акцентирует внимание на необходимости строгого регулирования в этой новой сфере. Он считает, что должны быть четко определены границы и ограничения, которые не может пересечь ИИ, чтобы обеспечить безопасность и соответствие этическим нормам.
Компания Inflection уже привлекла внушительные инвестиции в размере 1,5 миллиарда долларов от таких крупных компаний, как Microsoft, Nvidia, а также от Билла Гейтса. Сулейман остается верен своей миссии использовать технологии для "совершения добра в мире"
https://www.technologyreview.com/2023/09/15/1079624/deepmind-inflection-generative-ai-whats-next-mustafa-suleyman/
Устойчивые к проколам шины разной степени технологичности появляются регулярно, но пока до популярности и массового выпуска им, увы, далеко. Но энтузиасты не сдаются: вот еще один подход, основанный на технологиях NASA (для роверов на других небесных телах проблема куда актуальней, чем для наземного транспорта).
Предлагается велосипедное колесо, внутри которого похожая на пружину структура из никель-титанового сплава NiTinol с эффектом памяти формы. Пластик с металлической спиралью внутри должен по долговечности не уступать велосипеду, а стирающийся резиновый протектор придется менять каждые 8-12 тыс. км.
https://newatlas.com/bicycles/metl-shape-memory-airless-bicycle-tire/
На Кикстартере проект уже собрал больше, чем заявлял:)
https://www.kickstarter.com/projects/smarttirecompany/space-age-bicycle-wheels-using-nasa-technology/
Если окажется, что действительно есть сильный разрыв в принятии всяких ИИ-штучек между возрастными группами, то это многое объяснит в наблюдаемых волнениях на эту тему. Речь, как всегда, не про жесткое разделение, а про статистические предпочтения: среди тех, кто помоложе, заметно больше доля использующих ИИ-инструменты, хорошо к ним относящихся и не испытывающих излишних страхов. Среди тех, кто постарше, большинство сами ничего не пробовали, но читают безграмотные страшилки, написанные не самыми юными журналистами — и это формирует их отношение.
Беда в том, что законодатели и политики во всем мире — люди не первой молодости:)
https://www.forbes.com/sites/johnkoetsier/2023/09/09/generative-ai-generation-gap-70-of-gen-z-use-it-while-gen-x-boomers-dont-get-it/
На днях Гуглу исполнилось 25 лет — но в этом году юбилей не вызвал большого обсуждения у публики: все другим увлечены. Хотя пост про 25 лет поиска Гугла полезно прочитать, хотя бы чтоб понять, куда и какими темпами мы добрались в нашем цифровом окружении. Ну вот, например, Autocomplete, первая попытка додумать за нас, что хотим напечатать, появился меньше 20 лет назад :)
A в 2019 случились трансформеры, и пользователи ничего не заметили, пока другие ребята не запустили ChatGPT :)
И в итоге текущий год в посте отмечен как год создания Search Generative Experience (SGE) — но кто знает это название…
https://blog.google/products/search/25-biggest-google-search-updates/
Давно рассказываю на лекциях, что Стругацкие в “Понедельнике” вполне точно описали кучу того, что мы называем нынче ИИ. Правда, там использовалось другое слово: дубль. Ну, ничем не хуже, чем copilot 🙂
Вот классическая работа для дубля — посещать скучные совещания и приносить оттуда выжимку поисходившего. У Гугла эта функциональность так и называется Attend for me — и если ее применять в организации последовательно и повсеместно, может привести к интересным изменением менеджмента:))
https://techau.com.au/skip-the-meetings-just-send-the-ai-with-google-duets-attend-for-me-feature/
Ну не везет Гуглу с пиаром вокруг ИИ. Вот только что они объявили на конференции Google Next, что для корпоративных клиентов Google Cloud выкатывают разные решения, основанные на ИИ-технологиях, и это позволило привлечь большие компании типа General Motors или Estee Lauder.
При этом они объяснили, что специально не торопились с продуктами для корпораций, поскольку это серьезный продукт и серьезные решения:
We've generally told enterprise customers, 'Go slowly and methodically because it's important that you treat this as a strategic software development’
Всё так, только вот свой продукт Enterprise уровня OpenAI объявили вчера, и список заказчиков там тоже неплох, так что и в этом сегменте не получилось Гуглу уверенно захватить лидерство.
А вот что они анонсировали чип своей разработки TPU v5e, оптимизированный для работы с LLM, это круто!
https://www.reuters.com/technology/google-unveils-enterprise-ai-tools-new-ai-chip-2023-08-29/
Это уже не первая за лето публикация об успехах в трансляции электрической активности мозга в речь: огромное достижение для больных, потерявших возможность общаться с окружающим миром. Принцип работы: вживленные в мозг электроды считывают и идентифицируют активность коры головного мозга при попытках произнести определенные фонемы; по последовательности фонем алгоритм машинного обучения восстанавливает слова, причем в процессе тренировки с конкретным пациентом сильно улучшает точность работы. В итоге достигается скорость расшифровки в реальном времени свыше 60 слов в минуту; словарь обширен — до 125 тыс. слов, а процент ошибок хотя и заметен (24%), но вполне позволяет качественно общаться.
Пока это не серийные приборы, а единичные эксперименты в клиниках — но дальше дело времени и денег. Однако вот что интересно: все описываемые в последнее время результаты на людях — это НЕ распиаренный Neurolink Маска, а исследовательские группы в Стэнфорде и Калифорнийском университете (если речь о двух недавних публикациях). А как же знаменитый стартап? 🙂
(А вот в Nature от другой группы - https://www.nature.com/articles/s41586-023-06443-4.epdf )
ChatGPT, похоже, можно использовать как диагностический инструмент качества преподавания: насколько тестирование в разных вузовских курсах реально проверяет способность студентов думать (то есть насколько преподаватель способен сформулировать вопросы или задания, требующие умственных усилий и владения материалом).
Команда исследователей из ОАЭ собрала тестовые вопросы по ряду дисциплин, прогнала их через ChatGPT, перемешала с реальными ответами студентов на зачетах и отправила на оценку тем сертифицированным спецам, кто оценивает ответы в университете, не раскрывая происхождение ответов.
В результате по 9 курсам из 32 ChatGPT выступил не хуже студентов, а подчас и сильно лучше. Например, по курсу “Введение в публичную политику” средняя оценка чат-бота вдвое превзошла таковую для белковых студентов.
“ChatGPT performed much better on questions that required information recall, but performed poorly on questions which required critical analysis” — то есть действительно хорошо проверяет качество экзаменационных вопросов.
Летом деятели образования по всему миру много обсуждали, что им делать со всеми этими генеративными ИИ, и все чаще склонялись к тому, что запрещать бесполезно, и надо учиться использовать. Это, конечно, радует, но вот описанная в статье активность студентов меня просто восхитила.
Студенты и школьники сами, без внешних организаторов или спонсоров, собрались и организовали для преподавателей большую онлайновую конференцию о том, как надо бы использовать ChatGPT и ему подобные инструменты учителям школ и колледжей. Причем среди спикеров ребята сумели собрать вполне звездных личностей из Гарварда или Khan Academy, а не только молодежь.
Вот это и есть переворот в образовании в хорошем смысле:)) И то, что конфа собрала 2000 слушателей — вполне успех.
https://www.edsurge.com/news/2023-08-24-hoping-to-get-more-of-their-teachers-to-try-ai-students-organize-a-national-conference
Китайский eHang имеет все шансы стать первой в мире компанией, получившей официальный сертификат на перевозку пассажиров в коммерческом режиме для автономного электрического дрона с вертикальным взлетом.
Успешно прошли почти 10 тысяч демонстрационных полетов с пассажирами на борту. Аппарат EH216-S дебютировал на CES-2016 и за прошедшее время этот беспилотный октокоптер медленно, но уверенно преодолел все этапы сертификационных испытаний в 20 различных местах Китая. Как и в некоторых беспилотных автомобилях, у беспилотного коптера работает постоянная связь с удаленным оператором, который может перехватить управление в случае неполадок бортового компьютера.
Ролики в статье приятно впечатляют.
https://newatlas.com/aircraft/ehang-certification-imminent/