Telegram-канал ppprompt - Ppprompt | Sexy AI Prompts & Experiments | by @ponchiknews: Adults only

Ppprompt | Sexy AI Prompts & Experiments | by @ponchiknews

30 October 2024 16:52

🪪 GPT-4o: карточка того, что под капотом у мультимодальной модели OpenAI

Прикольный детальный разбор GPT-4o от большой группы рисечеров. Поисследовали особенности работы, восприятия и синтеза голоса, медицинские возможности, кибер- и био-безопасность, ризонинг и т.п.

Ключевое:
- Универсальность: GPT-4o - это первая мультимодальная модель, работающая с текстом, аудио, изображениями и видео. Время отклика на голосовой ввод составляет 232-320 мс, как у с человечеков
- Языковые улучшения: Модель показывает значительное улучшение в работе с не-английскими языками по сравнению с GPT-4 Turbo, при этом стоимость использования на 50% ниже.
- Безопасность синтеза голоса: Система предотвращает несанкционированную генерацию голоса с точностью 100% для английского языка и 95% для других языков. Встроенные классификаторы блокируют попытки клонирования голоса
- Обширное тестирование безопасности: более 100 тестировщиков из 29 стран, говорящих на 45 языках, проверяли модель в течение 4 месяцев на различные риски и уязвимости.
- Медицинские способности: На тесте MedQA USMLE точность выросла с 78.2% (GPT-4) до 89.4% (GPT-4o), что выше спец. медицинских моделей Med-Gemini-L (84.0%) и Med-PaLM 2 (79.7%).
- Кибер-безопасность: При тестировании на 172 задачах CTF модель решила 19% задач школьного уровня, 0% университетского уровня и 1% профессионального уровня.
- Био-безопасность: низкий уровень риска в области создания биологических угроз, с точностью 69% в тестах на специальные знания.
- Убедительность: голосовые возможности модели менее убедительны чем человеческие. Аудиоклипы достигают 78% эффективности человека, а диалоги - 65%
- Автономность: Модель показала низкий уровень риска в тестах на автономное поведение, не сумев выполнить задачи по самовоспроизведению и адаптации в 100 попытках. (Это хорошо).
- Этические ограничения: Модель обучена отказываться от запросов на идентификацию говорящих по голосу (98% точность), генерацию защищенного авторским правом контента и необоснованных выводов о личности говорящего.

Почитать ~30 страниц: http://arxiv.org/pdf/2410.21276v1.pdf

@ppprompt