derplearning | Unsorted

Telegram-канал derplearning - Derp Learning

12278

Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Subscribe to a channel

Derp Learning

Легкая, компактная риалтайм демка с object detection.

SmolVLM запускается локально, всего на 500m параметров, инструкция есть на гит.

И в конце небольшой поворот, внешний интерфейс навайбкожен 🫤

Читать полностью…

Derp Learning

Не снял, потому что это моя жизнь

Читать полностью…

Derp Learning

Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.

После этого всем стало в целом без разницы кто это.

Git

@CGIT_Vines

Читать полностью…

Derp Learning

Визуализация моего гитхаба

Читать полностью…

Derp Learning

ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:

«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».


Эти семь секунд включают момент выхода на сцену, первые слова, мимику, контакт глаз, позу и темп голоса - т.е. касаются в основном невербальной коммуникации. Авторы новой работы перенесли этот подход на вербальную коммуникацию, опираясь прежде всего на классическую «тонко-ломтевую» (thin-slice) линию исследований, начатую в 1990-е Натали Амбади и Робертом Розенталем (их эксперименты показали, что по 30-секундным беззвучным отрывкам можно с высокой точностью предсказывать оценки преподавателей студентами).

С тех пор на основе “тонких срезов” вырос целый корпус работ. Например:
• «speed-dating»: по нескольким секундам общения оценивали перспективу отношений
• микроданные невербального поведения на собеседованиях
• сигналы эмоций через невербальные каналы
• восприятие харизмы только по голосу (и шире - по акустике речи)
• мгновенные решения о доверии и компетентности по выражению лица
• как впечатления о спикере влияют на восприятие самого контента
Всё это - фундамент доказательства, что крошечные отрывки поведения и речи несут достаточную информацию о навыках, эмоциях и чертах личности.

Но лишь революция ChatGPT позволила применить подобный подход в языково-текстовом микромире (где нет ни голоса, ни внешности, а есть только стенограмма).

Как это делали:
• 128 докладов,
• 2 модели GPT-4o-mini и Gemini 1.5
• срезы размером 1-75 % текста стенограмм
• оценки моделей сравнивали с 60 экспертами - людьми

Что из этого следует для нас?
1) Золотое правило «зацепи аудиторию в первую минуту» получило эмпирическое подтверждение: если первые фразы скучны, дальше уже поздно спасать ситуацию.
2) LLM открывают дорогу к молниеносной, практически бесплатной обратной связи для преподавателей, политиков, учёных и всех, кому важно говорить убедительно. Соединяя идеи «тонких срезов» и возможности ИИ, мы получаем масштабируемый, надёжный и валидный инструмент, который поможет прокачивать публичные выступления и доводить их восприятие аудиторией до максимума (в пределах харизмы спикера).
3) А уж какая лафа ожидается в деловом общении с использованием презентаций и иных публичных выступлений (для клиентов, партнеров, инвесторов …)!

Вангую: очень скоро к LLM-анализу «тонких срезов» стенограмм добавится анализ тонких срезов аудио и видео выступлений (т.е. мультимедийный синтез всех каналов вербальной и невербальной коммуникации).

И тогда ИИ станет незаменимым инструментом для политтехнологов, спичрайтеров и имиджмейкеров.

А уж из совсем крышесносных перспектив - преодоление несжимаемости эволюционного опыта Homo sapiens.

#ВовлечениеАудитории #ИнтеллектуальнаяПродуктивность #LLMvsHomo

Читать полностью…

Derp Learning

Когда пришла пора билдить навайбкоженное

Читать полностью…

Derp Learning

You cannot spell sudoku without sudo

Читать полностью…

Derp Learning

Ну за шрифтовых дизайнеров!

А заодно за векторизацию.

Идете в chatGPT (хоть в 4o, хоть в o4)

И говорите:

Design a type specimen sheet that clearly displays every character of the English alphabet and numerals in a clean, consistent layout. Include all uppercase letters (A–Z). Arrange them in a precise grid layout with ample vertical and horizontal padding to ensure no characters are cropped or cut off. Sort characters alphabetically and numerically in clearly defined rows or sections. [Use a cyberpunk] aesthetic with black glyphs on a white background. Ensure the typeface style is uniform across all characters, with sharp lines, balanced proportions, and ideal legibility for typography development.  Explicitly render the following characters with full visibility and spacing: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z


Вместо [Use a cyberpunk] можете использовать use serif, use pixelated, use bubble - как у меня на картинках, или придумать что-то поумнее.

Получите новые шрифты, доселе невиданные.

Тут вы возопите, этожрастр!

Ну ок, подаете ему картинку на вход и говорите "Do not OCR picture, just trace inner and outer contours of every symbol and make svg file"

Получаете контура.

Заливка - апжлста!
now fill letters with black, fill only space between inner and outer countour - сделал скриншоты, могу скинуть SVG в коменты, если не верите.

Покуролесим?

@cgevent

Читать полностью…

Derp Learning

FLUX.1-dev-ControlNet-Union-Pro-2.0

Для гиков. Вышел новый(версия 2.0) ControlNet-Union-Pro-2.0 для Флюкса.

Меньший размер модели.
Пофиксили качество и управляемость.
Зачем-то убрали tile (говорят, что при обучении он сильно портил остальные режимы)

Фарш тут:
https://huggingface.co/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0

В вот тут даже демо:
https://huggingface.co/spaces/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0

Демо рабочее, вначале видно, что долго грузит модель, потом отрабатывает

Я взял мем, и попросил chatGPT 4o вынуть глубину из него (об этом серия постов) , а потом скормил это в новый контролНет. Вышло на удивление неплохо, с дофом.
Остальные картинки с их репо на хф.

@cgevent

Читать полностью…

Derp Learning

Исследования которые мы заслужили:

Читать полностью…

Derp Learning

Попросил Чатгпт поискать лоры по стилям. Штош, аги ачивд интерналли.

Читать полностью…

Derp Learning

Наконец-то кто-то решает проблему длительности генерации видео – вместо коротких сегментов сцена просто описывается длинным сценарием, где явно указаны начало и конец каждый сцены, и что в сцене должно происходить – на выходе у нас не Голливуд конечно, зато все в одном стиле и с теми же персонажами. Через полгодика, заживем, со всеми этими текст-в-видео

Код и другие примеры тут

Пример промпта который использовали в этом видео:

The World Trade Center towers stand tall against a clear, bright blue morning sky. Streets bustle with pedestrians in suits, and yellow taxis move slowly through heavy traffic. Sunlight reflects sharply from glass windows of nearby buildings. Tom, the blue-gray cat, walks briskly along the wide gray sidewalk with a single black briefcase in his hand.<end_scene>

<start_scene>Inside the World Trade Center lobby, expansive marble floors reflect warm golden recessed lighting. Gray marble pillars and brass fixtures highlight the elegant entryway, along with a brass elevator door. A uniformed doorman wearing a dark navy-blue suit stands behind a polished wooden counter. Tom, the blue-gray cat, with a single black briefcase in his hand calmly walks in from the right and approaches the elevator doors. Tom's left hand is empty.

Inside the World Trade Center lobby, expansive marble floors reflect warm golden recessed lighting. Gray marble pillars and brass fixtures highlight the elegant entryway, along with a brass elevator door. A uniformed doorman wearing a dark navy-blue suit stands behind a polished wooden counter. Tom, the blue-gray cat, has a single black briefcase in his hand slowly presses the elevator button on the left side of the elevator and waits. Tom's left hand is empty.<end_scene>

И так еще 7 абзацев

Читать полностью…

Derp Learning

Попытка номер 2
Apt lineart style

Читать полностью…

Derp Learning

по просьбе папищеков Семен Альтманов
жизнь без борды \ жизнь с бордой

Читать полностью…

Derp Learning

Обставляем нашу квартиру с нейросетями

Короче, у нас достроилась и сдалась квартира в Москве
Мы планируем ее сдавать. Квартира с ремонтом

Я 2 месяца назад попросила дизайнера сделать нам подборку мебели для сдачи. Она сделала саму подборку, но не сделала визуализацию, потому что с визуализацией это стоило 100к
(сейчас я понимаю, что вообще можно было не платить даже за подборку, а просто самой сесть выбрать мебель)

Сегодня я взяла все фотки мебели из ее подборки с Озона / Диван ру, прикрепила план и фото квартиры и дала чату джипити задачу сделать визуализацию.
смотрите что получилось

По пути я поменяла ковер на другой из подборки, столики выбрала круглые, чат джипити добавил лампу
Вечером буду сидеть визуализировать разные картины на стену и разные ковры, а завтра буду другие стороны зала и спальни обставлять

В восторге, короче 🚀 как вам?

Читать полностью…

Derp Learning

AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.

Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.

В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.

В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.

Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.

Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.

- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github (нормальный код!!!)

Читать полностью…

Derp Learning

mAGI unachieved successfully

Читать полностью…

Derp Learning

MAGO теперь в Closed Beta!💖

Подать заявку можно вот тут: LINK

📕 Что мне как творческому аниматору нравится:

— Side By Side(SBS) mode. Когда ты можешь сравнивать сразу несколько генерации и понимать как настройки меняют генерацию. То есть в данном случае сервис позволяет узнать как работают разные настройки и экспериментировать с ними.

— Folders, когда проекты можно упаковывать в папки и разделять по интересам, работам. (Наверное уже заметили как это удобно в ChatGPT)

— Controlnets. Это достаточно приятно упаковано и я рад, что доступ к этим настройкам оставили в том виде, как привыкли их видеть ComfyUI пользователи, а не в виде Midjourney параметров.

— И ещё много чего в процессе.

Я не так много публикую работ из MAGO. Но мне приятнее и приятнее с каждым днем генерировать именно там.

Когда будет открыт доступ для всех, я напишу!

Читать полностью…

Derp Learning

NotebookLM от Гугла теперь поддерживает 50+ языков, включая русский.

Загружаете PDF- и аудиофайлы, указываете ссылки на сайты, видео YouTube, документы и презентации Google. NotebookLM будет обобщать всю информацию и проводить интересные связи между темами с помощью мультимодальной ИИ-модели Gemini 2.0.

Пора заводить подкаст, вестимо.

https://notebooklm.google/

@cgevent

Читать полностью…

Derp Learning

Быстрые 3D композиции локально для ComfyUI

Это просто находка для тех, кто работает с ComfyUI и хочет быстро создавать 3D-композиции. A3D позволяет легко:

— Задавать позы простым болванками.
— Выбирать идеальные ракурсы камеры и строить сцены.
— Импортировать любые 3D-модели — от Mixamo до результатов Hunyuan3D 2.5.
— А самое крутое — вы можете моментально отправить цветное изображение или карту глубины из A3D в ComfyUI и использовать их в своих любимых workflow!

🔗 Оценить разработку n0neye можно по ссылке: LINK — причем это опенсоурс

Как пишет сам автор, A3D задуман как быстрый и легкий способ создавать сцены без погружения в сложные 3D-редакторы. Некоторые фишки вроде 3D-генерации пока зависят от Fal.ai, но n0neye планирует добавить локальные альтернативы в будущем.

Мне нравится,что проект опенсоурсный и автор ищет сейчас умельцев для продолжения интеграции A3D в ComfyUI и планирует прикрепить к нему локальную генерацию через Hunyuan3D.

Мне понравилась идея, так как иногда Blender слишком сложный для новичков, а этот проект выглядит простым в использовании.

📕 Минусы:
— Пока только для Windows пользователей

GITHUBAUTHOR

Читать полностью…

Derp Learning

Наконец-то появился повод собрать so-100. Это вам не футболки складывать!

X

@derplearning

Читать полностью…

Derp Learning

У ваших детей мало травмирующих воспоминаний? Самое время добавить ещё парочку, оживив их рисунки 😅

Читать полностью…

Derp Learning

Дизайнер прислал ужасный макет (как в примере), а вы не арт-директор и не можете сказать, что конкретно в нем не так? В новом ChatGPT o4 серьезно прокачали vision — способность понимать, что изображено на картинках. Поэтому грузим макет, пишем промт из серии:

Представь, что ты арт-директор. Критически прокомментируй этот макет. Дай профессиональные рекомендации, как его улучшить.

Получаем детальный разбор (разверните цитату):

1. Композиция и иерархия
Перегруженность визуальных центров. Сейчас «пластиковые ОКНА», «БЫСТРО И ДОСТУПНО» и номер телефона конкурируют за внимание одновременно.

Рекомендация: выбрать один‑единственный силовой элемент (например, «ОКНА») и остальные блоки выстроить в пределах подчинённой иерархии.

2. Типографика
Слишком много гарнитур и стилей. Используется минимум три разных шрифта (узкий, полужирный, курсивный), плюс вариативные размеры и регистры – глаз «теряется».

Рекомендация: ограничиться двумя семействами шрифтов (один — для заголовков, другой — для текста), унифицировать вес (например, заголовки — Bold, подзаголовки — Regular) и убрать курсив, заменив его подчёркиванием или другим цветом.

3. Цветовая палитра
Непродуманная градиентная заливка. Переход со светло‑жёлтого в светло‑зелёный фоновый цвет выглядит пестро и отвлекает.

Рекомендация: оставить однотонный или очень мягкий фон (например, светло‑серый), а акцентные цвета (красный, тёмно‑синий) использовать дозированно, чтобы не «резали» глаз.

4. Выравнивание и сетка
Смещение блоков. Линии текста выглядят «плавающими»: номер телефона выступает за границы, надписи «двери⋆лоджии⋆перегородки» не выровнены.

Рекомендация: задать модульную сетку (колонки и ряды), чётко выровнять все текстовые блоки по левой или по центру (но одним стилем), выдержать равные отступы.

5. Пространство и «дыхание»
Слишком плотно. Между заголовками, иллюстрацией окна и контактами почти нет пустого пространства.

Рекомендация: увеличить внутренние поля (padding) вокруг каждого смыслового блока, добавить «воздуха» между строками (line‑height ≈ 1.3–1.5 от размера шрифта).

6. Иллюстрация окна
Мелковата и теряется. Сейчас иллюстрация не поддерживает текстовую иерархию и выглядит «прилепленной».

Рекомендация: либо увеличить её размер и использовать как фоновой элемент за заголовком, либо вынести в правый или нижний угол, дав ей больше «плошадки».

7. Контраст и читаемость
Красный по светлому градиенту. «БЫСТРО И ДОСТУПНО» в красном читается тяжело из‑за бликов фона.

Рекомендация: либо сделать тон фона более ровным, либо заменить красный на более тёмный, сохраняя при этом акцент.

В итоге — упростить, выстроить чёткую сетку, сократить число шрифтов и цветов, усилить один‑единственный ключевой акцент и обеспечить достаточно «воздуха» между элементами. Это сразу повысит читабельность и впечатление о профессионализме макета.


По мимо поджопника, я бы дал дизайнеру + - такие же комментарии. А еще мы можем попросить новую визуальную модель сгенерировать по этим комментариям новый макет 🥂. Сверстает плохо, сделает с ошибками, но можно будет использовать как референс.

Читать полностью…

Derp Learning

Пакет для питона, который позволяет накладывать тарифы на импорт других пакетов.

А то крадут наши компьюты понимаете ли

Make python great again!

Git

Читать полностью…

Derp Learning

Сколько уиллсмитов?

А трек прям в тему...

@cgevent

Читать полностью…

Derp Learning

Google добавил AI как формулу в гугл-таблицы – наконец-то можно не мучаться с плагинами и скриптами

Тут подробнее, фича доступна в альфа версии и активируется этой инструкцией

Читать полностью…

Derp Learning

и немного сентиментального
Miki Matsubara - Mayonaka No Door

Читать полностью…

Derp Learning

Mediation app we needed but didn't deserve

Читать полностью…

Derp Learning

Сколько зарабатывают Ai-художники?

За последние пару лет у нас сформировалась совершенно новая индустрия, которая развивается стремительно и непредсказуемо. И вместе с этим — возникает много вопросов. Один из самых важных: а сколько вообще зарабатывают люди, работающие с AI-визуалом?

Сейчас в профессии — хаос в ставках, непонимание “нормы” и огромный разброс по деньгам. Чтобы разобраться, я создала анонимный опрос, который поможет всем нам сформировать более прозрачную и честную картину рынка.

Очень прошу:
— если ты используешь нейросети в своей работе (не важно, коммерчески или творчески) — заполни его
и пожалуйста, перешли коллегам, друзьям, в каналы / сторис / комьюнити. Только так мы соберём объёмную и полезную статистику.

Важно: оценивай доход в среднем за год — если ты в один месяц получил 500, а в другие по 30, не ставь 500. Нам нужна реальная средняя картина.

Еще раз повторю вопрос полностью анонимный (даже для меня) поэтому не стесняйся.

Ссылка на опрос тут.

Спасибо тебе! Надеюсь, это поможет нам всем ориентироваться и развиваться честно и осознанно. Позже обязательно поделюсь статистикой в своем канале.

#money

Читать полностью…

Derp Learning

Полезай в ебаный котобус, Синдзи

Читать полностью…
Subscribe to a channel