Проклятые нейронные сети Для связи: @krasniy_doshik
Наткнулся на интересный проект: PiT. Суть: даём модельке на вход пару визуальных кусочков — например, прическу, крыло и лапу, — а она достраивает из этого полноценного персонажа или предмет. Без текста, без описаний, только визуальные фрагменты.
Вместо того чтобы объяснять словами, как ты это видишь, — просто показываешь, а модель понимает контекст и домысливает недостающее. Работает на улучшенном пространстве IP-Adapter+, а сверху можно накинуть LoRA, чтобы менять стили, фоны и сцену.
Примеры, подробности и демки тут.
Исходников пока нет, но скоро обещают выкатить
ChatGPT только что полностью провалил экзамен по мемологии :(
Читать полностью…Нашёл канал, где показывается как в диджитале, геймдеве, нейронках и других сферах (типа архитектуры или мебели вообще) работают с конкретно русской эстетикой.
Довольно залипательно. Много прям годноты. Например, генератор фрактальных ковров или русская живопись в VR
Шат ап энд тэйк май мани!!!
Реально, очень крутое зеркало, теперь мне тоже надо такое
Stability AI запилили интересную штуку — Stable Virtual Camera. По одной или нескольким фотографиями генерирует плавное видео, имитируя движение камеры. Идеальная штука для генерации новых ракурсов сцены.
Попробовать можно в спейсе на huggingface (сейчас большой наплыв желающих, может не запуститься)
тут моделька и все подробности
Генетический код vs Исходный код
Нейросети знают о нас многое: как мы пишем, что ищем, какие мемы нам нравятся. Но есть код, который важнее любых алгоритмов — наш ДНК.
Сдав ДНК-тест «Генетический паспорт» от Genotek, можно получить не просто данные, а инсайты о себе, которые не выдаст ни один ChatGPT:
🧬 Какой спорт мне подходит на генетическом уровне?
🍽 Почему кофе действует на меня так, а не иначе?
🩺 Какие риски заложены в моем здоровье и как их предотвратить?
💾 Кем были мои предки и какой след оставили разные этносы в моем геноме
Это как персонализированный апгрейд: зная свою генетику, можно оптимизировать питание, тренировки и даже работу мозга.
Если хотите тоже прокачать свой «исходный код», ловите скидку 65%, заказывайте свой генетический паспорт по промокоду NEURAL
Принес вам позалипать на ночь. Это визуализация выходных сигналов трансформера (архитектура, на которой работают почти все современные LLM: ChatGPT, Claude, Llama и иже с ними)
А вот тут можно самим понажимать в онлайн режиме, если интересно.
А еще новый Gemini flash 2.0 experimental очень хорошо удаляет вотермарки с изображений. Только иногда включает святошу и начинает ныть, что это противоречит его морали (просто перегенерируйте сообщение).
Ну и да, надо просить удалить не вотермарки, а именно текст, иначе лезет в залупу и не делает.
Нашел разбор, как ML помогает строить маршруты в Яндекс Картах.
Это комбинация усовершенствованного алгоритма Эдсгера Дейкстры и CatBoost.
Алгоритм Дейкстры — старый добрый метод поиска кратчайших путей — в улучшенном варианте отвечает за саму маршрутизацию с учетом 200 миллионов отрезков дорог и их свойств (длина, разрешённые маневры, ограничения скорости), а также пользовательских настроек.
CatBoost, алгоритм с открытым кодом, берёт на себя предсказания. Модель анализирует огромные объемы разнородных данных, чтобв выбрать оптимальный маршрут и предсказать время в пути. Время суток, дня недели, вида покрытия и среднюю скорость она сопостоавляет со временем, которое пользователи тратили на проезд по этому маршруту и находит закономерности. CatBoost обрабатывает такие объёмы данных за милисекунды.
Путешествие по культовым картинам. Оч круто!
Подумал, что если бы вот это же кто-то запилил в VR, чтобы можно было походить-побродить внутри картин самому, было б вообще огонь, точно купил бы такое приложение, да и вообще появился бы повод достать VR-шлем с полки, а то я его уже 3 или 4 месяца даже в руки не брал
видео отсюда
CEO Поиска Яндекса Дима Масюк расписал в LinkedIn принципы, на которых компания строит развитие сервисов с искусственным интеллектом. Они просты и понятны: бесшовно вписывать ИИ-решения в повседневную жизнь, строить эмоциональную связь между людьми и технологиями (привет, Алиса!) и максимально персонализировать решения для конкретного человека.
Кажется, такая стратегия у Яндекса уже пару лет точно — помню, как запускали Шедеврум, делая ставку на интуитивную простоту и удобство. Но первый раз вижу, что Дима говорит об этом публично. Видимо, это работает, учитывая популярность колонок с Алисой, да и в целом других продуктов Яндекса
Те, кто часто юзает нейронки для креативных задач, наверняка замечали, что при одном и том же промпте результаты генерации довольно однотипные, даже если сильно менять параметры. Да, какие-то вариации есть, но ничего кардинально нового — если попросить сделать, например, "креативные часы", то, скорее всего, получишь стандартный циферблат, но с разными цветами.
Это происходит из-за того, что LLM'ки склонны выдавать усредненные решения. Они как бы угадывают "самый вероятный" ответ, а не пробуют что-то реально нестандартное. Наткнулся на алгоритм, который призван решать вот эту проблему однообразия — Lluminate. Он позволяет при одном и том же промпте получать более разнообразные и неожиданные результаты.
Работает это через умный промптинг + анализ новизны с помощью CLIP. Вместо того чтобы просто выдать один раз генерацию, алгоритм:
1)Запускает кучу вариантов, чтобы посмотреть, насколько они реально разные.
2)CLIP оценивает их отличие в семантическом пространстве (если вариации слишком похожи, они отсеиваются).
3)Берутся самые необычные и на их основе генерятся новые поколения, каждый раз с усложнением и добавлением неочевидных штук.
4)Через несколько итераций результат уже в разы интереснее, в сравнении с тем, что было бы если б нейронку задрачивали одним и тем же запросом (даже если его слегка изменять).
Так можно не просто крутить рандом, а эволюционировать генерацию, пока результат реально не начнет удивлять. Уже тестили на шейдерах, архитектуре и генерации часов — вместо "неоновых спиралек" и "футуристических башен" в конце получаются реально уникальные и неожиданные штуки, которые LLM сам бы не придумал. Вот тут можно посмотреть насколько улучшается разнообразие (лучше смотреть с компа, с телефона сайт как-то всрато выглядит). Ну и там же подробнее расписано про этот алгоритм.
Исходники тут
Несколько раз уже попадался этот видос с запиливанием статуи роботом на реддите. Сейчас он же попался в твитторе. И результат всегда один: лютый срач в комментах: искуусство это или все же нет.
Я не художник и от прекрасного далек как Тобольск от Копенгагена, но все же думаю, что вот так мощно поджигать сраки людям — это определенно искусство.
Привет, это red_mad_robot. Просто хотели сказать, что нам очень нравится наш последний кейс с сервисом книги билайн. Мы там разработали умный AI-поиск, который помогает находить книги не только по названию или автору, а по атмосфере, сюжету и даже характеру героев.
За 1,5 месяца мы обучили LLM GigaChat Max понимать литературу и структурировать огромный массив метаданных сервиса, чтобы пользователь мог в пару кликов найти ещё один роман про вампиров, но без волков по соседству.
Решили оформить кейс в виде литературного произведения, потому что — почему нет. Извольте ознакомиться 🟥
#AI_moment #роботайм
Обожаю попытки попробовать найти новый UX: вот ресеч по AI-редактору текста, который вдохновлен идеей «графических редакторов»
Что внутри:
- Можно менять длину предложения просто тянув за уголок фрагмента
- Можно использовать разные кисти, чтобы поправить грамматику или перефразировать текст
- Вместо выбора цвета – выбор тональности фрагмента текста: сухой или поэтичный, позитивный или токсичный и тп
- Есть еще попытка сделать выносимые «куски» текста, которые можно спешивать между собой
- Это мне больше всего понравилось: редактор показывает слои текста, которые можно включить или отключить: например, убрать все диалоги, убрать все описания мест, и что угодно - каждый слой просто промпт
Код тут | Демка тут (нужен ключ API) | Видео в хорошем качестве
Cloudflare представила интересное решение против ботов и AI-краулеров — "AI Labyrinth". Вместо простой блокировки несанкционированных ботов, которые игнорируют директивы "no crawl", система создает AI-генерируемые страницы-ловушки, чтобы замедлить, запутать и истощить ресурсы этих ботов.
Суть в том, что когда AI-краулер пытается собирать данные с сайта, Cloudflare незаметно добавляет скрытые ссылки на AI-сгенерированные страницы. Боты следуют по этим ссылкам и попадают в "лабиринт" связанных между собой страниц с правдоподобным, но бесполезным контентом. Реальные пользователи эти ссылки не видят и не кликают на них.
Это дает двойную выгоду: во-первых, боты тратят вычислительные ресурсы на обработку бесполезной информации вместо настоящего контента сайта, а во-вторых, это служит "приманкой" для идентификации ботов — если кто-то перешел на четвертую страницу AI-генерированной бессмыслицы, это почти наверняка бот, а не человек.
По данным Cloudflare, AI-краулеры генерируют более 50 миллиардов запросов к их сети ежедневно, что составляет почти 1% всего трафика. AI Labyrinth доступен для всех клиентов Cloudflare, включая бесплатный тариф, и активируется одним переключателем на панели управления.
Выглядит устрашающе, если задуматься — как скоро этим роботам в интернете начнут мешать люди?
https://blog.cloudflare.com/ai-labyrinth/
Давно следил в твитторе за одним из самых интересных по моему мнению бенчмарков для LLM — MC-Bench. Суть: разные модельки генерируют код и с помощью него через api майнкрафта строят заданные промптом строения (а я тот еще майнкрафтолог).
Наконец-то они запустили нормальный сайт по типу арены с возможностью голосовать за результаты. Из минусов: нельзя самому писать промпты, только оценка по уже заготовленным подсказкам и уже сгенерированными по ним строениям.
Ожидаемо, на первых местах Claude 3.7 sonnet, ChatGPT 4.5 и Deepseek r1.
Посмотреть можно тут
Теперь роботы-пылесосы будут выглядеть так.
Киберпанк, который мы зслужили.
Тут кто-то сделал графическую обертку для Gemini Flash, теперь можно рисовать наброски и допиливать их с помощью текста.
Работает так себе, но чуток развлечься норм.
Попробовать можно тут
Языковая 3Д-генерация.
У нас есть некоторое количество сервисов для 3Д-генерации, о которых я неоднократно писал.
Проблема там в основном в топологии (каша) и в качестве текстур. Плюс в ограниченности сцены - как правило это один объект.
Уже неделю как интернет бомбит от связки Блендора и Клода 3.7 через MCP, о которой я тоже писал.
Ну и действительно, поглядите на пример.
Все, что потребовалось здесь, это сгенерировать картинку, а потом сказать Клюду:
"Recognize any elements of this scene individually. Describe them precisely, then build them in a scene."
"Распознай все элементы этой сцены по отдельности. Опишите их точно, а затем сделай из них сцену".
"Традиционные" 3Д-генераторы тоже пытаются распознать картинку, потом сгенерить ее с разных ракурсов, а потом восстановить 3Д из нескольких картинок. А Клод пытается "собрать\отрендерить сцену" с помощью, грубо говоря, скриптов для Блендора - запуская разные команды, о которых он в курсе. Процедурное моделирование на стрероидах LLM.
Понятно, что пока довольно примитивные сцены, понятно, что замоделить голову неведомого ему персонажа будет сложновато, но дайте время.
Интересно подумать, над специальным файнтюном как для распознавания картинок, так и для (и особенно) для Блендора. Файнтьюн, который обучен на последовательностях действий и сценах.
Просто сцены, которые генерит Клод, отлично редактируются, анимируются - это нормальная геометрия, а не обмылки из 3Д-генераторов.
Интересно, посмотреть, что будет дальше.
@cgevent
Было слегка скучно, потому я игрался с новым Gemini, проверял консистентность генерируемых картинок. И случайно нагенерировал комикс к копипасте про батин жареный суп
Читать полностью…Тем временем народ распробовал фишку с созданием простеньких аннимаций с помощью нового гемини. Вот, чувак автоматизировал все это дело прикрутив сверху еще и Midjourney + сделав простенький интерфейс для всего этого.
Разработчик обещает скоро выкатить эту штуку в ранний доступ
Китайский Deepseek постепенно становится их главной АИ лабой – настолько важной, что ключевых исследователей попросили сдать паспорта, чтобы те случайно не соблазнились сумасшедшими зарплатами в США ☕️
Китайские пользователи реддита не удивлены, так как Deepseek теперь работает с большим кол-вом секторов внутри Китая, включая оборонный
Китайцы упоролись и запилили "ноут" с десктопной 5090 😂
Читать полностью…Вот эта новая фича от гуглогемини, которая может генерить и изменять картинки без вызова отдельной модели позволяет делать классные последовательные гифки за несколько минут
Покрал отсюда
Недавно Егор запилил у себя в канале вот эту паподию на рекламу Порше, но под местные реалии. Получилось очень реалистично. Veo2 мощь!
Он же сейчас выложил не менее эпичный видос-продолжение с "бекстейджем со съемок". Кажется, получилось еще реалистичнее. Рекомендую ознакомиться тут.
Наткнулся в интернетах на довольно интересный патент 1963 года.
Это устройство, которое с помощью центробежной силы должно было облегчать роды.
К сожалению, устройство так ни разу и не применили на практике :(
Поле Чудес, но это аниме опенинг ✨
Продолжаю экспериментировать с Luma Ray 2.
Пайплайн: Midjourney + Flux + Luma Ray 2 + Suno.
Версия для ютуба, если кому нужно.