Telegram-канал seeallochnaya - Сиолошная: Unsorted

Сиолошная

15 November 2024 14:12

А применение графа немного отличается от того, что было в прошлой статье. Там все объекты имели названия и были подписаны, здесь же мы этого не далаем. В основном потому, что хочется работать с любыми произвольными названиями, не ограничиваясь заранее заданным списком объектов. Условно «банка колы», «кола», «баночка кока-колы» итд — это всё один объект (сегмент), но, как говорили древние, «определить — значит ограничить».

Предположим, в робота, в которого загружена иерархия дома и комнат, поступает запрос: «найди унитаз в туалете на втором этаже». Запромптченная (с примерами) LLM выделяет из него 3 подзапроса: какой этаж, какая комната, какой объект. И выдаёт:
— 2й этаж (это мы знаем как найти)
— туалет (это у нас уже есть)
— унитаз (этого нет)

Из графа загружаются все объекты, входящие в комнату «туалет». Для каждого объекта, напомню, есть вектор, который характеризует его содержимое. А дальше снова применяем CLIP: делаем вектор из фразы «это фото унитаза» и сравниваем его с векторами каждого объекта в комнате. Тот, который похож больше всего, и есть искомый. Voila, теперь робот в точности знает, где что к чему идти (координаты ведь тоже известны для каждого сегмента), и может отправляться в путь (action graph на картинке выше).

Хоть построение графа и ориентирование по нему и автоматизированы, думаю, что под капотом там много констант (когда объединять сегменты, на сколько отличается высота этажей, итд), что из коробки не будет работать прям везде. Но большая часть всё равно делается скриптами. Особенно мне понравился трюк с классификацией объектом пост-фактум, когда мы не определяем их заранее. Это позволяет сохранять гибкость в идентификации практически чего угодно. И в то же время замена всех моделей в пайплайне на более современные (лучше SAM, лучше CLIP, лучше LLM) будет давать приросты.