Почти два месяца прошло с публикации командой DeepMind исходников WaveNet под TensorFlow, а это в целом дофига, ради интереса посидел вечером и собрал, что из интересного удалось насинтезировать комьюнити на данном этапе и запихнул все интересное (как по мне) в аудио, если коротко – пока что ваш голос у вас никто не украдет, а звуки синтеза речи роботом – все еще звуки синтеза речи роботом.
Но если вы звукорежиссер в фильмах ужасов – вам срочно нужно в deep learning.
Общие детали: почти все короткие семплы обсчитывались часов 8 на отрезок, на мощных и современных GPU (Titan и т.п.). Музыку пытались синтезировать по первой секунде трека или по отдельному отрезку.
Аудио-файл с демо:
https://soundcloud.com/shirman/wavenet-demo-november-2016
Исходный код на гитхаб:
https://github.com/ibab/tensorflow-wavenet
Ковырялся тут на хостинге и наткнулся на интерактивную статью которую переводил в свое время – о том как же на самом деле работает процессор. Если вам вдруг хочется чего-то необычного в воскресный вечер, можете попробовать – я не гарантирую, что станет хоть что-то яснее, но я там шутил в переводе. С телефона может и не работает, я не уверен.
http://shir-man.com/static/easycpu/
На arxiv.org выложили интересный документ который показывает как с помощью алгоритма DFI можно наложить на фото эффект старости, молодости, улыбку, усы и даже очки, и все это в высоком разрешении.
И работает это пока лучше из всего, что я видел. Мне кажется, что снепчат один из первых ринется в эти нейронные фильтры, так как стилизацией фотографии под художественный стиль уже никого не удивишь, а это вроде фейсбук прикручивает.
Детали тут: https://arxiv.org/abs/1611.05507
А ниже самая главная иллюстрация статьи.
Google Earth в VR шлеме это ух и укачивает сразу.
Полное видео тут: https://m.youtube.com/watch?v=SCrkZOx5Q1M
Наконец-то кто-то применил технологии глубинного обучения и нейронные сети с пользой – https://github.com/Hironsan/BossSensor/blob/master/README.md узнает вашего начальника метров за 6-7 от компьютера и автоматически включит вместо браузера какое-нибудь рабочее приложение – саблайм, терминал, что угодно.
Alt + tab морально устарел для этих целей, не используйте их, будьте моднее, используйте нейронные сети.
Я уже как-то писал про то, что стильные очки помогут вам избежать алгоритмов определения лица (/channel/denissexy/10), так вот нейронные сети наносят ответный удар – теперь они умеют убирать очки с фотографий людей.
По ссылке чувак с помощью DITTO загнал 20000 фотографий с очками в датасет и теперь умеет их снимать автоматом:
http://126kr.com/article/48zmqr2f2vt
Теперь ждем новые очки, которые с помощью особой текстуры будут выдавать вас за степлер.
Если взять Red Alert 2, переписать его под Unreal Engine 4 и добавить поддержку VR получится вот это.
Я не знаю насколько это удобно, я просто фанат всех названий выше 🤓👠💖
https://www.youtube.com/watch?v=IGtrJaiUZaA
Если у вас есть 2 компьютера, а еще 2 монитора и 2 веб-камеры – то вы можете передавать данные между устройствами не с помощью WiFi или LAN как какой-нибудь ретроград, а выводя QR коды на экран монитора и считывая их друг с друга.
Иными словами – если вы ебанулись, то вам никто не может помешать сделать это зрелищно.
Из недостатков:
– Фейсбук при такой скорости загрузится часа за 4 (1-2 kBps, если я не напутал с расчетами);
– Часть экрана которая отвечает за передачу данных нельзя ничем закрывать, данные идут же, внимательнее! Ну!
Подробнее в блоге автора: http://seiferteric.com/?p=356
Примерно это выйдет, если совместить автопилот Теслы и Бенни Хилл – https://www.tesla.com/en_GB/videos/autopilot-self-driving-hardware-neighborhood-short
Обратите внимание как машина в коце сама паркуется, какая прелесть.
Поигрался тут с одним из экспериментов гугла – мгновенный переводчик объектов – после нажатие на съемку фото отправляется в в сервис распознания образов (https://cloud.google.com/vision/), а после этого отправляется в сервисов переводов и озвучки (https://cloud.google.com/translate/), и уже к вам обратно на девайс.
Работает так себе, зато весело.
Вы можете поучить испанский прямо сейчас, но только если у вас на кухне срач и вы болеете: https://oxism.com/thing-translator
Исходный код тут: https://github.com/dmotz/thing-translator
Национальный музей современного искусства Киото, Япония, устраивает такие совместные сеты – где одновременно на сцене выступает и DJ человек и DJ компьютерный алгоритм. Получается вроде не плохо, и таких проектов в 2016 году я встречал довольно много – так что интересно, будут ли люди ходи на выступления алгоритмов? Я бы сходил, мне пофигу если красиво ;)
https://vimeo.com/186370041
Детали проекта по ссылке:
http://qosmo.jp/projects/2016/09/06/ai2045/
Google запустил проект который позволит вам нарисовать что-то, а нейронная сеть попробует узнать что же это такое. Вот тут ссылка: https://goo.gl/2wiPgN
Со мной не сработало, я забыл что виолончель это большая скрипка, а траву лучше не рисовать с видом сверху – но вы попробуйте. А еще я забыл что я отвратительно рисую.
А вот тут еще больше ИИ экспериментов от гугла, на любые темы: https://aiexperiments.withgoogle.com/
Ко мне часто обращаются люди с вопросами самой разной степени безумия – от тех кто хотел бы скормить нейронке описание товаров и получить умного ассистента в магазине, до чуваков которые хотели бы полностью передать проектировку дизайна нейронным сетям и уволить отдел дизайна.
Я устал отвечать на подобные вопросы и поэтому решил собрать в одном месте список технологий которые в каком-то виде попадали мне в поле зрения.
Он наверное не полный, но короче – нет, не увольняйте отдел дизайна, рано еще, подождите года 3 (шутка).
http://shir-man.com/risovaniie-i-alghoritmy-chto-ieshchie-roboty-moghut-kromie-prizmy/
Сап телеграм! Задача классификации – одна из самых часто решаемых с помощью нейронных сетей.
По ссылке ниже, можно поиграться с картами и поиском визуально похожих объектов – к примеру с одного клика подсветить все корабельные пристани в Берлине или, или все ВПП, или все теннисные корты, и сразу посмотреть где это находится. Это все перспективно не только для городов, а в целом для всего мира – ради интереса как-то рассматривал африканские поселения с гугл-карт и все они имеют очень характерный вид со спутника, в теории можно было бы посчитать кол-во людей которые там живут, ну, если это нужно кому-то конечно.
А пока, можно посчитать, например, кол-во машин в городе Москве и заплакать.
Проект не новый и все еще в альфе.
http://berlin.terrapattern.com/?lat=52.578062&lng=13.271341000000007
Я как-то показывал как алгоритм учится играть в супер марио (http://bit.ly/2fAnF7L) – так вот тут генетический алгоритм и нейронная сеть учатся проходить игру flappy bird – могу сказать, что учатся они намного быстрее, я до сих пор больше трех столбов не пролетаю.
Все это дело можно запустить прямо в браузере: https://xviniette.github.io/FlappyLearning/