5cek | Нейросеть обучили предсказывать 1 секунду будущего по фотографии

Умение предсказать ближайшее будущее — важный навык для любого человека. Скорости человеческой реакции недостаточно, чтобы в реальном времени реагировать на окружающие события, поэтому мы предсказываем их в постоянном режиме с вероятностью, близкой к 100%. Спортсмены знают, куда полетит мяч. Бизнесмены знают, когда собеседник протянет руку для рукопожатия. Мы предсказываем траекторию автомобилей на дороге и ближайшие действия людей по выражению лица и предмету в руках.

Искусственному интеллекту тоже необходимо знать будущее. Он должен понимать, какие события приведут к какому результату, чтобы избежать очевидных оплошностей и планировать свои действия. Группа исследователей из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института обучает нейросеть предсказывать будущее, тренируя её на миллионах видеороликов.

Обученная нейросеть по одному-единственному статичному кадру (фотографии) пытается предсказать будущие события. Программа ограничена размером кадра 64×64 пикселя и продолжительностью предсказания в 32 кадра, то есть около секунды будущего.

Знание будущего даёт возможность лучше понимать настоящее. Это базовая способность, которой должен обладать любой робот, функционирующий в реальном мире. Наблюдая человека перед тарелкой с едой с вилкой и ножом в руках, следует однозначно предсказывать, что этот человек скоро начнёт есть. Без такого понимания робот не может функционировать сколько-нибудь эффективно — вы же не хотите, чтобы в момент, когда садитесь на стул, робот взял и передвинул стул в сторону? Нет, он должен понимать, что произойдёт через секунду и ничего не трогать. Или наоборот, быстро передвинуть стул именно в то место, куда человек садится.

В данный момент даже у самых продвинутых систем ИИ отсутствуют базовые возможности предсказания ближайшего будущего. Поэтому данное исследование является таким важным. Аналогичную работу ведут исследовательские группы в Нью-Йоркском университете и компании Facebook, но их нейросети выдают всего несколько кадров из будущего либо показывают его слишком размыто.

Разработанная в CSAIL программа довольно точно предсказывает самые банальные и очевидные события. Например, по фотографии поезда на платформе она предсказывает его движение.

В научном исследовании разработчики решают фундаментальную проблему изучения сценария, как события в кадре разворачиваются во времени. Очевидно, что такая задача очень сложна для формального аннотирования. Поэтому нейросеть тренировали непосредственно на готовом материале — на миллионах видеороликов без смысловых аннотаций. Такой подход имеет определённые преимущества, ведь ИИ может обучаться в автономном режиме, просто наблюдая происходящее вокруг и обрабатывая огромное количество видеоматериалов в интернете.

Обученной нейросети затем ставили задачу генерировать маленькие видеоролики по одному статичному кадру. Чтобы добиться реалистичности результата, авторы исследования применили генеративную состязательную сеть (generative adversarial network, GAN). Одна нейронная сеть генерирует видео, а вторая сеть-дискриминатор обучается отличать фальшивое видео от настоящего и блокирует фейки. По мере обучения дискриминатора сети-генератору приходится генерировать всё более реалистичные видео, чтобы пройти проверку.

В генеративной модели используются два потока, которые отдельно моделируют передний план и фон, чтобы отделить их друг от друга и чётко различать движение объекта.

Со временем такая программа сможет более эффективно помогать человеку в разных ситуациях. Например, робот может предсказывать, когда человек упадёт — и удержать его от падения. Цифровой ассистент в автомобиле научится предсказывать действия водителя по движению рук и глаз, чтобы избежать аварии.

Все видеоролики, на которых тренировалась нейросеть, а также исходный код программы опубликованы в открытом доступе. Код генеративной состязательной нейронной сети лежит на GitHub. Используя данные для обучения (примерно 10,5 терабайт видеоматериалов), можно самостоятельно повторить эксперимент. Как вариант, доступны для скачивания уже обученные модели (1 ГБ в архиве).

Видеоматериалы для обучения взяты с фото- и видеохостинга Flickr, где они лежат под свободной лицензией. Это тематические сцены: события на пляже, матчи по гольфу, железнодорожные станции и младенцы в больницах.

Два миллиона видеороликов — это всего два года видеоматериалов. «Это очень мало по сравнению с количеством видеоинформации, которое прошло через мозг 10-летнего ребёнка или по сравнению с количество информации, которая обрабатывалась в ходе эволюционного процесса развития жизни на Земле», — признаёт Карл Вондрик (Carl Vondrick), один из авторов научной работы.

Но это лишь начало, ИИ делает первые шаги, нужно же с чего-то начинать. В дальнейшем нейросеть будут обучать на более длительных фрагментах видео. Авторы надеются, что постепенно ИИ начнёт ограничивать выбор возможных вариантов будущего, учитывая ограничения законов физики и свойства объектов. Эксперименты показывают, что нейросеть способна их усвоить. Постепенно программа научится предсказывать и более отдалённое будущее, а не только 1 секунду. К ней наверняка подключат дополнительные модули, такие как распознавание личности, чтение по губам, предсказание преступлений по лицу человека и т.д.

Научная статья опубликована на сайте Массачусетского технологического института. Исследование продолжается благодаря финансированию Национального научного фонда США и грантам компании Google два двух из трёх членов научного коллектива. Доклад подготовлен для 29-й конференции по системам обработки нейроинформации (NIPS 2016), которая пройдёт с 5 по 10 декабря в Барселоне.

Flat | Top-Level Comments Only

From:

juan-gandhi.livejournal.com

Спасибо. Впечатляет. (И надо же, си и луа).

From:

5cek.livejournal.com

увидел луа и питон

From:

juan-gandhi.livejournal.com

реально алгоритмы на си написаны, по-моему

From:

vladicusmagnus.livejournal.com

Сам по себе Луа - сиподобный. Но судя по Гиту - реально питоша.

From:

synchrozeta.livejournal.com

Извините, если глупость скажу, ибо не специалист.
А что, если делать какие-либо непредсказуемые действия?
Я так иногда экспериментирую (например, вдруг замираю или иду спиной вперёд), и вижу, что моя окружающая реальность после этого становится необычной, т.е. как бы реагирует.
Может ли это означать, что человек есть компьютерная программа?

From:

5cek.livejournal.com

Даже и не знаю, что тут сказать :)

From:

synchrozeta.livejournal.com

Это, конечно, не совсем в тему. Но Вам, я уверена, известна гипотеза, что человек есть компьютерная программа высших существ.
Как это проверить?
Тут вся фишка в том, что если меня нельзя предсказать, то я выпадаю из гипотетической системы поведения, заданной программой. И если она - через реальность - реагирует, значит она таким образом подтверждает своё существование.

From:

5cek.livejournal.com

результат работы генератора случайных чисел тоже, в большинстве случаев, предсказать нельзя.

From:

vladicusmagnus.livejournal.com

Ессно, сам по себе принцип работы мозга, на данный момент, это получение 2+2 = 4. Если результат внезапно - 5 или 3, то наступает иногда вплоть до шокового состояния. И естественно, если добавлять в нейросеть дополнительные варианты, то она перестраивается. Грубо говоря. Поэтому, ощущение того, что "мир плывёт" вполне-вполне реально.

From:

vladicusmagnus.livejournal.com

Тю.... О чем я говорил лет 10 уже, начинает воплощаться. Мол де, имея достаточные вычислительные мощности, можно предсказывать будущее - если увязывать все данные. Проблема в том, что накормить комп этими данными - проблема. Тут то видео, это ерунда. Для полноценного предсказания, нужна вся имеющаяся информация, с ретроспективой хотя бы на лет 5. После чего программа даже по очень сложным вопросам будет выдавать верный ответ. Хотя, в более простых случаях - это менее затратно. Наша жизня - весьма и весьма "алгоритмизированна".

И позволю цитату френда "
Смысл такой. Вокруг нас всегда что-то случается. Оно случается по каким-то пространственно-временным траекториям. Пару часов назад я был там-то, теперь я здесь. Мое перемещение в контексте перемещений других людей не такое уже и спонтанное. Чем больше людей берется в расчет, тем менее спонтанные у них перемещения.

Для всех этих перемещений есть своя символическая логика. Эти перемещения можно просчитывать. Данная логика перемещений не является булевой в принципе. У нее совершенно иное понимание логических операций. Например, условным аналогом булевой конъюнкции служит фузия в простанстве-времени. Фузия -- слияние процессов. У этого слияния своя особая математика. Дело в том, что процесс слияния бесконечный. Конъюнкция одноразовая.

Вокруг нас много разной динамики, мы сами пребываем в динамике. А вся эта динамика подчиняется пространственной логике. Есть такая. Математический аппарат этой логики раскрывается в этой моей статье. Хоть и наброски теории, но все-равно очень круто!"
Смысл такой. Вокруг нас всегда что-то случается. Оно случается по каким-то пространственно-временным траекториям. Пару часов назад я был там-то, теперь я здесь. Мое перемещение в контексте перемещений других людей не такое уже и спонтанное. Чем больше людей берется в расчет, тем менее спонтанные у них перемещения.

Для всех этих перемещений есть своя символическая логика. Эти перемещения можно просчитывать. Данная логика перемещений не является булевой в принципе. У нее совершенно иное понимание логических операций. Например, условным аналогом булевой конъюнкции служит фузия в простанстве-времени. Фузия -- слияние процессов. У этого слияния своя особая математика. Дело в том, что процесс слияния бесконечный. Конъюнкция одноразовая.

Вокруг нас много разной динамики, мы сами пребываем в динамике. А вся эта динамика подчиняется пространственной логике. Есть такая. Математический аппарат этой логики раскрывается в этой моей статье. Хоть и наброски теории, но все-равно очень круто!"©minski-gaon

From:

5cek.livejournal.com

нет, все-таки вы и этот пост о разном. тут не предсказание будущего в прямом смысле слова обсуждается, а умение делать очевидные выводы из имеющихся фактов. вся сложность тут научить нейросеть (и компьютеры вообще) получать эти факты из статического изображения или видео.

а то, о чем вы говорите, это на порядки более сложная задача.

From:

vladicusmagnus.livejournal.com

Так, в принципе, как бы сказать, где китайский фейверк, а где ядерная бомба? Но ведь если подумать - то это все вещи одной линии. За исключением того, что порох для огненной потехи не задумывался как оружие.

Ну так и тут. Пройдет какая сотня лет, и можно будет сказать, что сегодня вы обязательно встретитесь с одноклассником, которого не видели уже 15 лет :)

Ну да, задача сложная. Но с чего то начинать надо же ? :) Суть в том и том - одинакова. Только Ребе над динамикой коптил, а я предложил расширить все это на всё. Вообще всё. Разницы почти никакой.
И ровно так же придется учить нейросети. Такие дела.

Ну и даже самое длинное путешествие начинается с одного шага. Почему бы этому не быть первым шагом? :)

Flat | Top-Level Comments Only

Profile

5cek

5 секунд нейронной активности

March 2017

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Page Summary

Style Credit

Style: Early Edition for Five AM by winterfish

Expand Cut Tags

No cut tags

Page generated Jul. 10th, 2025 07:17 pm

5 секунд нейронной активности

Нейросеть обучили предсказывать 1 секунду будущего по фотографии

Нейросеть обучили предсказывать 1 секунду будущего по фотографии

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

March 2017

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags