Флорент Перонин го нарича „широкоспектърно визуално разпознаване“. Представлява нещо повече от това, да свържеш камера към компютъра и му зададеш да разпознае кола, ябълка или човек – нещо, което компютрите вече могат да правят. Флорент говори за компютри, които могат да разпознаят по-бързо повече предмети (и хора), и да помагат за по-лесно категоризиране на огромния брой образи и видеа, които създаваме ежедневно.
Той не е единственият специалист, който работи в тази насока. Флорент е един от водещите учени на Изследователския Център на Xerox в Европа и оглавява екип от разработчици, работещи върху „компютърното зрение“. Освен това, преди месец изнесе лекция за „широкоспектърното визуално разпознаване“ по време на конференцията за „Компютърно зрение и шаблонно разпознаване“ в столицата на щата Охайо, Кълъмбъс.
Какви актуални теми, засягащи „компютърното зрение“, ще се дискутират тази година?
В момента има две големи събития, които се случват в обществото ни. Първото е експлозията от невронни мрежи в „компютърното зрение“, често наричана „дълбоко изследване“. Изследването на невронните мрежи, като част от „компютърното зрение“, бе популярна тема за дебати преди повече от 25 години, но в крайна сметка, тя така и не изпълни обещанието си да създаде изкуствен интелект и потъна в забрава. В наши дни същото изследване постига невероятни резултати при употребата на приложения за отбелязване върху изображения и видеа, благодарение на два основни фактора: по-голяма мощност на компютрите и по-голяма база данни от образи, които компютрите могат да използват за сравенение при разпознаване на непознати изображения. Тази база данни се нарича „тренировъчна“. Невронните мрежи са много комплексни, което означава, че се нуждаят от огромно количество информация, за да се „тренират“ правилно и съответно, по-мощни процесори, които да обработват тази информация.
Другото основно събитие е увеличаващият се интерес на научната общност към изображения и видеа на хора. Огромен дял от „компютърното зрение“ ще се използва за разпознаване на хора, действия и поведенчески анализ. Това не е изненадващо, като се има предвид, че 40% от всички пиксели в YouTube съответстват на хора, така че е напълно нормално, че всеки иска да разбере тях и тяхното поведение. В коя област на „компютърното зрение“ е отбелязан най-голям напредък през последните години?
Вече сме много по-добри в анализирането и отбелязването върху изображения и видеа, отколкото бяхме само преди няколко години. Преди десет години можехме да постигнем едва задоволителни резултати, като работехме само върху 10 категории. Пет години по-късно постигнахме същата точност, но вече за 100 категории. Днес вече можем да се справим с хиляди различни категории.
Една сродна сфера на изследване, от която аз съм особено заинтригуван е прецизното категоризиране – проблемът с разпознаването на подкатегориите. Например, логата и моделите на автомобилите или породите птици. Колкото по-специализирана е категорията, толкова по-малка е вероятността компютърът да разполага с достатъчно „тренировъчна“ информация. Само преди няколко години се затруднявахме да различим кола от камион, а сега можем да разпознаем над 200 модела автомобили с приблизително 90% точност. В резултат от това, вече е възможно създаването на едно изцяло ново поколение приложения, които да улеснят движението на трафика и подобрят безопасността по пътищата. Всичко това, благодарение само на една от сферите на изследване.
По какъв начин този напредък в „компютърното зрение“ ще повлияе на живота ни в бъдеще?
Едно от очевидните влиания ще е върху начина, по който хората използват социалните мрежи. По-голямата част от информацията, създавана в тези мрежи, представлява снимки и видеа, но преди да бъдат „тагнати“ те представляват нещо като неидентифицирани черни кутии. Сега, когато можем да „тагваме“, автоматично ще бъде много по-лесно да откриваме конкретни изображения и видеа или подобни на търсените от нас. Тези системи ще помогнат на хората да осъществят контакт, чрез изчисляване на сходността между техните снимки и интереси.
Друга сфера, която ще бъде силно повлияна, е сферата на рекламата. Един от ключовите фактори за успешно рекламиране е персонализирането. Ще можем да създаваме профили на хората, въз основа на информацията, с която разполагаме за тях (например историята на сърфирането им) или чрез анализ на публикациите им в обществените форуми. Интернет сам по себе си представлява един неизчерпаем източник на информация, която може да се използва за създаване на изключително точни профили. Информацията, която можем да извлечем от снимките, е много богата, защото те често съдържат изображения на неща, за които хората не пишат. Добър пример за това е, как снимката може да ни покаже начина, по който един човек се облича, каква кола кара, какво има в кухнята или в градината му.
Какво според вас е най-голямото предизвикателство за вашето проучване?
В наши дни сме много добри в описанието на изображения по много опростен начин. Например: тази снимка съдържа изображение на кола, куче или друг предмет. Това, в което не сме толкова добри и което е най-сериозното предизвикателство пред нас, е да кажем по какъв начин тези изображения или концепции са свързани помежду си и да разберем контекста на самата снимка. Това е Светият Граал при анализирането на визуално съдържание.
Способността да направиш това е нещо много по-сложно от изобретяването на списък с „тагове“. Това е способността да разбереш и идентифицираш взаимодействието между хората или между човек и предмет. Точно както едно изречение не е просто списък от индивидуални думи, а структура от думи, носеща значение. Ние искаме компютрите да могат да правят визуален разбор на изображенията и да ги разбират. Имаме голям напредък, но ни остава още доста работа. Трябва да „научим“ компютрите как да придобият по-задълбочено разбиране за взаимодействието, което се комуникира от едно изображение или видео.
Учените се опитват да „раздробят“ тази идея по много различни начини. Някои се фокусират върху разработването на по-добри идентификатори на предметите, които да могат много точно да определят отделните сегменти на предмета от изображението. По този начин е по-лесно да се разбере взаимовръзката между тях. Други се опитват да реконструират триизмерната геометрия на пейзажа, която би ни дала много допълнителна информация. Дълбочината на информацията може да бъде придобита чрез сензори за разстояние или чрез анализ на движението във видеата. Други черпят вдъхновение от обработката на естествените (компютърни)езици.
Всъщност се правят толкова много различни опити, че е невъзможно всички те да бъдат проследени. Това е едно бързо разрастващо се поле за проучвания, а международните партньорства и колаборации са изключително стабилни. Поради тази причина, конференцията за „Компютърно зрение и шаблонно разпознаване“ бе добър повод за учените да обменят опит и се срещнат лице в лице.