Ela.kpi.ua



Нац?ональний техн?чний ун?верситет Укра?ни“Ки?вський пол?техн?чний ?нститут” Факультет ?нформатики та обчислювально? техн?ки . (назва факультету, ?нституту) Кафедра автоматизованих систем обробки ?нформац?? та управл?ння . (назва кафедри)"На правах рукопису"УДК681.3.01?До захисту допущено?В.о. зав?дувача кафедри __________ О.Г. Жданова (п?дпис) (?н?ц?али, пр?звище)“”травня2019р. МАГ?стерсЬКА ДИСЕРТАЦ?Яз? спец?альност? . 8.05010101 . ?нформац?йн? управляюч? системи та технолог?? . (код та назва спец?альност?)на тему:Система анал?зу контенту потокового в?део та формування релевантно?? контекстно?? рекламиВиконав: студент VI курсугрупи 71-мн (шифр групи) Шехет Григор?й Олександрович(пр?звище, ?м’я, по батьков?)(п?дпис)Науковий кер?вник к.т.н., доц. Ковалюк Т.В.(посада, науковий ступ?нь, вчене звання, пр?звище та ?н?ц?али) (п?дпис)Консультант к.т.н., доц. Жданова О.Г.(науковий ступ?нь, вчене звання, , пр?звище, ?н?ц?али) (п?дпис)Консультант з охорони прац?к.т.н., доц. Праховн?к Н.А.(науковий ступ?нь та звання, пр?звище, ?н?ц?али) (п?дпис)Рецензент (посада, науковий ступ?нь, вчене звання, пр?звище та ?н?ц?али) (п?дпис)Засв?дчую, що у ц?й маг?стерськ?й дисертац?? нема? запозичень з праць ?нших автор?в без в?дпов?дних посилань.Студент(п?дпис)Ки?в – 2019 ?ЗАТВЕРДЖУЮ? Зав?дувач кафедри__________ О.А. Павлов (п?дпис) (?н?ц?али, пр?звище) “___”___________20__р.ЗАВДАННЯна маг?стерську дисертац?юстудентуШехет Григор?й Олександрович(пр?звище, ?м’я, по батьков?)1. Тема дисертац??Система анал?зу контенту потокового в?део та формування релевантно?? контекстно?? рекламизатверджена наказом по ун?верситету в?д“”20р.№2. Терм?н здач? студентом оформлено? дисертац??“”20р.3. Об’?кт досл?дженняанал?з контенту в?деопотоку та процес пошуку рекламирелевантно? до контенту у в?део.4. Предмет досл?дження методи анал?зу контенту потокового в?део.5. Мета досл?дженнярозробити алгоритм та ?нформац?йну систему, яка будеанал?зувати контент потокового в?део ? пропонувати глядачу рекламу, релевантна до контенту даного в?део.6. Перел?к питань, як? мають бути розроблен?виконати огляд в?домих досл?джень тарезультат?в з розв’язання задач? анал?зу в?део та пошуку контенту в?деопотоку;обрати ряд метод?в, шлях?в для анал?зу в?део та пошуку контенту в?део потоку;на основ? проведеного анал?зу зд?йснити покращення ?снуючого шляху пошуку в?деоконтенту; розробити прототип ?нформац?йно? системи, яка буде анал?зуватиконтент потокового в?део ? пропонувати глядачу рекламу, релевантну до контентуданого в?део.7. Перел?к публ?кац?йШехет Г.О. Система анал?зу контенту потокового в?део та формування релевантно? контекстно? реклами / Шехет Г.О., Ковалюк Т.В. / V М?жнародна науково-практична конференц?я ?Обчислювальний ?нтелект? – м. Ужгород, 15-20 кв?тня 2019 р.Шехет Г.О. Система анал?зу контенту потокового в?део та формування релевантно? контекстно? реклами. / Шехет Г.О. / Всеукра?нська науково-практична конференц?я молодих вчених та студент?в ??нформац?йн? системи та технолог?? управл?ння? (?СТУ-2019), НТУУ ?КП? ?м. ?горя С?корського? – м. Ки?в, 18-19 кв?тня 2019 р.Шехет Г.О. The algorithmic solution of content streaming video analysis for the definition of relevant contextual advertising / Шехет Г.О. / Establish Modern Master-level Studies in Information Systems (MASTIS), НТУУ ?КП? ?м. ?горя С?корського? – м. Ки?в, 12-13 березня 2019 р.8. Перел?к ?люстративного матер?алу9. Дата видач? завдання“”20р.Науковий кер?вник Ковалюк Т.В.(п?дпис)(?н?ц?али, пр?звище)Завдання прийняв до виконання РЕФЕРАТМаг?стерська дисертац?я: ? с., ? рис., 2 табл., ? додаток, ? джерел.Актуальн?сть. В останн? роки одним з найпопулярн?ших джерел ?нформац?? ? в?део. ?сну? маса р?зноман?тних онлайн к?нотеатр?в та в?део серв?с?в, як? надають можлив?сть м?льйонам глядач?в кожен день дивляться новини, спортивн? под??, п?знавальн? та розважальн? шоу на сотн? терабайт даних. Що робить в?део одним з основних джерел ?нформац?? у св?т?.Основна частина доход?в даних систем ? автор?в в?део йде з реклами. Зазвичай, глядачам, п?д час перегляду, пропонують р?зноман?тн? рекламн? оголошення, як? на жаль не мають н?якого зв'язку з контентом в?део. Через це реклама вигляда? набридливою ? не ? ц?кавою глядачу, а отже не приносить оч?куваного доходу рекламодавцям. Таким чином вир?шення задача пошуку ? п?дбору рекламних оголошень, як? будуть в?дпов?дати зм?сту в?део, ? вартою уваги ? дуже актуальною у наш час.Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалась на кафедр? автоматизованих систем обробки ?нформац?? та управл?ння Нац?онального техн?чного ун?верситету Укра?ни ?Ки?вський пол?техн?чний ?нститут ?м. ?горя С?корського? в рамках ?н?ц?ативно? теми ??нтелектуальн? обчислення у системах машинного навчання та комп’ютерного зору?.Мета досл?дження – розробити алгоритм та ?нформац?йну систему, яка буде анал?зувати контент потокового в?део ? пропонувати глядачу рекламу, релевантна до контенту даного в?део.Для досягнення поставлено? мети необх?дно виконати наступн? завдання:виконати огляд в?домих досл?джень та результат?в з розв’язання задач? анал?зу в?део та пошуку контенту в?деопотоку;обрати ряд метод?в, шлях?в для анал?зу в?део та пошуку контенту в?део потоку;на основ? проведеного анал?зу зд?йснити покращення ?снуючого шляху пошуку в?део контенту;розробити прототип ?нформац?йно? системи, яка буде анал?зувати контент потокового в?део ? пропонувати глядачу рекламу, релевантну до контенту даного в?део;провести анал?з отриманих результат?в.Об’?кт досл?дження – контент в?деопотоку.Предмет досл?дження – методи анал?зу контенту потокового в?део.Наукова новизна отриманих результат?в поляга? у:новому алгоритм?чному п?дход? до анал?зу контенту в?деопотоку у реальному час?;Практичне значення одержаних результат?в поляга? у:Створенн? ?нформац?йно? системи, яка здатна проанал?зувати в?део ряд та виявляти максимально наближене до його контенту рекламне оголошення ? запропонувати його глядачу.Публ?кац??. Результати проведених досл?джень були опубл?кован? у в рамках всеукра?нсько? науково-практична конференц?я молодих вчених та студент?в ??нформац?йн? системи та технолог?? управл?ння? (?СТУ-2019) та на V М?жнародна науково-практична конференц?я ?Обчислювальний ?нтелект?, а також у вигляд? тез п?д час допов?д? у рамках Establish Modern Master-level Studies in Information Systems (MASTIS).АНАЛ?З КОНТЕНТУ ПОТОКОВОГО В?ДЕО, КЛАСИФ?КАЦ?? ТА РОЗП?ЗНАВАННЯ ОБРАЗ?В У В?ДЕО, РОЗП?ЗНАВАННЯ ОБРАЗ?В ЗА ДОПОМОГОЮ КОМП’ЮТЕРНОГО ЗОРУ, АНАЛ?З ЗВУКОВОГО ПОТОКУ В?ДЕОABSTRACTMaster's thesis: ? pages, ? figures, 2 tables, ? appendix, ? icality. In recent years, one of the most popular sources of information is the video. There are a lot of online cinemas and video services that enable millions of viewers every day to watch the news, sports events, educational and entertainment shows every day. This fact makes the video one of the main sources of information in the world.Such systems and the authors of the video earn money mostly from contextual advertising and commercials. Usually, during the browsing, viewers are offered a variety of ads that unfortunately do not have any relation to the content of the video. Because of that, the ad looks frustrating and not interesting. As a result, it isn't brought the expected revenue to advertisers. So, the solution to the problem of finding and selecting ads that are relevant to the content of the video is worthy of attention and very relevant nowadays.The work communication with academic programs, plans, themes. The work was carried out at the Department of Computer-Aided Management And Data Processing Systems of the National Technical University of Ukraine ”Igor Sikorsky Kyiv Polytechnic Institute” within the theme "Development of methods for information analysis and image recognition". State registration number 0117U000924.The purpose of the research is to develop an algorithm and information system that will analyze the content of streaming video and offer viewer advertising relevant to the content of this video.To achieve the goal, we should complete the following tasks:perform a review of research papers and results for solving the problem of video analysis and video content search;choose a number of methods, ways to analyze video and search video stream content;improve the existing video content search path, based on the analysis performed;develop a prototype of an information system that will analyze the content of streaming video and offer viewer advertising relevant to the content of this video;to analyze the results obtained.Object of the research – content of the video stream.Subject of research – methods of analysis of streaming video content.The scientific novelty of the results obtained is:a new algorithmic approach to analyzing the content of video stream in real time;The practical value of the results obtained is:Creation of an information system that is capable of analyzing streaming video and detecting an advertisement that is as close to the content of the video and offering it to the viewer.Publications. The results of the research were published during of the All-Ukrainian Scientific and Practical Conference of Young Scientists and Students "Information Systems and Technologies of Management" (ISTU-2019) and the V International Scientific and Practical Conference "Computing Intellect", as well as abstracts during the report during the Establish Modern Master-level Studies in Information Systems (MASTIS).ANALYSIS OF THE STREAMING VIDEO CONTENT, CLASSIFICATIONS AND RECOGNITION OF VARIABLES IN VIDEO, RECOGNITION OF PICTURES BY COMPUTER VISION, ANALYSIS OF VIDEO SOUND FLOWЗМ?СТ TOC \o "1-3" \h \z \u ВСТУП PAGEREF _Toc8722907 \h 121.ОГЛЯД СУЧАНИХ ДОСЛ?ДЖЕНЬ В ОБЛАСТ? АНАЛ?ЗУ КОНТЕНТУ В?ДЕО PAGEREF _Toc8722908 \h 151.1Досл?дження кодування та формату в?део потоку або застосування на яке ведеться зйомка PAGEREF _Toc8722909 \h 161.2Досл?дження семантичного анал?зу в?део потоку PAGEREF _Toc8722910 \h 181.3Досл?дження ключових фрагмент?в та кадр?в у в?део потоц? та в?део б?бл?отеках PAGEREF _Toc8722911 \h 221.4Досл?дження знаходження та розп?знавання об’?кт?в у в?део потоц? PAGEREF _Toc8722912 \h 261.5Досл?дження контенту в?део потоку та методи оптим?зац?? його анал?зу PAGEREF _Toc8722913 \h 291.6Досл?дження сегментац?? об’?кт?в у зображен? PAGEREF _Toc8722914 \h 311.7Досл?дження анал?зу розп?знавання рухомих та не рухомих об’?кт?в PAGEREF _Toc8722915 \h 321.8Досл?дження розп?знавання об’?кт?в у в?део за допомогою комп’ютерного зору PAGEREF _Toc8722916 \h 351.9Досл?дження анал?зу ауд?о дор?жки та мовлення у в?део потоц? PAGEREF _Toc8722917 \h 381.10 Постановка задач? PAGEREF _Toc8722918 \h 41Висновки до розд?лу PAGEREF _Toc8722919 \h 422.РОЗРОБКА АЛГОРИТМУ АНАЛ?ЗУ ПОТОКОВОГО В?ДЕО PAGEREF _Toc8722920 \h 442.1Опис метод?в розв’язання задач? PAGEREF _Toc8722921 \h 442.3Опис метод?в пошуку та розп?знавання головних об’?кт?в у кадрах з в?део PAGEREF _Toc8722922 \h 442.3.1Метод розп?знавання контур?в об’?кт?в за допомогою оператора Прев?тта PAGEREF _Toc8722923 \h 452.3.2Алгоритм пошуку схожих предмет?в на основ? перцептивних хеш?в та ДКП PAGEREF _Toc8722924 \h 472.3.3Алгоритм пор?вняння хеш?в на основ? функц?? в?дстан? Хемм?нга PAGEREF _Toc8722925 \h 492.3.4Методи машинного навчання та комп’ютерного зору PAGEREF _Toc8722926 \h 492.4Алгоритм анал?зу ауд?о дор?жки в?део PAGEREF _Toc8722927 \h 512.4.1Алгоритм розп?знавання мови з ауд?о дор?жки на основ? MFCC PAGEREF _Toc8722928 \h 512.4.2Алгоритм пошуку ключових сл?в у текст? з звуково? дор?жки на основ? TF-IDF PAGEREF _Toc8722929 \h 522.5Математична постановка задач?. Ц?льова функц?я розв’язання задач? PAGEREF _Toc8722930 \h 542.6Загальна схема алгоритму розв’язання задач? PAGEREF _Toc8722931 \h 56Висновки до розд?лу PAGEREF _Toc8722932 \h 573.ОПИС ПРОГРАМНОГО ПРОДУКТУ PAGEREF _Toc8722933 \h 593.1Засоби розробки PAGEREF _Toc8722934 \h 593.2Вимоги до техн?чного забезпечення PAGEREF _Toc8722935 \h 623.3Арх?тектура програмного забезпечення PAGEREF _Toc8722936 \h 623.3.1Д?аграма клас?в PAGEREF _Toc8722937 \h 623.3.2Д?аграма компонент?в PAGEREF _Toc8722938 \h 643.4Специф?кац?я функц?й PAGEREF _Toc8722939 \h 663.5Кер?вництво користувача PAGEREF _Toc8722940 \h 693.5.1Налаштування системи PAGEREF _Toc8722941 \h 693.5.2Кер?вництво користування API ?нформац?йно? системи PAGEREF _Toc8722942 \h 703.5.3Кер?вництво користування користування пробною верс??ю системи PAGEREF _Toc8722943 \h 71Висновки до розд?лу PAGEREF _Toc8722944 \h 744.АНАЛ?З РЕЗУЛЬТАТ?В ДОСЛ?ДЖЕННЯ PAGEREF _Toc8722945 \h 764.1 Вх?дн? дан?. PAGEREF _Toc8722946 \h 764.2 Анал?з отриманих результат?в. PAGEREF _Toc8722947 \h 764.2.1 PAGEREF _Toc8722948 \h 764.2.2 Анал?з зображення з в?део потоку. PAGEREF _Toc8722949 \h 774.2.3 Анал?з ауд?о дор?жки. PAGEREF _Toc8722950 \h 784.2.4 Анал?з результату пошуку релевантного рекламного оголошення. PAGEREF _Toc8722951 \h 79Висновки до розд?лу. PAGEREF _Toc8722952 \h 80ВИСНОВКИ PAGEREF _Toc8722953 \h 81РЕКОМЕНДАЦ??? PAGEREF _Toc8722954 \h 82ПЕРЕЛ?К ПОСИЛАНЬ PAGEREF _Toc8722955 \h 83ДОДАТОК А ГРАФ?ЧНИЙ МАТЕР?АЛ PAGEREF _Toc8722956 \h 91ПЛАКАТ 1 МАТЕМАТИЧНА ПОСТАНОВКА ЗАДАЧ?. АНАЛ?З КАДР?В З В?ДЕО ПОТОКУ. PAGEREF _Toc8722957 \h 92ПЛАКАТ 2 МАТЕМАТИЧНА ПОСТАНОВКА ЗАДАЧ?. АНАЛ?З АУД?О ДОР?ЖКИ. Ц?ЛЬОВА ФУНКЦ?Я. PAGEREF _Toc8722958 \h 93ПЛАКАТ 3 ЗАГАЛЬНА СХЕМА АЛГОРИТМУ ПОШУКУ РЕКЛАМНИХ ПОВ?ДОМЛЕНЬ РЕЛЕВАНТНИХ ДО КОНТЕНТУ В?ДЕО ПОТОКУ PAGEREF _Toc8722959 \h 94ПЛАКАТ 4 АРХ?ТЕКТУРА ?НФОРМАЦ?ЙНО? СИСТЕМИ PAGEREF _Toc8722960 \h 95ПЛАКАТ 5 Д?АГРАМА КЛАС?В СЕРВЕРНОГО ЗАСТОСУВАННЯ PAGEREF _Toc8722961 \h 96ПЛАКАТ 6 КРЕСЛЕННЯ ВИГЛЯДУ ЕКРАННИХ ФОРМ PAGEREF _Toc8722962 \h 97ПЕРЕЛ?К УМОВНИХ ПОЗНАЧЕНЬ, СКОРОЧЕНЬ ? ТЕРМ?Н?ВHEVC – high efficiency video coding.ОСR – optical character recognition.NLP – Natural Language Processing.ДПФ – дискретне перетворення Фур’?.ДКП – дискретне конисо?дальне перетворення.MFCC – mel-frequency cepstrum.LDA – Latent Dirichlet allocation.СКО – середн? квадратичне в?дхилення.CV — computer vision.API — application programming interface.ML – machine learning.JSON – JavaScript Object Notation.ВСТУПСучасне сусп?льство, що дня створю? та спожива? тони ?нформац?? в ?нформац?йному св?т?: чита? та пише стат?, дивиться в?део, обм?ню?ться пов?домленням. Не дивно, що в останн? роки на зм?ну тексту прийшло в?део.На раз? саме воно ста? одним з най популярн?ших ? головн?ших джерел ?нформац?? у св?т?. Завдяки науково-техн?чному прогресу, кожен сьогодн? ма? камеру у сво?му телефон?, а отже здатний створювати в?део контент ? д?литися ?м з м?льйонами глядач?в. На сьогодн?шн?й день т?льки у систем? Youtube заре?стровано б?льше 1.3 м?льярд?в користувач?в, як? споживають м?льйони терабайт?в ?нформац?? що дня. Тому й недивно, що у всесв?тн?й павутин? ?сну? маса р?зноман?тних онлайн к?нотеатр?в та в?део серв?с?в, як? надають користувачам можлив?сть дивитись ф?льми та улюблен? шоу.З ?ншого-боку, р?ст популярност? в?део призводить до потреби покращення якост? контенту, що вимага? профес?йного п?дходу до його створення. Через це даний процес ускладня?ться ? ста? головною роботою для контентмейкер?в.Основна частина доход?в систем як? програють в?део ? контентмейкер?в йде з реклами. Зазвичай, глядачам п?д час перегляду пропонують р?зноман?тн? рекламн? оголошення, як? на жаль не мають н?якого зв'язку з контентом в?део. Через це реклама вигляда? набридливою ? не ? ц?кавою глядачу, а отже не приносить оч?куваного доходу рекламодавцям, що в свою чергу ставить п?д сумн?в ?? доц?льн?сть.Актуальн?сть.Дане досл?дження ? розробка алгоритм?чного забезпечення ? актуальним в епоху ?нтернет к?нотеатр?в ? в?део серв?с?в. Оск?льки п?д час перегляду в?део, дан? серв?си пропонують користувачам р?зноман?тну рекламу, яка не в?дпов?да? зм?сту в?део, а отже ? не релевантною. Саме тому розробка алгоритму, який як насл?док ув?йде в основу ?нформац?йно? систему, яка буде здатна проанал?зувати в?део ряд та виявляти максимально наближене до нього рекламне оголошення, надавши його глядачу, ? дуже актуальною у наш час.Мета досл?дження:Покращити процесу анал?зу потокового в?део та знаходження його контенту, шляхом розробки алгоритм?чного забезпечення та його впровадження в рамках ?нформац?йно? системи, яка анал?зуватиме в?део пот?к в реальному час? та пропонуватиме глядачу рекламн? оголошень релевантн? до контенту в?део потоку. Завдання досл?дження:розробити алгоритм?чний комплекс, який буде анал?зувати контент потокове в?део ? пропонувати глядачу рекламу, яка буде релевантна до контенту даного в?део.розробити ?нформац?йну систему, який анал?зу? потокове в?део ? пропону? глядачу рекламу релевантну до контенту даного в?део;Об’?кт досл?дження. Об’?ктом досл?дження виступа? анал?з контенту в?деопотоку та процес пошуку реклами релевантно? до контенту у в?део.Наукова новизна та методи розв’язання задач?.?сну? багато метод?в та п?дход?в, як? намагаються вир?шити задачу анал?зу контенту в?део потоку. Серед, них ? ряд алгоритм?в, як? анал?зують в?део за допомогою семантичного анал?зу, шляхом укладення формату кодування чи досл?дженням його метаданих, пошуком головних об'?кт?в шляхом в?дстеження ключових кадр?в чи за допомогою комп'ютерного зору, намагаються знайти контент шляхом анал?зу ауд?о дор?жки в?део. Натом?сть, б?льш?сть з запропонованих п?дход?в працюють пов?льно, не масштабовано ? не можуть похвалитись стаб?льною роботою у реальному час?.Запропонований алгоритм вир?шу? задачу анал?зу контенту в?деопотоку у реальному час? ? анал?зу? контент в?део, ор??нтуючись на три фактори: метадан?, кадри з в?део та його ауд?о дор?жку. Розроблений алгоритм розбива? в?део пот?к на частини ? паралельно анал?зу? контент кожно? частини в?деопотоку у чотири етапи. На першому етап?, викону?ться розкадровка в?деопотоку, знаходження у кадрах сп?льних предмет?в ? ?х безпосередн? розп?знавання за допомогою комп'ютерного зору. Другий етап, склада?ться з анал?зу ? розп?знавання мови з ауд?о дор?жки в?део, ? пошуку ключових сл?в в отриманого тексту. На третьому етап?, алгоритм анал?зу? метадан? в?део ? знаходить ключов? слова у них. Останн?м етапом, в?дбува?ться пошук максимально наближено? реклами до контенту в?деопотоку, базуючись на результатах попередн?х розрахунк?в.ОГЛЯД СУЧАНИХ ДОСЛ?ДЖЕНЬ В ОБЛАСТ? АНАЛ?ЗУ КОНТЕНТУ В?ДЕОЗадача анал?зу пошуку контенту в?деопоку ? одн??ю з найактуальн?ших задач у сфер? анал?зу даних у реальному час?. Для ?? розв'язання застосовуються найр?зноман?тн?ш? п?дходи та алгоритми багато з яких базу?ться на базових методах обробки та анал?зу даних, а ?нш? навпаки можуть бути вузькоспец?ал?зованими саме для анал?зу в?део та граф?чно? ?нформац??, чи пропонують пошук вир?шення дуже специф?чних задач анал?зу в?део потоку.Вс? публ?кац?? пропонують р?зноман?тн? методи для анал?зу контенту у в?деопотоц? чи набор? кадр?в. На даний момент досл?дження за даним напрямом дос? проводяться, про що св?дчить величезна к?льк?сть досл?джень як? регулярно публ?куються. Отож, в ход? проведення досл?дження було проанал?зовано ряд наукових праць за темою дисертац??. Б?льш?сть з них були опубл?кован? в пер?од з 2002 по 2018 р?к науковцями та ?нженерами пров?дних св?тових компан?й та ун?верситет?в.Зазвичай, опрацьован? стат? описують нов? алгоритми та п?дходи анал?зу контенту в?деопотоку. Один з яких, наприклад, ? досл?дження мета даних в?део, як? можуть дати уявлення про його контент. Так у робот? вчених ун?верситету С?нгапуру [49] булу виконано досл?дження анал?зу б?бл?отеки в?део файл?в як? мали мета дан?. Дане досл?дження дозволило створити ефективну пошукову систему по контенту в?део б?бл?отеки. Саме тому не сл?д нехтувати будь-якою ?нформац??, яку можна отримати з в?део потоку.Загалом, ?сну? багато ? ?нших метод?в та досл?джень, як? намагаються вир?шити поставлену задачу анал?зу контенту в?деопотоку. Серед, них ? ряд алгоритм?в, як? анал?зують в?део за допомогою семантичного анал?зу [8, 71], шляхом ускладнення формату кодування чи досл?дженням його метаданих [28], зд?йснюють пошук головних об'?кт?в в?део шляхом в?дстеження ключових кадр?в [33] чи за допомогою комп'ютерного зору [72], намагаються знайти контент шляхом анал?зу ауд?о дор?жки в?део [73].Отож, досл?димо методи та алгоритми розглянут? у р?зноман?тних публ?кац?ях б?льш детально.Досл?дження кодування та формату в?део потоку або застосування на яке ведеться зйомкаОдним за п?дход?в досл?дження анал?зу контенту в?део ? модиф?кац?я чи анал?з системи кодування або формату в?део, що дозволя? пол?пшити процес його анал?зу. Найчаст?ше в даних статях анал?зуються р?зноман?тн? п?дходи, як? базуються на особливостях р?зних систем кодування в?део та метаданих як? можна д?стати з того чи ?ншого в?део формату. Знайден? данн? в подальшому можна використовувати для ефективно? обробки та анал?зу вм?сту в?део потоку.Анал?зу кодування MPEG-4. Вчен? з досл?дницько? лаборатор?? у Пол Альто, Кал?форн?я, виконали досл?дження [23] стандарту кодування в?део MPEG-4 ? з’ясували, що даний формат забезпечу? функц?ональн?сть на основ? контенту, а також високу ефективн?сть кодування. В процес?, досл?дження було встановлено, що даний формат пол?пшу? подальший анал?зу рухомих об'?кт?в. Саме тому, у сво?й робот? досл?дники запропоновали новий алгоритм сегментац?? рухомих об'?кт?в для формату MPEG-4, який здатний автоматично розп?знавати р?зноман?тн? об'?кти у в?део, що значно пол?пшу? процес його анал?зу.Анал?зу кодування HEVC. У той же час, Досл?дники у Кита? [28] досл?дили формат в?део HEVC, який набагато краще дозволя? сегментувати та класиф?кувати рухом? об'?кти у в?део потоц?. У сво?й робот? вони представили п?дх?д до сегментац?? та класиф?кац?? рухомих об'?кт?в у реальному час? для в?деоспостереження, на основ? безпосередньо анал?зу формату HEVC.Анал?зу кодування HEVC. З ?ншого боку, ?сну? ряд ?дей з створення ц?лком власного формату кодування в?део, яке пол?пшить процес його анал?зу. Так вчен? з Оксфорду у сво?й робот? [3] розробили власну структуру кодування, яка використову? семантику для обробки та анал?зу в?део вм?сту. У сво?й робот?, анал?з контенту досяга?ться шляхом обробки семантики в?део, в процес?, яко? в?докремлюють в?дпов?дну ?нформац?ю в?д нерелевантно?, в подальшому обробляючи т?льки потр?бн? фрагменти в?део потоку.Розробка власних формат?в кодування в?део. Схож? ?де? створення власного формату просл?дковуються у сп?льн?й стат? пров?дних досл?дник?в AT&T, Microsoft, Philips, Sharp та ун?верситет?в ?лл?но?су та Беркл? [5]. У н?й фах?вц? спрямували сво? досл?дження на пошук кардинально новий способу стратег?? та методики досл?джень анал?зу в?део на основ? його вм?сту. В результат? досл?дження вони проанал?зовали основи кодування в?део дуже низько? швидкост? (VLBV 98). В результат? чого висунули новий п?дх?д анал?зу в?део ? власний формат його кодування. Але незважаючи на досягнутий результат, дана у стаття ма? дуже абстрактний характер ? не може бути вт?лена на практиц?.Навчання модел? анал?зувати б?бл?отеку в?део потоки на основ? мета даних. Так науковц?в з ун?верситету Лондона [71] виконали ц?каве досл?дження. У сво?й публ?кац?? вони по?днали комплексний опис ймов?рн?сно? модел? пошуку з новими експертними систематичними на основ? анал?зу мета даних в?део б?бл?отеки. В результат? досл?дження вони представили модель для пошуку даних, яка охоплю? великий спектр р?зноман?тних ресурс?в ? ма? багатий функц?онал. П?д час роботи дана модель на кожному кроц? узгоджу? аргумент з пор?вняльними пошуковими даними, щоб забезпечити ?диний узгоджений обл?к великого набору файл?в. Проведен? експерименти демонструють, що для велико? колекц?? даних ?мов?рн?сна модель основана на мета даних файл?в ? ефективною, над?йною ? в?дпов?да? поставленим задачам. Натом?сть даний п?дх?д, не ? ун?версальним оск?льки дуже залежить в?д середовища навчання.Анал?з в?део потоку на основ? властивостей зображення. Вчен? з Япон?? Йошинобу Тономура, Ак?х?то Акуцу [17] п?шли ?ншим шляхом ? у сво?й робот? запропоновано новий п?дх?д до вза?мод?? з? збереженим в?део. П?дх?д використову? VideoMAP ? VideoSpaceIcon. VideoMAP – це ?нтерфейс, який показу? найважлив?ш? функц?? в?део, як? легко сприймати. А VideoSpaceIcon – представля? тимчасов? та просторов? характеристики в?деозйомки як ?нту?тивну п?ктограму. У статт? досл?дники висв?тлили основну концепц?ю ? описали прототипи формату, який дозволя? ефективно та швидко виконувати функц?? обробки в?део, таких як анал?з в?део контенту, редагування в?део та пошук у в?део потоц?.Анал?з в?део потоку на основ? типу сенсора камери. З ?ншого боку, ?сну? ряд досл?джень як? покращують анал?з в?део на основ? типу сенсора камери та зображення на виход?. У одн?й з таких роб?т [45] досл?джуються RGB-D камери та отриман? кольоров? гами як? вони дають на виход?. За допомогою ч?ткост? даних кольор?в, можливо покращити семантичний анал?з в?део та розп?знавання об’?кт?в у ньому.Анал?з в?део потоку за допомогою властивостей камери моб?льного телефону. А наприклад досл?дники з компан?? Kofax Inc. у сво?й робот? [48] розробили алгоритм в?дстеження об’?кта за допомогою камери моб?льного телефона ? ?? формату кодування. Основна ?дея, розробленого п?дходу, поляга? у безпреривн?й перев?рц? чи задовольня? об'?кт, зображений у в?деошукач?, одному або б?льше заздалег?дь визначеному набору критер??в, а пот?м на основ? ?х ф?ксу?ться його знаходження. Розроблений п?дх?д да? змогу анал?зувати в?део у реальному час? з моб?льних застосуваньПереваги. Анал?з формату кодування в?део дозволя? на б?льш низькому р?вн? анал?зувати контент в?део потоку, оск?льки кожен формат ма? сво? власн? особливост?, як? можуть дозволити набагато ефективн?ше оброблювати в?део. Недол?ки. Даний п?дх?д не ун?версальний оск?льки потребу? завжди використання певного формату чи систем кодування, що найчаст?ше не ? можливим при реальних умовах. Також б?льш?сть таких систем кодування не здатн? надавати б?льш ширшу ?нформац?ю при обробц? в?део у реальному час?.Досл?дження семантичного анал?зу в?део потоку?ншим п?дходом до анал?зу контенту можна вважати алгоритми в основну яких закладений семантичний анал?з в?део.Так, яскравим прикладом семантичного анал?зу, ? одине з вже розглянутих досл?джень кодування в?део [3], п?д час якого було розроблено структуру кодування в?део формату на основ? HEVC, яка використовуючи семантику оптим?зу? процес обробки та анал?зу в?део. Що яскраво демонстру? потенц?ал семантичного анал?зу у рамках вир?шення задач? класиф?кац?? в?део потоку та оптим?зац?? пошуку у ньому. Саме тому досл?дження семантичного анал?зу в?део потоку заслугову? на увагу.Методи класиф?кац??, пошуку та анал?зу в?део. Так, досл?дники з ун?верситету Гонконгу [8] розглянули основн? питання анал?зу в?део, абстракц??, пошуку та семантичного анал?зу. Основними темами досл?дження дано? роботи були розб?р в?део розбиття, характеристика руху та сегментац?я об'?кт?в. П?д-час досл?дження було представлено три р?вн? абстрагування в?део вм?сту за сценою, ключовим кадром ? ключовими об'?ктами. Ц? схеми подання в ц?лому слугують основним джерелом пошуку у в?део ? в?д?грають основну роль у семантичному анал?зу розум?ння в?део контенту. Хоча дана робота ? прагне використати семантичний анал?з п?д ?ншим кутом, проте вона не вир?шу? практичн? проблеми ? несе т?льки теоретичний характер.У робот? “Early versus Late Fusion in Semantic Video Analysis” [1] розгляда?ться семантичний анал?з мультимодального в?део призначений для ?ндексування ?нтерес?в сегмент?в на концептуальному р?вн?. Основна новизна дано? роботи поляга? у метод? досягнення дано? мети, а саме анал?зуються дек?лька ?нформац?йних поток?в, а як? в певний момент часу повинн? злитися. У ц?й робот? розгляда?ться два класи схем злиття, а саме: ранн? злиття (злива? модальност? в простор? ознак) ? п?зн?й синтез (зливають модальност? в семантичному простор?). В в процес? досл?дження було проведено експеримент на 184 години трансляц?? в?деоданих ? 20 семантичних концепц?й. В результат? було доведено, що п?зн?й синтез ма? тенденц?ю надавати трохи кращу продуктивн?сть для б?льшост? концепц?й. Проте, у робот? не звернута увага концепц?ям та прикладам де ранн?й синтез працю? краще ? де р?зниця б?льш значна в його користь. Що каже про те що сл?д створити б?льш гнучкий алгоритм, який буде сумувати обидва класи модел? злиття.З ?ншого боку ?сну? все б?льше доказ?в того, що в?зуальна ч?тк?сть може бути краще змодельована за допомогою механ?зм?в зверху вниз, як? включають семантику об'?кт?в. Це передбача? новий напрямок для семантичного анал?зу зображень ? в?део, де видобуток семантики може бути ефективно використаний для пол?пшення п?дсумк?в в?део, ?ндексац?? та пошуку. Стаття “Wildlife video key-frame extraction based on novelty detection in semantic context” [41] представля? кадри, що моделюють семантичн? контексти для вилучення ключових фрагмент?в. У п?дход?, витягу?ться семантичний контекст в?деокадр?в ? в?дсл?дковуються ?х посл?довн? зм?ни, а нов? данн? знаходилися за допомогою модулю класиф?катора. Експерименти показують, що розглянутий п?дх?д з використанням семантичного моделювання високого р?вня дозволя? краще витягувати ключов? кадри пор?вняно з аналогами за допомогою функц?й низького р?вня.Анал?з зм?сту в?део потоку на основ? семантичного анал?зу. Вчений з Кембриджського ун?верситету у сво?й робот? [10] на основн? семантичного анал?зу стверджу?, що знання про структуру в?део можна використовувати не т?льки, як зас?б для пол?пшення продуктивност? контент-анал?зу, так ? для вилучення особливостей, як? передають семантичну ?нформац?ю про зм?ст в?део. П?д час дано? роботи було введено статистичн? модел? для двох важливих компонент?в ц??? структури, тривалост? ? активност? зн?мк?в. В результат? проведено досл?ди, протягом яких було продемонстровано, як ц? модел? можна використовувати за основу для ?нту?тивного доступу до б?бл?отек ф?льм?в на основ? ?х вм?сту. Дана робота ? дуже ц?кавою з точки зору колекц?онування контенту в?део ? повторного його використання для б?льш ширшого семантичного анал?зу в?део. Семантичний анал?з под?й у в?део потоц?. У робот? “Event detection and recognition for semantic annotation of video” [72] науковц? досл?дили методи виявлення та розп?знавання под?й та д?й у в?део. Оск?льки, виявлення ? розп?знавання под?й вимага? розгляду часового аспекту в?део, або на низькому р?вн? з в?дпов?дними функц?ями, або на б?льш високому р?вн? з моделями ? класиф?каторами, н?ж може представляти час, досл?дники вир?шили досл?дити область розп?знавання под?й, в?д детектор?в точок ?нтерес?в ? дескриптор?в, до метод?в моделювання под?й ? технолог?й управл?ння знаннями. В результат? вони надали зм?стовний огляд р?зноман?тних п?дход?в та метод?в, класиф?куючи ?х в?дпов?дно до метод?в виробництва в?део та домен?в в?део, ? в?дпов?дно до тип?в под?й ? д?й, характерних для цих домен?в. Дана робота ма? б?льше оглядовий характер ? ? ц?кавою оск?льки розгляда?, пор?вню? ? класиф?кую ряд метод?в анал?зу в?део потоку надаючи переваги ? вид?ляючи ?х недол?ки.Семантичний анал?з специф?чного контенту. Загалом, семантичний анал?з в?део потоку використову?ться для обробки певно? специф?чно? ?нформац??. Так, у досл?дницьк?й робот? “Automatic Soccer Video Analysis and Summarization” [2] був проведений семантичний анал?з футбольних в?део ? розроблено повн?стю автоматичну та обчислювальноефективну основу для анал?зу та узагальнення даних в?део, що використовують к?нематограф?чн? та об'?ктн? функц??. Запропонована структура включа? в себе деяк? нов? алгоритми обробки в?део на низькому р?вн?, так? як виявлення дом?нуючо? област? кольор?в, над?йне виявлення меж д?й ? класиф?кац?я цих д?й, а також деяк? алгоритми вищого р?вня для виявлення ц?лей, виявлення та розп?знавання об’?кт?в на пол?. В процес? досл?дження було виявлено, що запропонована алгоритм ? ефективним та над?йним для обробки футбольних в?део. Серед його переваг, можна вид?лити, здатн?сть анал?зувати в?део пот?к ? виокремлювати т?льки потр?бну ?нформац?ю, нехтуючи не релевантним контентом у в?део, що досяга?ться завдяки семантичному анал?зу в?део. Над?йн?сть запропоновано? системи демонстру?ться на великому набор? даних, що склада?ться з б?льш н?ж 13 годин футбольного в?део, знятого в р?зних кра?нах ? умовах.Серед недол?к?в даний п?дход?в використання семантичного анал?зу до анал?зу специф?чного контенту, ? те що розроблен? алгоритми дуже погано застосову?ться в ?нших сферах ? не ? ун?версальними, що робить ?х дуже вузькими для використання. Семантичний анал?з на основ? онтолог??. У науков?й робот? вчених Нац?онального Ун?верситету Китаю “Video Semantic Content Analysis based on Ontology” [14] представлено структуру анал?зу семантичного контенту в?део на основ? онтолог??. Онтолог?я домену використову?ться для визначення семантичних понять високого р?вня та ?х в?дносин у контекст? досл?джувано? област?. А алгоритми анал?зу низького р?вня (наприклад, в?зуальн? та звуков?) та алгоритми анал?зу в?деовм?сту, ?нтегрован? в онтолог?ю для збагачення семантичного анал?зу в?део.У робот? ?нституту Салон?ки у Грец?? [42] також представлено п?дх?д до розп?знавання семантичного анал?зу в?део об'?кту на баз? мультимед?йно? онтолог?чно? ?нфраструктури. Семантичн? поняття в контекст? розглянуто? област? визначаються в онтолог?? збагачено?: як?сними атрибутами (наприклад, однор?дн?стю кольор?в), функц?ями низького р?вня (наприклад, розпод?лом компонент?в кол?рно? модел?), просторовими в?дносинами об'?кт?в ? методами мультимед?йно? обробки (наприклад, кластеризац?я кольор?в). Даний п?дх?д до семантичного анал?зу може бути використаний в системах семантично? анотац?? та транс кодування, як? враховують середовище користувач?в, включаючи переваги, використан? пристро?, доступну пропускну здатн?сть мереж? та ?дентиф?кац?ю вм?сту. П?дчас досл?дження, запропонований п?дх?д був перев?рений на виявлення семантичних об'?кт?в на в?деоданих трьох р?зних домен?в.Переваги. За допомогою р?зноман?тних п?дход?в семантичного анал?зу можна на багато краще та ефективн?ше анал?зувати контент в?део потоку. Зазвичай це досяга?ться оптим?зац??ю процесу анал?зу, шляхом виокремлення головних частин в?део або анал?зом семантичних особливостей в?део. Недол?ки. Б?льш?сть алгоритм?в та п?дход?в семантичного анал?зу не ? ефективними п?дчас обробки та анал?зу в?део реального часу, або вир?шують дуже специф?чну задачу ? погано масштабуються на розв’язок ?нших проблем.Досл?дження ключових фрагмент?в та кадр?в у в?део потоц? та в?део б?бл?отекахЗнаходження ключових фрагмент?в та кадр?в у в?део потоках та в?део б?бл?отеках значно пол?пшу? процес обробки контенту.Так, наприклад, у робот? “Recent advances in content-based video analysis” [8], яка розглядалась у Розд?л? 1.2, був використаний семантичний анал?з саме для пошуку ключових кадр?в у в?део ряд?, що сутт?во зб?льшило ефективн?сть анал?зу в?деопотоку. Саме тому дан? алгоритми та п?дходи ? дуже важливими в досл?джен? процесу анал?зу в?део ? заслуговують на увагу.У робот? “Direct incremental model-based image motion segmentation for video analysis” [20] викону?ться динам?чний анал?з посл?довностей зображень, який ? важливим завданням в об'?ктно-ор??нтованих в?део додатках. У дан?й робот? було розроблено алгоритм сегментац?? руху, заснований на 2D моделях пол?ном?альних рух?в, а також представлено багатор?вневу над?йну оц?нку для обчислення цих моделей руху, а також в?дпов?дн? локальн? спостереження, що забезпечують ?нформац?ю про рух. Одн??ю з його основних особливостей даного досл?дження ? розроблений п?дх?д, який дозволя? уникнути зайвих додаткових ?терац?й м?ж оц?нкою модел? руху та ?дентиф?кац??ю просторово? п?дтримки. Ориг?нальний крок виявлення дозволя? оц?нити ? оновити к?льк?сть необх?дних моделей руху, таким чином обробити появу нових об'?кт?в. Численн? експерименти, виконан? з реальними внутр?шн?ми та зовн?шн?ми посл?довностями зображень, демонструють ефективн?сть даного способу.Фах?вц? з ун?верситету Техасу у сво?й робот? “Discovering important people and objects for egocentric video summarization” [36] представили п?дх?д до п?дсумовування в?део для егоцентричних даних камери. Враховуючи к?льк?сть годин в?део, запропонований спос?б створю? компактний аркуш розкадровки з дня користування камери. На в?дм?ну в?д традиц?йних метод?в вибору ключових кадр?в, узагальнюючий висновок зосереджу?ться на найважлив?ших об'?ктах та людях, з якими вза?мод?? користувач камери. Щоб досягти цього, було використано рег?ональн? сигнали, як? вказують на високий р?вень виразност? в егоцентричному в?део – наприклад, близьк?сть до рук, погляд ? частота зустр?ч?, а також береться до уваги регрессор, щоб передбачити в?дносну важлив?сть будь-якого нового рег?ону на основ? цих сигнал?в. Використовуючи ц? прогнози ? просту форму виявлення тимчасових под?й, даний метод вибира? фрейми для розкадрування, як? в?дображають ключов? под??, що керуються об'?ктами. В результат? досл?дження були проведен? експерименти на тривалих в?део (б?льше 16 годин) як? довели над?йн?сть та ефективн?сть даного алгоритму.Пошук кадру на основ? появи об’?кту. Члени науково-досл?дно? групи кафедри ?нженерних наук Оксфордського ун?верситету у сво?й робот? [21] описують п?дх?д до пошуку сцени, в як?й викону?ться поява певного об'?кта, описаного користувачем, у в?део. Об'?кт представлений набором дескриптор?в ?нвар?антних областей точки зору, так що розп?знавання може усп?шно прот?кати, незважаючи на зм?ни в точц? зору чи осв?тленост?. У дан?й робот? використову?ться, часова безперервн?сть в?део в кадр? використову?ться для в?дстеження рег?он?в для в?дхилення нестаб?льних областей ? зменшення впливу шуму в дескрипторах. Аналог?чно з вилученням тексту, в реал?зац?? вилучення об’?кт?в, використову?ться зб?ги за дескрипторами. Результатом ? в?дпов?дний список ключових кадр?в.Пошук ключових кадр?в за допомогою кластерного анал?зу. Так у досл?дницька робота “An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis” [9] присвячена пошуку ключових кадр?в та в?део фрагмент?в з попередн?м переглядом – це дв? форми в?део фрагмент?в, як? широко використовуються для р?зних додатк?в у системах перегляду та пошуку в?део. У дан?й робот? досл?дники запропонували новий метод генерування цих двох абстрактних форм для дов?льно? в?део посл?довност?. Основний принцип запропонованого способу поляга? у видаленн? надм?рност? в?зуального вм?сту серед в?деокадр?в. Це робиться, з початку, шляхом застосування множинно? групово? кластеризац?? до вс?х кадр?в в?део посл?довност?, а пот?м вибору найб?льш п?дходящого вар?анту кластеризац?? з використанням процедури без нагляду для анал?зу кластервальност?. На останньому етап? ключов? кадри вибираються як центро?ди отриманих оптимальних кластер?в. В?деозображення, до яких належать ключов? кадри, об'?днуються для формування посл?довност? попереднього перегляду. В результат? досл?дження, було отримано п?дх?д анал?зу в?део за допомогою кластерного анал?зу, що може стати у пригод? п?д час анал?зу великих масив?в в?део даних.У досл?дницьк?й робот? робот? ?нженер?в компан?? Object Video Inc. [43] представлено метод виконання високор?внево? сегментац?? в?део на сцени з пошуком ключових кадр?в. Сцена може бути визначена як п?дрозд?л п'?си, в як?й ф?ксу?ться певна умова, або коли вона представля? безперервну д?ю в одному м?сц?. Досл?дники використовують цей факт ? пропонують новий п?дх?д до кластеризац?? кадр?в у сцени, перетворюючи це завдання в задачу розбиття граф?в. Це досяга?ться шляхом побудови зваженого неор??нтованого графа, який назива?ться граф?ком под?бност? кадр?в (SSG), де кожен вузол явля? собою кадр, а ребра м?ж зн?мками зважен? за ?х под?бн?стю на основ? ?нформац?? про кол?р ? рух. Пот?м SSG розбива?ться на п?д графи, застосовуючи нормал?зован? розр?зи для розбиття граф?в. Отриман? розд?ли являють собою окрем? сцени у в?део. Даний алгоритм був протестований на десятках ф?льм?в ? да? ефективн? результати у пошуку ключових сцен.Пошук ключових кадр?в у реальному час?. Досл?дники з ун?верситету Лондона присвятили сво? досл?дження [4] анал?зу первинних тимчасових структур, як? здатн? покращити технолог?? для сегментац?? в?део та вилучення ключових кадр?в, що може стати вир?шальним для розвитку передових систем цифрового в?део. Звичайн? алгоритми для анал?зу в?део та вилучення ключових кадр?в в основному реал?зуються автономно ? не працюють у реальному час?. Фокусуючи анал?з на стислих функц?ях в?део, було представлено алгоритм реального часу для виявлення зм?ни сцени та вилучення ключових кадр?в, який генеру? метрику в?дм?нност? кадр?в, анал?зуючи статистичн? дан? макроблок?в, отриманих з? стисненого потоку в?део. Метод екстракц?? ключових кадр?в реал?зований, за допомогою спрощеного методу диференц?ально? метрики та дискретного алгоритму еволюц?? контуру. В результат?, п?д час досл?дження даний п?дх?д виявився досить швидкого та над?йним. Проте, серед недол?к?в даного алгоритму можна вид?лити те що в?н може часто помилитися в одноман?тному в?део де ваги ус?х ключових об’?кт?в можуть бути приблизно однаковими.Переваги. Знаходження ключових фрагмент?в та кадр?в у в?део потоках та в?део б?бл?отеках значно пол?пшу? ефективн?сть обробки в?део контенту ? пришвидшу? процес його анал?зу.Недол?ки. Б?льша к?лькост? п?дход?в до пошуку ключових фрагмент?в чи кадр?в з в?део не здатна ефективно працювати у реальному час?. Що каже про сутт?вий недол?к даного п?дходу, до вир?шення поставлено? здач?. Але, ?де? закладен? в досл?дженнях можливо вт?лити нав?ть для даного типу задач, проте т?льки частково.Досл?дження знаходження та розп?знавання об’?кт?в у в?део потоц?Знаходження об’?кт?в у в?део потоц? одна з найголовн?ших задач даного досл?дження, саме тому дан?й задач? сл?д прид?лити особливу увагу. Хоча дана задача частково ? перепл?та?ться з задачею пошуку ключових кадр?в та сцен, проте, на в?дм?ну в?д минулих метод?в досл?джень, основною задачею не ? оптим?зац?я анал?зу та обробки в?део потоку. Дан? методи ставлять за ц?ль ефективно розв’язати поставлену задачу пошуку об’?кт?в, користуючись вже в?домими методами чи вирисовуючи власн? напрацювання. Саме тому розглянемо п?дходи знаходження та розп?знавання об’?кт?в у в?део потоц? б?льш детально.?снують так зван? загальн? набори даних еталонних показник?в, стандартизован? показники продуктивност? та базов? алгоритми, як? забезпечують основу для об'?ктивного пор?вняння продуктивност? р?зних алгоритм?в ? алгоритм?чних удосконалень. У робот? вчених Ун?верситету П?вденно? Флориди [40] представлено основу для оц?нки виявлення об'?кт?в та ?? в?дстеження у в?део: спец?ально для об'?кт?в обличчя, тексту та транспортних засоб?в. Розроблений фреймворк включа? в себе джерело в?деоданих, показники продуктивност?, протоколи оц?нки, а також ?нструменти, що включають програмне забезпечення для п?драхунку бал?в ? алгоритми базово? л?н??. Метою ц??? роботи було систематичне вир?шення завдань виявлення та в?дстеження об'?кт?в через загальну систему оц?нювання, що дозволя? зд?йснювати об'?ктивне пор?вняння метод?в, надаючи достатньо даних для досл?дження метод?в автоматичного моделювання.Схожу задачу вир?шують у науков?й робот? досл?дник?в IBM у Кита? [22] вивчають в?део, в яких виявляють виразн? посл?довност? об'?кт?в у його сегмент?. Проте дане досл?дження не ставить за ц?ль розробити фреймворк чи прототип системи. Досл?дники формують характерну посл?довн?сть виявлення об'?кт?в як задачу м?н?м?зац?? енерг?? в умовах випадкового поля, в той час як статична ? динам?чна в?дм?нн?сть, просторова ? тимчасова когерентн?сть, глобально? модел? добре визначен? ? ?нтегрован? для ?дентиф?кац?? основно? посл?довност? об'?кт?в. Розроблений алгоритм динам?чного програмування призначений для вир?шення глобально? оптим?зац?? пошуку представлення важливих об'?кт?в. Даний п?дх?д було перев?рено на велик?й к?лькост? сегмент?в в?део з в?домою посл?довн?стю об'?кт?в у рамках науково? роботи.Розп?знавання об’?кт?в за допомогою нейронно? мереж?. Ц?кавий п?дх?д запропонований в робот? “You Only Look Once: Unified, Real-Time Object Detection” [29] у як?й досл?дники представили YOLO, новий п?дх?д до виявлення об'?кт?в. Основна ?дея даного п?дходу ? визначення об'?кту, як проблему регрес?? до просторово розд?лених обмежувальних блок?в ? пов'язаних з ними ймов?рностей клас?в. Розроблена нейронна мережа передбача? обмежувальн? поля ? ймов?рност? класу безпосередньо з повних зображень в одн?й оц?нц?. Оск?льки весь конве?р виявлення ? ?диною мережею, в?н може бути оптим?зований наскр?зь безпосередньо на продуктивност? виявлення. Базова модель YOLO обробля? зображення в реальному час? при 45 кадрах в секунду. У пор?внянн? з найсучасн?шими системами виявлення, проте, YOLO робить б?льше помилок локал?зац??. Нарешт?, YOLO д?зна?ться дуже загальн? уявлення про об'?кти. В?н перевершу? ?нш? методи виявлення, включаючи DPM ? R-CNN, при узагальненн? в?д природних зображень до ?нших домен?в, наприклад, до ?люстрац??.У робот? досл?дник?в з ун?верситету Пенс?льван?? [26] пропону?ться мережа просторово-часово? виб?рки (STSN), яка використову? деформован? звивини через час для виявлення об'?кт?в у в?део. STSN викону? виявлення об'?кт?в у в?деокадр?, навчаючись просторовим зразкам об'?кт?в з сус?дн?х кадр?в. Це, природно, робить п?дх?д над?йним до оклюз?? або розмиття руху в окремих кадрах. Розроблений фреймворк не вимага? додаткового нагляду, оск?льки в?н оптим?зу? м?сця виб?рки безпосередньо щодо продуктивност? виявлення об'?кт?в. Отож розроблений STSN перевершу? сучасний стан набору даних VID ImageNet ? пор?вню?ться з попередн?ми методами виявлення в?деооб'?кт?в, як? використовують б?льш просту конструкц?ю, ? не вимага? оптичних даних для навчання.Використання на практиц?. Ц?кавим прикладом використання на практиц? в?дсл?дковування об’?кт?в ? вир?шення проблеми в?дстеження об'?кта в режим? реального часу на квадракоптер? в динам?чному середовищ?. Дана проблема була розкрита у робот? “Real-time object tracking on a drone with multi-inertial sensing data” [27]. Дана стаття представля? собою новий легкий п?дх?д для в?дстеження об'?кт?в у реальному час? ? пропону? алгоритм виявлення рухомих об'?кт?в, який витягу? особливост? точок у в?деокадр? за допомогою ор??нтованого FAST. Дан? точки обертаються б?нарним над?йним незалежним елементарним алгоритмом ? пристосовують дв?йковий алгоритм р?зниц? для побудови б?нарних дескриптор?в зображення. Метод K-найближчого сус?да пот?м використову?ться для в?дпов?дност? дескриптор?в зображення. Нарешт?, запропоновано метод в?дстеження об'?кт?в, злива? ?нерц?йн? дан? до вим?рювального блоку, де вони обчислю?ться у межах глобально? системи позиц?онування ? пор?внюються з в?дносним положенням квадракоптера. Експериментальн? результати, проведен? п?дчас досл?дження, демонструють чудову продуктивн?сть розробленого методу над сучасним методом в?зуального в?дстеження об'?кт?в.Вир?шення р?зноман?тних задач за допомогою метод?в пошуку та розп?знавання об’?кт?в у в?део. У робот? досл?дник?в з центру досл?джень з комп'ютерного бачення Ун?верситет Флориди [25] пропону?ться новий п?дх?д до вилучення сегмент?в первинних об'?кт?в у в?део. Вилучен? рег?они основних об'?кт?в пот?м використовуються для побудови об'?ктних моделей для оптим?зовано? сегментац?? в?део. Запропонований п?дх?д ма? дек?лька внеск?в: по-перше, представлений новий алгоритм на основ? спрямованого ацикл?чного графа (DAG) для виявлення та сегментац?? первинного об'?кта у в?део. По-друге, DAG ?н?ц?ал?зу?ться з розширеним набором пропозиц?й об'?кт?в, де передбачена пропозиц?я на основ? руху (з сус?дн?х кадр?в) використову?ться для розширення набору об'?ктних пропозиц?й для конкретного кадру. Нарешт?, в робот? представлена ??функц?я оц?нювання руху для вибору об'?ктних пропозиц?й, що п?дкреслю? висок? оптичн? град??нти потоку на меж? пропозиц??, щоб розр?зняти рухом? об'?кти та фон. Запропонований п?дх?д перевершу? в ефективност? б?льш?сть сучасних метод?в, що каже про його швидкод?ю.Також ?сну? важлива задача розд?лення об'?кт?в переднього плану та фону у в?део. Робот? ?тал?йських вчених “Fast Object Segmentation in Unconstrained Video” [50] саме намага?ться вир?шити дану задачу. ?х метод ? швидким, повн?стю автоматичним, ? робить м?н?мальн? припущення щодо в?део. Це да? змогу обробляти, по сут?, необмежен? налаштування, включаючи швидк?сть руху фону, дов?льний рух об'?кт?в ? ?х зовн?шн?й вигляд, а також нежорстк? деформац?? ? артикуляц??. Б?льш того, запропонований п?дх?д ? набагато швидшим за недавн? методи сегментац?? в?деооб'?кт?в, заснованих на об'?ктних пропозиц?ях [51, 52].Кр?м цього, ?сну? задача розп?знавання текстових об’?кт?в у в?део та ?нформац?? у них. Досл?дники Цзин Чжан та Рангахар Кастур? у сво?й публ?кац?? [35] досл?дили п?дходи вир?шення дано? задач?, запропонован? протягом останн?х п'яти рок?в, ? пор?вняли ?х м?ж собою. Також вони висв?тлили перспективн? напрямки майбутн?х досл?джень.Висновки. Отож, знаходження та розп?знавання об’?кт?в у в?део потоц? ? лог?чним продовження задач? пошуку ключових кадр?в у в?део. Б?льш?сть з запропонованих алгоритм?в пропонують власн? п?дходи до вир?шення дано? задач?, як? демонструють ефективну роботу у реальному час?. Досл?джен? ?де? сл?д розглянути для розв’язання поставлено? задач?.Досл?дження контенту в?део потоку та методи оптим?зац?? його анал?зуДосл?дження контенту у в?део ? дуже важливим оск?льки воно здатне оптим?зувати процес анал?зу в?део потоку, а отже зб?льшити ефективн?сть його обробки.Анал?з зм?сту та контенту в?део файлу. Одним з таких метод?в ? ?ндексац?я та пошук у в?део потоц?. Взагал? даний процес ма? широкий спектр перспективних застосувань, що стимулю? ?нтерес досл?дник?в у всьому св?т?. У статн? “A Survey on Visual Content-Based Video Indexing and Retrieval” [46] пропону?ться огляд загальних стратег?й ?ндексац?? та пошуку в?део на основ? вм?сту, зосереджуючись на анал?з? метаданих та структури в?део, включаючи виявлення меж зн?мк?в, ключових кадр?в, сегментац?? сцени, а також включаючи статичний функц?? кадру, функц?? об'?кта та функц?? руху, видобування в?деоданих, анотац?? в?део, пошук в?део, включаючи ?нтерфейси запит?в, м?ру под?бност? та в?дгук про актуальн?сть, а також перегляд в?део. Отож, у автор?в вийшла дуже об’?мна стаття яка опису? б?льш?сть п?дход?в анал?зу та обробки в?део даних. В результат?, у анал?зу метод?в проводиться огляд майбутн?х напрямк?в досл?джень.У досл?дницьк?й робот? “Content Analysis of Video Using Principal Components” [14] використову?мо анал?з основних компонент?в в?део для зменшення розм?рност? особливостей в?деокадр?в з метою опису зм?сту. Даний опис оптим?зу? практичне використання вс?х кадр?в в?део посл?довност? в подальшому анал?з?. П?д час досл?дження демонстру?ться робота п?дходу для двох тип?в задач. У перш?й викону?ться опис сцени високого р?вня без виявлення зн?мка та вибору рамки у кадрах. У друг?й використову?ться часов? посл?довност? даних руху з кожного кадру для ?х безпосередньо? класиф?кац??.Метод анотац?? под?й у в?део потоц?. У стат? “Video Annotation for Content-based Retrieval using Human Behavior Analysis and Domain Knowledge” [15] запропоновано автоматичний метод анотац?? спортивного в?део для контентного пошуку. Звичайн? методи, в?дстеження об'?кт?в зазвичай викликають помилки розп?знавання через оклюз??, а також ?сну? ряд обмежень на к?лькость розп?знаваних об'?кт?в. Запропонований п?дх?д включа? в себе анал?з повед?нки людини та специф?чн? висновки домену з використанням традиц?йних метод?в, для розробики ?нтегрованого модуля м?ркувань для над?йного визнання под?й. На п?дстав? запропонованого способу було реал?зовано контенту систему пошуку, яка може ?дентиф?кувати к?лька д?й на реальному тен?сному в?део. Даний п?дх?д ? дуже ц?кавим, ? допомага? в?дсл?дковувати ключов? под?? у в?део потоц?.П?дх?д до п?дведення п?дсумк?в в?део файлу. У робот? “Story-Driven Summarization for Egocentric Video” [47] представлено п?дх?д до п?дведення п?дсумк?в в?део. На основ? вх?дного в?део, даний метод вибира? короткий ланцюжок кадр?в, що зображують ?стотн? под??. У той час як традиц?йн? методи оптим?зують р?зноман?тн?сть або репрезентативн?сть контенту, даний метод явно пояснюють, як одна п?д-под?я вплива? на ?ншу, а також, що ф?ксу? зв'язок под?й поза простором об'?днання об'?кт?в. Як насл?док, результат роботи даного алгоритму нада? краще в?дображення контенту в?део.Система анал?зу на основ? в?део ОСR та НЛП. У робот? “Integrating visual, audio and text analysis for news video” [16] було представлено систему, для перегляду новин на основ? контенту. ?снують три основн? фактори, як? в?др?зняють дану роботу в?д под?бних. По-перше, в н?й було ?нтегровано результати анал?зу зображень ? ауд?о в ?дентиф?кац?ю сегмент?в новин. По-друге, було використано технолог?ю в?део OCR для виявлення тексту з кадр?в, що забезпечу? хороший джерело текстово? ?нформац?? для класиф?кац?? ?нформац??. Нарешт?, було використано технолог?? обробки природних мов (НЛП) для виконання автоматизовано? категоризац?? новин на основ? текст?в, отриманих в процес? в?део OCR. Виходячи з цих в?део конструкц?й ? технолог?й контент-анал?зу, було розроблено вдосконалений в?део-браузер для користувач?в та ?нтелектуальний HTML-програвач.Висновки. Отже, досл?дження метод?в анал?зу контенту у в?део в?д?гра? важливу роль оск?льки воно здатне допомогти зрозум?ти, як глядач розп?зна? в?део ряд, що в свою чергу да? змогу оптим?зувати процес анал?зу в?део потоку. Розглянут? методи пропонують ц?кав? п?дходи до процесу обробки в?део файл?в, а запропонован? п?дходи можуть використовуватись в подальших досл?дженнях при розв’язанн? ?нших задач.Досл?дження сегментац?? об’?кт?в у зображен?Задача сегментац?? об’?кт?в у в?део потоц? ? одн??ю дуже важливою, оск?льки пропону? ряд метод?в до пошуку ключових об’?кт?в у в?део потоц?. На основ? метод?в нижче можна будувати ефективн? алгоритми для вир?шення поставлено? задач? досл?дження.Ц?каве досл?дження було проведено в ун?верситет? Техасу – “Key-Segments for Video Object Segmentation” [33]. Дане досл?дження пропону? п?дх?д для виявлення та сегментування об'?кт?в переднього плану у в?део. Даний метод спочатку ?дентиф?ку? об'?ктно-под?бн? област? в будь-якому кадр? в?дпов?дно до статичних ? динам?чних сигнал?в. А пот?м обчислю? сер?ю дв?йкових розд?л?в серед тих ?ключових сегмент?в?, щоб виявити групи г?потез з ст?йким зовн?шн?м рухом. Нарешт?, використовуючи кожну ранговану г?потезу даний метод оц?ню? маркування об'?кт?в на р?вн? п?ксел?в у вс?х кадрах, де ймов?рн?сть переднього плану залежить як в?д вигляду г?потези, так ? в?д ново? попередньо? локал?зац??, засновано? на частковому узгодженн? форми, а також фонову ймов?рн?сть залежить в?д сигнал?в, витягнутих з ключових сегмент?в, як? спостер?гаються в посл?довност?. У пор?внянн? з ?снуючими методами, даний п?дх?д автоматично фокусу?ться на пост?йних рег?онах, що представляють ?нтерес, при одночасному перерозпод?л?.Також, у ун?верситет? Ф?нлянд?? було проведено досл?дження [34] в результат? якого було введено новий метод сегментац?? основних об'?кт?в, який ?рунту?ться на комб?нуванн? м?ри в?дм?нност? з моделлю умовного випадкового поля (CRF). Запропонована м?ра вибору сформульована з використанням статистично? бази та в?дм?нност? локальних особливостей ?нформац?? про осв?тлення, кол?р ? рух. Отримана карта схильност? використову?ться в модел? CRF для визначення п?дходу до сегментац?? на основ? м?н?м?зац?? енерг??, яка спрямована на в?дновлення ч?тко визначених основних об'?кт?в. Метод ефективно реал?зований за допомогою ?нтегрального г?стограмового п?дходу та вир?шувача граф?в. У пор?внянн? з попередн?ми п?дходами введений метод ? одним з небагатьох, як? застосовн? як до нерухомих зображень, так ? до в?деозапис?в, у тому числ? рухомих. Експерименти показують, що описаний п?дх?д перевершу? сучасн? методи як в як?сному, так ? в к?льк?сному в?дношенн?. Переваги. Сегментац?я об’?кт?в у в?део потоц? та в?деокадрах ? одним з шлях?в вир?шення задач? розп?знавання та пошуку ключових об’?кт?в у в?део. Саме тому розглянут? методи ? важливими для розв’язку поставлено? задач?. Розглянут? методи, так чи ?накше не вимагають складних розрахунк?в ? достатньо ефективно розв’язують поставлено задачу. Недол?ки. Серед недол?к?в можна вид?лити погану роботу при розв?янн? задач у реальному час?.Досл?дження анал?зу розп?знавання рухомих та не рухомих об’?кт?вОдн??ю з задач анал?зу в?део ? розп?знавання та класиф?кац?я рухомих об’?кт?в. Дану задачу вир?шують р?зноман?тними способами. Вище у Розд?л? 1.1 був наведений один з таких способ?в використовуючи формат кодування в?део потоку HEVC [28]. Проте ?сну? ? маса ?нших метод?в та п?дход?в до вир?шення дано? задач?, як? ? дуже актуальними у рамках даного досл?дження.Оглядовою статтею, яка опису? основн? методи в?дсл?дковування об’?кт?в як? рухаються у в?део потоц? ? робота “Moving Object Detection and Tracking in Videos” [44]. У н?й автори пор?внюють р?зноман?тн? ?снуюч? методи для розп?знавання рухомих об’?кт?в ? будують власний 4 фазний алгоритм який по?дну? у соб? кращ? частини проанал?зованих метод?в.Проте, досл?дники з Китаю у сво?му досл?дженн? “Video object tracking using adaptive Kalman filter Author links open overlay panel” [24] запропоновали новий метод в?дстеження об'?кт?в, що рухаються. Суть даного методу поляга? у тому, що при ?н?ц?ал?зац?? рухомий об'?кт, обраний користувачем, сегменту?ться, в результат? чого дом?нуючий кол?р витягу?ться з сегментовано? ц?л?. Пот?м кол?р рухомого об'?кта в кол?рному простор? HSI буде використовуватися, як функц?я для виявлення рухомого об'?кта в посл?довних в?деокадр?в. Запропонований спос?б ма? над?йну здатн?сть в?дстежувати рухомий об'?кт у посл?довних кадрах при деяких видах реальних складних ситуац?й, таких як рухомий об'?кт, що повн?стю або частково зника? внасл?док вза?мод?? ?ншими, врахову?ться швидк?сть рух об'?кта, зм?на осв?тлення, зм?на напрямок ? ор??нтац?я рухомого об'?кта. Запропонований спос?б ? ефективним алгоритмом в?дстеження в?деооб'?кт?в ? не вимага? складних обчислень.В?дсл?дковування статичних об’?кт?в. Натом?сть досл?дники Колумб?йського Ун?верситету зосередили сво? досл?дження [11] на пошуку нерухомих зображень та об’?кт?в у в?део потоц?. ?х досл?дження пропону? ?нтерактивну систему в реальному час?, що базу?ться на в?зуальн?й парадигм?, з просторово-часовими атрибутами, як? в?д?грають ключову роль у пошуку в?део. У процес? досл?дження було розроблено алгоритми автоматизовано? сегментац?? ? в?дстеження об'?кт?в в?део та використовували методи редагування в?део в режим? реального часу, в?дпов?даючи на запити користувач?в.В?дсл?дковування рухомих об’?кт?в на основ? рух?в камери. Також ц?каве досл?дження провели досл?дники лаборатор?? Hewlett Packard [18]. У сво?й робот?, вони описали методи та ?нтегрован? системи для анал?зу руху камери та анал?зу рухомих об'?кт?в, а також методи вилучення семантики, головним чином, з параметр?в руху камери в в?део ? сегмент?в в?део без зм?н. Типовими прикладами таких в?део ? в?део зняте цифровою камерою, сегмент кл?пу або ф?льму. Витягнута семантика може бути безпосередньо використана в ряд? розум?ння в?део ? додатк?в управл?ння, таких як анотац?я, перегляд, редагування, покращення кадру, вилучення рамки клав?ш, генерац?я панорами, друк, пошук, п?дсумовування. Описано також автоматичн? методи виявлення ? в?дстеження рухомих об'?кт?в, як? не покладаються на апр?орне знання об'?кт?в. В результат? були вдосконалено оглянут? методи, як? можна виконати в реальному час?. Вир?шення задач? в?дсл?дковування рухомих об’?ктах у транспортних задачах. Досл?дники Оксфордського ун?верситету [30] досл?дили задачу в?деоспостереження п?шоход?в на переходах. Вони представили систему багатоц?льового стеження, розроблену спец?ально для забезпечення стаб?льних ? точних оц?нок розташування п?шоход?в. Даний п?дх?д ? багатопоточним ? по?дну? в соб? асинхронн? HOG-виявлення з одночасним в?дстеженням KLT ? ланцюжок MCM-CDA для забезпечення гарантованого в?дстеження в режим? реального часу у в?део високо? ч?ткост?. Оск?льки, попередн? п?дходи використовували спец?альн? модел? для асоц?ац?? даних, запропонований використову? б?льш принциповий п?дх?д, що ?рунту?ться на ц?л? м?н?мально? довжини опису (MDL), яка точно моделю? спор?днен?сть м?ж спостереженнями, що каже про новизну запропонованого досл?дження.Досл?дники П?ттсбурзького ун?верситету також звернули увагу на проблему транспорту та п?шоход?в т?льки з ?ншого боку. У сво?й робот? “Real-time Detection, Tracking, and Classification of Moving and Stationary Objects using Multiple Fisheye Images” [32], вони спробували зробити систему розп?знання п?шоход?в та вод??в у транспортному засоб?. Оск?льки це необх?дно робити в режим? реального часу з м?н?мальними накладними витратами на систему, вони створили системи об'?много вигляду для ?дентиф?кац?? рухомих, а також статичних об'?кт?в, близьких до транспортного засобу вод?я. Алгоритм ефективно працю? на 4-х видах камер, як? використовуються при дорожньому рус?. Р?шення для виявлення та в?дстеження рухомих об'?кт?в використову? м?н?мальн? накладн? витрати для ?золяц?? ?нтерес?в (ROI), що м?стять рухом? об'?кти. На останньому етап?, в?дбува?ться анал?з ROI, з використанням глибоко? нейронно? мереж? (DNN) для класиф?кац?? рухомого об'?кта.Висновки. Отож, з оглянутих роб?т видно, що анал?з та розп?знавання рухомих та не рухомих об’?кт?в у в?део ? довол? актуальною задачею у наш час ? широко застосову?ться на практиц? при робот? у реальному час?. Серед метод?в дуже ц?кавим ? метод в?дсл?дковування на основ? сегментац?? кольор?в, оск?льки в?н ? досить ст?йким до р?зноман?тних просторових зм?н ? ? не складним з точки зору розрахунк?в.Досл?дження розп?знавання об’?кт?в у в?део за допомогою комп’ютерного зоруП?д час перегляду в?део ми п?дсв?домо пом?ча?мо та сл?дку?мо за найважлив?шими областями в?део. Наше око здатне ?х розп?знати ? автоматично знайти ключов? об’?кти. Саме тому п?дходи та методи комп’ютерного зору широко використовуються для знаходження та класиф?кац?? головних областей та об’?кт?в ? ? ключовим кроком у анал?з? та оброц? в?део потоку.Одн??ю з фундаментальних ? критичних задач у багатьох програмах комп'ютерного зору ? виявлення рухомих об'?кт?в з в?део посл?довност?. Для в?деоспостереження, загальним п?дходом ? виконання операц?? в?дн?мання (усунення) фону, яке ?дентиф?ку? рухом? об'?кти у в?деокадр?, що ?стотно в?др?зня?ться в?д фоново? модел?. Однак, ?сну? багато проблем при розробц? оптимального алгоритму в?дн?мання фону для багатьох фактор?в, таких як зм?ни в осв?тленн?, тощо. У робот? “Prospects and Current Studies on Background Subtraction Techniques for Moving Objects Detection from Surveillance Video” [38] викладено ун?версальний процес виявлення об'?кт?в з фоновим в?дн?манням, а також розглянуто типов? алгоритми моделювання фону та ?х переваги. В результат? узагальнюються вс? ?хн? характеристики ? пор?внюються показники деяких алгоритм?в на основ? експеримент?в. Нарешт?, у стат?, висв?тлен? ключов? питання та напрямки досл?джень у ц?й сфер? ? розглянуто та пор?вняно основн? п?дходи розп?знавання об’?кт?в у в?део за допомогою комп’ютерного зору.Також одн??ю з найб?льш часто зустр?чаються завдань низького р?вня у комп'ютерному зору та обробц? в?део ? здача виявлення зм?н. На сьогодн?шн?й день розроблено безл?ч алгоритм?в, однак для пор?вняльного анал?зу р?зних метод?в не ?сну? широко прийнятого, реал?стичного, масштабного набору даних для в?део. У робот? досл?дницько? лабораторно? Mitsubishi [39] представлено ун?кальний наб?р даних для виявлення зм?н, що склада?ться з близько 90 000 кадр?в в 31 в?део посл?довност?, що представля? 6 категор?й, вибраних для покриття широкого кола завдань у 2-х вар?антах (кольоровий ? тепловий ?К). В?дм?тною характеристикою цього набору даних ? те, що кожен кадр ретельно аноту?ться для меж переднього ? заднього майданчик?в, тла та т?ньово? област? – зусилля, яке значно перевищу? просту б?нарну позначку, що познача? наявн?сть зм?н. Це да? можлив?сть об'?ктивного та точного к?льк?сного пор?вняння та ранжирування алгоритм?в виявлення зм?н. Дана стаття представля? та обговорю? р?зн? аспекти нового набору даних, к?льк?сн? показники ефективност?, що використовуються, та пор?вняльн? результат?в для б?льш н?ж десяти алгоритм?в виявлення попередн?х та нових зм?н. Використання комп’ютерного зору при обробц? та анал?з? в?деопотоку на практиц?. У робот? “Computer vision based method for real-time fire and flame detection” [31] пропону? новий метод для виявлення вогню або полум'я в режим? реального часу шляхом обробки в?деоданих, що генеруються звичайною камерою. У п?дход? полум’я виявля?ться не т?льки на основ? звичайних рух?в ? кольорових ключ?в, а шляхом анал?зу в?део вейвлет-домен?в. Кваз?пер?одична повед?нка полум'я виявля?ться шляхом виконання тимчасового вейвлет-перетворення. Кол?рн? вар?ац?? в областях полум'я виявляються шляхом обчислення просторового вейвлет-перетворення рухомих областей забарвлення. ?ншою п?дказкою, що використову?ться в алгоритм? виявлення пожеж?, ? нер?вном?рн?сть меж? област? вогненного кольору. Вс? перел?чен? вище п?дказки об'?днуються для досягнення остаточного р?шення. Експериментальн? результати показують, що запропонований спос?б ? дуже усп?шним у виявленн? вогню та полум'я. Кр?м того, даний п?дх?д р?зко знижу? помилков? тривоги, що виникають у звичайних вогневих кольорових рухомих об'?ктах, у пор?внянн? з методами, що використовують лише рух ? кол?р.?сну? багато моделей для моделювання повед?нки очей, таких як SaliencyToolBox (STB), Neuromorphic Vision Toolkit (NVT), але вс? вони вимагають високих обчислювальних витрат. Хоча деяк? рег?ональн? п?дходи були запропонован? для зменшення обчислювально? складност? карт особливостей, проте вони до цих п?р не могли працювати в реальному час?. Нещодавно був запропонований простий ? швидкий метод розв’язання дано? задач?, так званий спектральний залишок (SR) [13], який використову? SR ампл?тудного спектра для розрахунку карти виразност? зображення. Проте в багатьох наукових роботах в?дзначено, що саме фазовий спектр, а не ампл?тудний спектр перетворення Фур'? зображення, ? ключовим для розрахунку розташування основних областей. Саме тому даний п?дх?д не можна вважати оптимальним, хоча в?н ? здатен швидко працювати у реальному час?.У стат? “Flexible, Mobile Video Camera System and Open Source Video Analysis Software for Road Safety and Behavioral Analysis” [72] досл?дники описали принцип створено? масштабовано? моб?льно? системи в?деокамер, яка обробля? в?деодан? з дор?г м?ста для анал?зу безпеки руху. Для цього збираються дан? з камер дорожнього руху, розрахову?ться швидк?сть транспортних засоб?в, рух п?шоход?в та св?тло з св?тлофор?в. Отриман? в?деодан? обробляються за допомогою ?нструмента автоматичного в?дстеження з в?дкритим вих?дним кодом на основ? комп'ютерного зору. Ц? досл?дження включають в себе в?део-анал?з конфл?кт?в на трасах ? повед?нки п?шоход?в ? велосипедист?в на перехрестях, що включа? порушення червоного св?тла. Щоб про?люструвати ун?версальн?сть розроблено? системи досл?дники показали ?? доц?льн?сть використання для систем автоп?лоту та анал?зу дорожнього руху п?д час досл?джень, а також надали в?дкритий програмний код розробки.У робот? “A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression” [35] представлено кватерн?онне зображення, яке склада?ться з ?нтенсивност?, кольору ? рухових властивостей. На основ? принципу PFT в дан?й робот? запропоновано нову багатор?вневу модель просторово-часового розп?знавання, що назива?ться фазовим спектром кватернионного перетворення Фур'? (PQFT), для обчислення просторово-часово? карти в?дм?нност? ?? кватерн?онним зображенням. В?дм?нн?сть в?д ?нших моделей, додана розм?рн?сть руху дозволя? фазовому спектру представляти просторово-часовий характер, щоб виконувати виб?р не т?льки для зображень, але ? для в?део. Широк? випробування в?део та зображень показують, що запропонована модель PQFT ? б?льш ефективною у виявленн? в?дм?нностей ? може передбачити кращ? ф?ксац?? очей, н?ж ?нш? сучасн? модел? попередньо? л?тератури. Б?льш того, розроблена модель вимага? низьких обчислювальних витрат, а отже може працювати в режим? реального часу.Висновки та недол?ки. Методи комп’ютерного зору широко використовуються у задач? анал?зу в?део потоку, проте через свою складн?сть розрахунк?в найчаст?ше ?х проблематично використовувати у реальному час?. Тому б?льш?сть досл?джень у дан?й сфер?, як раз ? спрямован? на вир?шення дано? проблеми. З ?ншого боку досл?дження, як? використовують потужний апарат комп’ютерного зору, дуже часто спрямован? на вир?шення дуже специф?чних та ун?кальних проблем. Через це б?льш?сть з розглянутих п?дход?в неможливо застосувати до розв’язання ?нших проблем, а отже дан? методи не ? масштабованими.Досл?дження анал?зу ауд?о дор?жки та мовлення у в?део потоц?Досл?дження ауд?о дор?жки та мовлення у в?део потоц? виводить в?део анал?з на новий р?вень, оск?льки дозволя? анал?зувати в?део ряд з кардинально нового боку.Так досл?дники Пристанського ун?верситету у сво?му досл?джен? [6] вивчають проблему автоматичного вилучення ?ндексуючо? ?нформац?? з необроблених даних на основ? в?део вм?сту в дуже велик?й мультимед?йн?й баз? даних. Метою досл?дницького проекту була розробка прототипу системи автоматично? ?ндексац?? спортивних в?део. Новизна роботи поляга? в тому, що пропонований п?дх?д ?нтегру? розум?ння мовлення та алгоритм?в анал?зу зображень для вилучення ?нформац??. Основна мета ц??? роботи поляга? в ?ндексац?? новин або спортивних в?део. Зазвичай, анал?з мовлення б?льш ефективних у виявленн? под?й, н?ж анал?з зображень. Тому в розроблен?й систем? модул? обробки звуку в основному застосовуються для пошуку кандидат?в у ц?льов? дан?. Ця ?нформац?я переда?ться в модул? обробки в?део, як? додатково анал?зують в?део. В к?нц? продукти в?део анал?зу знаходяться у вигляд? покажчик?в на розташування ц?кавих под?й у в?део. Алгоритми був широко перев?рений на спортивних шоу. Серед недол?к?в даного п?дходу можна виявити погану роботу при обробц? в?део потоку у реальному час?, а також той факт, що анал?з ауд?о саме у спортивних под?ях ? досить ефективним, оск?льки вони дуже добре коментуються. В середньостатистичних в?део, де коментар? та мовлення може ц?лком не сп?впадати з контекстом кадр?в у в?део, даний п?дх?д не зможе розв’язати поставлену задачу, а отже ? не ефективним.В той же час досл?дники ун?верситету п?вденно? Кал?форн?? у сво?й прац? [7] вивчають схожу проблему. Метою ?х досл?дницького проекту ? розробка прототипу системи автоматичного ?ндексац?? сер?ал?в та передач на телебачен?. Як ? в минул?й публ?кац?? дана робота анал?зу? звукову дор?жку та мовлення у в?део. В результат? висуваючи власний алгоритм, який здатний анал?зувати телев?з?йними програмами у реальному час?. Основним недол?ком даного досл?дження можна вважати той факт, що зазвичай звуковий ряд ма? набагато менший р?вень впливу на контент н?ж картинка на екран?. Тому, сл?д зробити певн? ваги п?д час злиття результат?в анал?зу мовлення та зображення з в?део.У робот? досл?дник?в ун?верситету Нью-Йорку “Multimedia content analysis-using both audio and visual clues” [12] досл?джу?ться мультимед?йний анал?з вм?сту комп'ютеризованого розум?ння семантичних значень мультимед??. У статт? розгляда?ться останн? досягнення у сфер? використання ауд?о та в?зуально? ?нформац?? сп?льно для виконання завдань анал?зу в?део контенту. Було досл?джено ауд?о та в?зуальн? можливост?, як? можуть ефективно охарактеризувати зм?ст сцени ? було обрано алгоритми сегментац?? та класиф?кац?? семантики ауд?о дор?жки у в?део. У робот? досл?дник?в Л? Лу, Хун-Цзян Чжан [19] представлено досл?дження анал?зу ауд?о контенту для класиф?кац?? та сегментац??, в якому ауд?о пот?к сегменту?ться в?дпов?дно до типу звуку або ?дентичност? динам?к?в. Було запропоновано над?йний п?дх?д, який може класиф?кувати та сегментувати ауд?о пот?к з в?део у мов?, музиц?, звуц? середовищ? та тиш?. Ауд?о класиф?кац?я обробля?ться в два етапи, що робить його придатним для р?зних застосувань. Першим кроком класиф?кац?? ? дискрим?нац?я мови та невизнання. На цьому етап?, розроблено новий алгоритм, заснований на K-найближчому сус?д? (KNN) ? л?н?йному спектральному пар-векторному квантуванн? (LSP-VQ). Другий крок додатково розд?ля? отриманий клас на музику, звуки середовища та мовчання за допомогою класиф?кац?йно? схеми на основ? правил. В результат? експериментальн? результати показують, що запропонований алгоритм може давати задов?льн? результати. Розроблений п?дх?д можна використовувати у рамках ?нших алгоритм?в анал?зу в?део для б?ль ширшого анал?зу.Ц?каву роботи представили досл?дники Вей Цзян та Олександр Лу? [73] у як?й намагалися вир?шити задачу п?дсумовування в?део, шляхом анал?зу в?деовм?сту. У стат? досл?дники досл?дили методи автоматичного п?дсумовування в?део, як? створюються на поган? камери в домашн?х умовах. Для б?льш?сть попередн?х метод?в анал?з даного в?део ? майже неможливим через погану картинку, неконтрольован? умовами зйомки, нер?вном?рне осв?тлення, сильну дестаб?л?зац?ю зображення та р?зк? руху камери, погану як?сть звукового супроводу, як сум?ш з дек?лькох джерел звуку п?д сильним шумом. Для досягнення поставлено? ц?л? досл?дження з реальними людьми, з якого отримують наб?р рекомендац?й, ор??нтованих на споживач?в. Отриман? в?дгуки можна представити у вигляд? кер?вництва для створення гарних в?део файл?в, на основ? в?зуальних та ауд?о складових. Дотримуючись цих вказ?вок, розробля?ться автоматичний алгоритм, де використовуються як в?зуальна, так ? ауд?о ?нформац?я, для автоматичного узагальнення зм?сту в?деоролик?в.Переваги. Досл?дження ауд?о дор?жки та мовлення у в?део потоц? може покращити процес анал?зу контенту в?део потоку та пошуку ключових об’?кт?в, вив?шити ?х на новий р?вень. Оск?льки дода? до вже звичних метод?в анал?зу нову складову.Недол?ки та покращення. Проте не сл?д використовувати цей метод як основний важ?ль для анал?зу в?део ряду, оск?льки не завжди звукова ?нформац?я ц?лком зб?га?ться з зображенням на екран?. Натом?сть сл?д використовувати певн? ваги ? оперувати ауд?о дор?жкою, у рол? ще одного фактору анал?зу в?део ряду, на р?вн? з анал?зом в?деокадр?в.1.10 Постановка задач?Проблема анал?зу в?део даних ? дуже актуальним у наш час. ?сну? безл?ч р?зноман?тних задач як? вир?шуються шляхом обробки та анал?зу в?део даних, про що св?дчать багато опрацьованих досл?джень у ц?й сфер?. У рамках дано? науково? дисертац??, було обрано задачу анал?зу контенту потокового в?део для визначення контекстно? реклами. В?део ? одним з найпопулярн?ших р?зновид?в ?нформац?? у глобальн?й мереж? ? кожен день перегляда?ться м?льярдами глядач?в по всьому св?ту. Основним джерелом прибутку систем, як? надають доступ до в?део, та автор?в даного контенту ? саме реклама. Тому й не дивно, що проблема дана проблема э дуже актуальною у наш час.Отож, необх?дно створити алгоритм?чне забезпечення, яке буде приймати на вих?д потокове в?део та знаходити рекламн? оголошення, як? будуть в?дпов?дати зм?сту даного в?део. Для цього сл?д вир?шити задачу пошуку ключових об’?кт?в у в?део потоц?, для визначення його контенту.Результатом даного досл?дження буде ?нформац?йна система, в основ? яко? лежить розгромлений алгоритм. Дана система здатна програвати в?део пот?к та у реальному час? показувати контекстну рекламну, яка буде максимально наближена до контенту в?део.Метою ж дано? роботи ? п?двищення ефективност? та зручност? використання алгоритм?в для анал?зу в?део потоку в реальному час? ? знаходження рекламних оголошень в?дпов?дно до контенту в?део потоку.Основн? завдання, як? мають бути виконан? для досягнення ц??? мети:а) розглянути теоретичн? аспекти задач? анал?зу в?део:1) проанал?зувати сучасний стан та особливост? розвитку концепц?? анал?зу потокового в?део;оц?нити доц?льн?сть використання даних п?дход?в.б) розв’язати задачу анал?зу в?део потоку в реальному час? ? знаходження рекламних оголошень в?дпов?дно до в?део контенту:1) розробити формальну постановку задач?;2) ознайомитися з сучасними п?дходами до розв’язку дано? задач?;3) оц?нити можлив? переваги та недол?ки запропонованих метод?в розв’язку дано? задач?;4) на основ? детального анал?зу основних алгоритм?в створити власний алгоритм, що врахову? особливост? та обмеження задач? анал?зу в?део потоку в реальному час? ? знаходження рекламних оголошень в?дпов?дно до в?део контенту;в) програмно реал?зувати розроблений алгоритм у вигляд? ?нформац?йно? системи.Висновки до розд?луОдн??ю з задача ?нформац?йного обробки даних ? анал?з в?део потоку. ?сну? багато п?дход?в, як? дозволяють вир?шити дану задачу. А саме методи як? анал?зують мета дан?, систему кодування в?деопотоку чи застосування на, яке ведеться зйомка, семантично анал?зують його зм?ст, шукають ключов? сцени та фрагменти, в?дсл?дковують об’?кти та ?н. Так розглянут? методи досл?дження кодування в?део потоку змоз? вивести анал?з в?део на новий р?вень, про те вони мають ряд недол?к?в, оск?льки не можуть бути застосован? для вс?х в?део файл?в, що робить ?х не пристосованими до вир?шення поставлено? задач?. Досл?дження л?тератури, яка в?дпов?да? семантичному анал?з? в?део потоку, знаходження контенту та пошуку у в?део ряд?, а також пошук ключових фрагмент?в та кадр?в у в?део потоц? та в?део б?бл?отеках, хоч ? здатне оптим?зувати процес анал?зу в?деоряду, проте ма? ряд недол?к?в, оск?льки б?льш?сть алгоритм?в погано працюють у реальному часу, чи взагал? не здатне на це. Також можна вид?лити неможлив?сть масштабувати запропонован? алгоритми на задачах б?льш широкого масштабу чи на реальн?й практиц?.П?дчас досл?дження л?тератури, яка в?дпов?да? знаходженню, класиф?кац?? та розп?знавання р?зноман?тних об’?кт?в у в?део потоц? було знайдено багато д?йсно масштабованих п?дход?в для вир?шення поставлених задач. Але дан? п?дходи не завжди рац?онально та оптимально вир?шують поставлену задачу пошуку ключового об’?кт?в у в?део потоц?. Натом?сть запропонован? методи як? досл?джують пошуку ключового об’?кт?в у в?део погано працюють у реальному час?. А запропонован? методи як? базуються на комп’ютерному зор?, хоч ? волод?ють потужним апаратом нейронних мереж, все ж не ? ун?версальними, оск?льки потребують великих дата сет?в, ? дуже часто програють у швидкост? статистичним алгоритмам на великих зображеннях у реальному час?.Також сл?д вид?лити той факт, що б?льш?сть п?дход?в у л?тератур? нехту? анал?зом ауд?о дор?жки та мовлення у в?део потоц?, що можна також в?днести до недол?к?в б?льшост? п?дход?в вище. Натом?сть т? п?дходи, як? використовують ауд?о ?нформац?ю та мовлення з в?део, надають даному фактору б?льший пр?оритет, ан?ж кадрам з в?деоряду. А оск?льки звукова ?нформац?я не завжди ц?лком зб?га?ться з зображенням на екран?, ?сну? в?рог?дн?сть того, що даний п?дх?д не дасть оптимальн? р?шення. Проте сл?д використовувати певн? ваги ? оперувати ауд?о дор?жкою, у рол? ще одного фактору анал?зу в?део ряду, на р?вн? з анал?зом в?деокадр?в.Отже, зазначен? недол?ки ? досить вагомими ? роблять практично неможливим ефективне застосування даних метод?в для вир?шення дано? задач?. Проте ?де? закладен? в п?дходах в?дсл?дковування об’?кт?в, анал?зу мета даних, ауд?о та в?део контенту ? дуже ц?кавими ? потребують доопрацювання для вир?шення поставлено? проблеми. РОЗРОБКА АЛГОРИТМУ АНАЛ?ЗУ ПОТОКОВОГО В?ДЕООпис метод?в розв’язання задач?На основ? досл?джених п?дход?в був запропонований власний алгоритм, який вир?шу? задачу анал?зу контенту в?деопотоку у реальному час? ? анал?зу? контент в?део, ор??нтуючись на три фактори: метадан?, кадри з в?део та його ауд?о дор?жку.Розроблений алгоритм розбива? в?деопот?к на частини, п?сля яких буде показана реклама, ? паралельно анал?зу? контент для кожно? з них у чотири етапи.На першому етап?, в?дбува?ться розкадровка в?део та викону?ться анал?з отриманих кадр?в, шляхом пошуку головних об’?кт?в з використанням алгоритм?в анал?зу зображень та комп’ютерного зору.Другий етап, склада?ться з анал?зу ? розп?знавання мови з ауд?о дор?жки в?део ? пошуку ключових сл?в в отриманому текст?.На третьому етап?, алгоритм анал?зу? метадан? в?део ? знаходить ключов? слова у них.На останньому етап? в?дбува?ться пошук максимально наближено? реклами до контенту в?деопотоку на основ? ц?льов?й функц??, яка базу?ться на даних про об’?кти отриман? п?дчас попередн?х розрахунк?в.Тепер розглянемо запропонован? методи розв’язання задач? б?льш детально.Опис метод?в пошуку та розп?знавання головних об’?кт?в у кадрах з в?деоП?дходи пошуку та розп?знавання головних об’?кт?в у кадрах з в?део найчаст?ше складаються з двох етап?в. На першому етап? викону?ться ф?льтрац?я зображення, а на другому його безпосередн?й анал?з.Проте ?снують методи комп’ютерного зору як? значно полегшують виконання обох функц??. Але найчаст?ше дан? операц?? можуть виконуватись дуже пов?льно.Саме тому ключова ?дея розробленого алгоритму поляга? в оптим?зац?? процесу анал?зу методами комп’ютерного зору, шляхом знаходження сп?льних предмет?в ? анал?зу т?льки знайдених фрагмент?в з кадр?в. Дана оптим?зац?я, в?дбува?ться за рахунок операц?? пошуку контур?в об’?кт?в у кадрах за допомогою ф?льтрац?? та оператора Прев?тта. Пот?м, на основ? знайдених контур?в об’?кт?в, викону?ться операц?я пошуку сп?льних предмет?в у кадрах за допомогою перцептивних хеш?в та дискретного косинусо?дального перетворення (ДКП) – методу pHash. В результат?, якого отриман? хеш? пор?внюються за допомогою в?дстан? Хемм?нга. Врешт? решт на т?льки викону?ться безпосередн? розп?знавання схожих об’?кт?в за допомогою комп'ютерного зору. Оск?льки тепер ми викону?мо дану операц?ю не до вс?х кадр?в, а т?льки до ряду знайдених об’?кт?в, як? повторюються у кадрах. Розглянемо б?льш детально даний алгоритм.Метод розп?знавання контур?в об’?кт?в за допомогою оператора Прев?ттаДля оптим?зац?? розп?знавання об’?кт?в у кадрах з в?део сл?д знайти фрагменти об’?кт?в у зображеннях, за допомогою знаходження ?х контур?в. Зазвичай, задача пошуку кордон?в зводиться до задач? перепад?в у зображеннях – множини п?ксел?в, яка лежить м?ж двох областей. Пошук перепад?в визнача?ться на основ? в становлення порогу для певно? точки зображення. Дана точка визнача?ться, як певна точка перепаду за умови, якщо ?? двовим?рна пох?дна першого порядку перевищу? певний пор?г. В результат? множина таких точок перепаду яскравост? ? назива?ться контуром.Отож, для вир?шення поставлено? задач?, знайдемо першу пох?дна функц?? f(x), як р?зницю значень сус?дн?х елемент?в:?y?x=fx+1-fx(2.1)Аналог?чно, друга пох?дна визнача?ться як р?зниця сус?дн?х значень першо? пох?дно?:?2f?x2=fx+1+fx-1-2fx(2.2)Обчислення першо? пох?дно? цифрового зображення засноване на р?зних дискретних наближень двовим?рного град??нта. За визначенням, град??нт зображення fx,y в точц? x,y - це вектор:?f=GxGy=?f?x?f?y(2.3)Важливу роль при виявленн? контур?в гра? величина модуля вектору, яка визнача?ться за формулою:?f=?f=2Gx2+Gy2 (2.4)А також напрямок цього вектору. В?н познача?ться α(x,y) ? ? кутом м?ж напрямком вектора ?f в точц? (x,y) ? в?ссю x ? дор?вню?:αx,y=arctg GyGx (2.5)Зв?дси можна знайти напрям контуру в точц? (x,y), яке перпендикулярно напрямку вектора град??нта в ц?й точц?.Обчислення град??нта зображення поляга? в отриманн? величин приватних пох?дних для кожно? точки. Одним з способ?в знаходження перших пох?дних в точц? ? метод використання масок або процес просторовою ф?льтрац??. Дан? маски представляються у вигляд? квадратний матриць дов?льно? довжини. Елементами яких э наб?р коеф?ц??нт?в.Процес просторово? ф?льтрац??, у зображеннях, зд?йсню?ться шляхом перем?щення маски ф?льтра в?д точки до точки. Причому у кожн?й точц? (x,y) операц?я використання ф?льтра обчислю?ться з використанням попередньо заданих зав’язк?в.Тепер безпосередньо розрахуймо контури для нашого зображення з використанням так звано? маски. Нехай ма?мо матрицю 3 на 3, яка склада?ться з значень яскравост? в област? деякого елемента зображення:z1z2z3z4z5z6z7z8z9Один з способ?в знаходження перших приватних пох?дних в точц? z5 поляга? в застосуванн? наступного перехресного град??нтного оператора Перев?та:Gx=z7+z8+z9-(z1+z2+z3)(2.6)таGy=z3+z6+z9-(z1+z4+z7)(2.6)У цих формулах р?зниця м?ж сумами по верхньому ? нижньому рядках в задан?й област? ? наближеним значенням пох?дно? по ос? x, а р?зниця м?ж сумами по першому ? останньому стовпцях ц??? област? – пох?дною по ос? y. Для реал?зац?? цих формул використову?ться оператор, описуваний оператором Прев?тта:Gx=-101-101-101(2.7)таGy=-1-1-1000111(2.8)Використавши оператор Прев?тта у формул? град??нту ми отрима?мо зображення з кадр?в в яких вид?лен? т?льки контури об'?кт?в. За допомогою яких можна вид?лити област? у кадрах в яких знаходяться шукан? об’?кти.Алгоритм пошуку схожих предмет?в на основ? перцептивних хеш?в та ДКПЩоб знайти схож? об’?кти по знайденим контуром можна використати частотний анал?з зображень, а саме використати перцептивн? хеш-алгоритми для знаходження схожих об’?кт?в. Для ?х знаходження у зображен? ?сну? ряд поширених алгоритм?в.Перцептивн? хеш-алгоритми описують клас функц?й для генерац?? пор?внянних хеш?в, як? можна отримати з фрагмент?в зображень, як? в результат? можна пор?внювати один з одним. На в?дм?ну в?д криптограф?чних хеш?в, перцептивн? хеш?в не обов’язково повинн? бути однаковими, щоб сказати що данн? зб?гаються. Тому ?х пор?внюють м?ж собою за ступенем в?дм?нностей набор?в даних.Оск?льки у зображеннях висок? частоти забезпечують детал?зац?ю, а низьк? частоти показують структуру. У велик?й детал?зован?й фотограф?я м?ститься багато високих частот, натом?сть у дуже маленьк?й нема? деталей, а отже вона ц?лком склада?ться з низьких частот, як? дуже просто в?дтворити у вигляд? хеш-функц??.Одним з найкращих методом хешування можна вважати pHash, який виявля? ст?йк?сть до малих поворот?в, розмиття ? сходження зображення, а також ? досить швидким. В основ? даного методу використову?ться дискретне косинусо?дальне перетворення (ДКП) – одне з ортогональних перетворень, т?сно пов'язане з дискретним перетворенням Фур'? (ДПФ). ДКП, як ? будь-яке перетворення Фур'?, представля? функц?ю у вигляд? суми синусо?д з р?зними частотами ? ампл?тудами. ДКП використову? т?льки косинусн? функц??, на в?дм?ну в?д ДПФ, яке використову? ? косинусн?, ? синусн? функц??.Для вир?шення поставлено? задач? використа?мо другий тип ДКП. Нехай xm, де m=0, …, N-1 – посл?довн?сть сигналу довжин N. Визначимо другий тип ДКП, як:Xn= 22Nm=0N-1xmcos 2m+1 n π2N, (2.9)де n=0, …, N-1. Цей висл?в можна переписати як:Xn= m=0N-1cn, m xm,(2.10)де cn,m - елемент матриц? ДКП на перетин? рядка з номером n ? стовпц? з номером m. ДКП матриця визнача?ться як:Xn= 22Nm=0N-1cos 2m+1 n π2N (2.11)Дана матриця дуже зручна, для обчислення ДКП. ДКП може бути обчислена заздалег?дь, для будь-яко? необх?дно? довжини. Таким чином ДКП може бути представлена у вигляд? ДКП = M × I × M', де M – ДКП матриця, I - зображення квадратного розм?ру, M'- зворотна матриця.Тепер побуду?мо хеш з зображення за допомогою ДКП, методу pHash:КРОК 1. Зменшити розм?р зображення до розм?ру в д?апазон? 32х32.КРОК 2. Викона?мо операц?ю знебарвлення зображення.КРОК 3. Визначити середн? значення кольору матриц?.КРОК 4. Запустити ДКП для отримано? матриц?. КРОК 5. Буду?мо хеш для отримано? матриц?.Дал? для пор?вняння отриманих хеш?в використа?мо функц?ю в?дстан? Хемм?нга. Алгоритм пор?вняння хеш?в на основ? функц?? в?дстан? Хемм?нгаПошуку хеш?в сп?льних об’?кт?в шука?ться шляхом пор?вня?мо отриманих хеш? знайдених на минулому кроц? за допомогою алгоритму pHash. Для цього використа?мо функц?ю в?дстан? Хемм?нга. У даному випадку в?дстанню Хемм?нга – це dHXi,Xj для двох хеш?в фрагмент?в зображень Xi та Xj довжини p, яку можна вважати число позиц?й, в яких вони в?дм?нн?: dHXi,Xj= s=1psign xis-xjs(2.12)П?сля знаходження сп?льн? об’?кт?в у кадрах, сл?д використати методи комп’ютерного зору для ?х безпосереднього розп?знавання.Методи машинного навчання та комп’ютерного зоруНа останньому етап?, пошуку предмет?в для визначення рекламного пов?домлення в?дпов?дного до в?део потоку, викону?ться операц?я класиф?кац?? знайдених сп?льних об’?кт?в у кадрах. Для вир?шення дано? задач? використа?мо методи комп’ютерного зору для розп?знавання отриманих предмет?в.Взагал?, комп’ютерний чи машинне з?р – це науковий напрямок, мета якого поляга? у створенн? штучного ?нтелекту, який здатний знаходити, в?дсл?дковувати та розп?знавати предмети у реальному час?, без допомоги людини.?сну? багато метод?в та алгоритм?в на основ? який працю? комп’ютерний з?р. Один з таких метод?в ? метод опорних вектор?в. Як ? б?льш?сть з метод?в машинного ?нтелекту, в?н оснований на навчанн? на тестових виб?рках. Основна ?дея даного методу основана на розд?лен? даних з виб?рки у г?перплощин?, для вир?шення задач? пошуку новизни у тренувальних виб?рках даних. У пор?внянн? з ?ншими моделям, метод опорних вектор?в ма? не багато параметр?в, основним з, яких гама. Вона в?дпов?да? за м?ру впливу в?ддалених точок на результуючу розд?льну г?перплощину. Також, даний метод да? найкращ? результати при використанн?, в якост? ядра, рад?альних базисних функц?й. Розглянемо приклад, ? тестова виб?рка к?лькох клас?в об'?кт?в. Нехай це буде присутн?сть людини на фотограф??. Для кожного зображення ? наб?р ознак, як? вид?ляють ту чи ?ншу характеристику зображення. Основна задача алгоритму навчання поляга? в побудов? модел?, яка буде здатна проанал?зувати нове зображення ? прийняти в?дпов?дне р?шення. А саме класиф?кувати, який з об'?кт?в ? на зображенн?.Кожне з тестових зображень, можна вважати точкою у простор? ознак. ?? координати – це вага кожно? з ознак даного зображення. Нехай нашими ознаками будуть наявн?сть очей, носа, вух, рук, тощо. Вс? ц? ознаки можна вид?лити за допомогою детектор?в, навчених на частинах т?ла, схожих на людськ?. Зв?дси, для кожного об’?кту можна знайти в?дпов?дн? йому точки у простор?. Так для людини буде коректною точка [1; 1; 1; 1; ..], для мавпи [1; 0; 1; 0 ...], а для собаки [1; 0; 0; 0 ...]. . Для цього використову?ться, так званий класиф?катор, який навча?ться за виб?ркою приклад?в.Але не на вс?х фотограф?ях ми здатн? вид?лити руки чи ноги, а на ?нших нема? очей, а зам?сть них на голов? окуляри. Також час в?д часу трапляються помилки у класиф?катор?. Наприклад, у мавпи випадково може з'явився людський н?с чи вуха. Через дану похибку, у класиф?катор? ?сну? ряду умов, як? автоматично розбивають прост?р ознак. Так у класиф?катор може сказати, що це людина, якщо перша ознака лежить в д?апазон? 0.5 <x <1, друга 0.7 <y <1, ? так дал?. Т?льки за умовою в?рност? ус?х ознак класиф?катор стверджувати дане судження.Отже, основною метою класиф?катора ? в?дтворення у простор? ознак областей, як? будуть характерними для об'?кт?в класиф?кац??. Через похибку у розрахунках, ?сну? безл?ч класиф?катор?в, кожен з яких краще працю? в як?йсь сво?й сфер?. Саме метод опорних вектор?в закладений в основ? б?бл?отеки OpenCV[63], яка нада? можлив?сть користувачу, використовувати наб?р алгоритм?в для в?дстеження ? класиф?кац?? предмет?в. А отже вона допоможе у розп?знавання схожих об’?кт?в у кадрах з в?део потоку, обрахованих на попередньому кроц?.Алгоритм анал?зу ауд?о дор?жки в?деоЕтап анал?зу ауд?о дор?жки в?део склада?ться з двох частин. На першому кроц? в?дбува?ться розп?знавання мови з ауд?о дор?жки в?део за допомогою алгоритму який використову? словник на основ? MFCC. А на другому кроц?, викону?ться пошуку ключових сл?в в отриманому текст? на основ? алгоритму TF-IDF. Розглянемо б?льш детально дан? кроки.Алгоритм розп?знавання мови з ауд?о дор?жки на основ? MFCCПри розп?знаванн? мови в першу чергу необх?дно розбити ?? на слова. ?сну? багато способ?в ?? розп?знавання. У дан?й робот? використа?мо алгоритм, який використову? словник на основ? MFCC (мел кепстральних коеф?ц??нт?в). MFCC – вектор з тринадцяти д?йсних чисел. В?н ? енерг??ю спектру сигналу. Даний метод врахову? хвильову природу сигналу, мел-шкала вид?ля? найб?льш сутт?в? частоти, як? сприймаються людиною, а к?льк?сть MFCC коеф?ц??нт?в можна задати будь-яким числом, що дозволя? стиснути фрейм ? зменшити к?льк?сть оброблювано? ?нформац??.За базу навчання будемо використовувати безл?ч файл?в, кожен з яких представля? собою наб?р MFCC-вектор?в, отриманих з фонограми ?з записом того чи ?ншого слова. При цьому файли ?з записом одного ? того ж слова повинн? бути об'?днан? в одну групу. Алгоритм склада?ться з наступний етап?в:КРОК 1. Знаходимо супер вектор середн?х для вс??? бази навчання за допомогою алгоритму K-середн?х.КРОК 2. Для кожного файлу бази знаходимо власн? середн? значення за формулою:Mk=a*Mk0+1-a*Mk', k=1…K,(2.13)де Mk0 – середн? значення, знайдене п?дчас першого кроку, а Mk' – середн? значення, отримане в результат? застосування одн??? ?терац?? алгоритму K-середн?х для MFCC-вектор?в файлу з використанням в якост? початкового значення Mk0' ,a=R (R+ Nk),(2.14)де R - коеф?ц??нт ?чутливост??, Nk - число MFCC-вектор?в, що в?дпов?дають середн?м значенням Mk'. Знайден? таким чином середн? значення будемо називати адапр?тованими середн?ми значеннями.КРОК 3. Маючи тепер зам?сть вих?дних фонограм адаптован? супервектора середн?х, проводимо LDA для N клас?в (кожен клас в?дпов?да? одному слову).В результат? ми повинн? отримати матрицю, що склада?ться з вектор?в нового базису, при проекц?? на який вих?дн? адаптован? супер вектора середн?х повинн? достатньо добре розд?лятися.КРОК 4. Проекту?мо вс? адаптован? супер вектора середн?х на новий базис ? знаходимо середн? значення ? СКО проекц?й для кожного класу.КРОК 5. Для визначення приналежност? тестово? фонограми того чи ?ншого класу (тобто розп?знавання), викону?мо для не? кроки 2 ? 4, дал? знаходимо в?дстан? отримано? проекц?? до середн?х значень вс?х клас?в (можна додатково унормувати ?х на в?дпов?дне СКО). М?н?мальна в?дстань ? буде в?дпов?дати класу, до якого належить тестова фонограма.Алгоритм пошуку ключових сл?в у текст? з звуково? дор?жки на основ? TF-IDFДля знаходження ключових сл?в у розп?знаному текст? з звуково? дор?жки використа?мо алгоритм на основ? TF-IDF, який використову?ться для отримання ключових сл?в (терм?в). Взагал? TF-IDF – статистичний показник, який використову?ться для оц?нки значимост? сл?в у текст?, який ? частиною колекц?? текст?в. Значим?сть слова прямо-пропорц?йна к?лькост? вживань цього слова в текст?, та обернено-пропорц?йна к?лькост? вживань цього слова в ?нших текстах колекц??. Таким чином:TF(d, t)=nd, tnd(2.14)таIDFt=Ndj?t, (2.15)де nd,t – к?льк?сть появ слова t в текст? d, nd – к?льк?сть сл?в в текст? d, dj?t – к?льк?сть текст?в в яких зустр?ча?ться слово t. Для отримання значимост? – оц?нки цього слова будемо використовувати модиф?кац?ю функц?? ранжирування Okapi BM25[70], яка використову?ться пошуковими системами, щоб оц?нювати документи на в?дпов?дн?сть пошуковому запиту:S=IDFtTFd,t k1+1TFd,t+k1 1-b+b davgl,(2.16)де avgl – середня довжина текст?в у колекц??, а k1 та b – в?льн? коеф?ц??нти.Перед застосуванням TF-IDF алгоритму, текст попередньо обробля?ться: видаляються ?стоп-слова?, а також слова що залишилися приводяться до сп?льно? основи(шляхом в?дкидання суф?кса та(чи) основи) за допомогою стем?нга. К?льк?сть ключових сл?в, як? в?дбираються в результат? – це 1/10 в?д загально? к?лькост? сл?в, тому що щ?льн?сть сл?в у отриманому текс? з звуково? дор?жки в?део дуже висока.Алгоритм TF-IDF склада?ться з наступних крок?в:КРОК 1. Розбити текст на слова, видалити ?стоп-слова?, привести слова до сп?льно? основи за допомогою стем?нга. Додати текст до колекц?? текст?в, та перерахувати для кожного слова t в текст? dj?t – к?льк?сть текст?в в яких зустр?ча?ться слово t. Тексти з колекц?? вважаються вже розбитими та ?застем?нгованими?.КРОК 2. Для кожного слова в текст? порахувати частоту появи цього слова.КРОК 3. Для кожного слова визначити його значим?сть(оц?нку) на основ? функц?? Okapi BM25 (формула 2.16).КРОК 4. Упорядкувати слова за спаданням ?х значимост?(оц?нки).КРОК 5. Повернути 1/10 третину фраз з упорядкованого списку.Математична постановка задач?. Ц?льова функц?я розв’язання задач?На останньому етап? викону?ться пошук в?дпов?дного рекламного оголошення з множини контекстних рекламних оголошень, для кожного з яких ?сну? множина предмет?в, як? рекламу? дане оголошення. На вх?д системи пода?ться в?део пот?к, а також предмети як? були знайден? у кадрах з в?део, ключов? слова з ауд?о дор?жки в?део та його мета теги. В результат? анал?зу ми проверста?мо наб?р контекстних оголошень, як? будуть пропонуватися глядачу кожн? t одиниць часу.Тепер, сформулю?мо ц?льову функц?ю до поставлено? задач? для дов?льного пром?жку часу t, за який глядачу сл?д показати контекстну рекламу.Дано:Mi – множина предмет?в, яка в?дпов?да? певн?й контекстн?й реклам?, де ? – ?ндекс контекстного рекламного оголошення, а Mi = mi1,mi2,...;mij – назва j-ий предмета у множин? предмет?в рекламного оголошення Mi, де j – ?ндекс предмета у множин? предмет?в в контекстному рекламному оголошенн? Mi;{S} – множина сп?льних предмет?в у кадрах за пром?жок часу t у в?део потоц? (де S = s1,s2,…);sk – назва k-ий предмет з множин? сп?льних предмет?в у кадрах S, де k – ?ндекс предмета у множин? сп?льних предмет?в у кадрах S;nk – к?льк?сть k-тих предмет?в у множин? сп?льних предмет?в у кадрах S;{L} – множина предмет?в у звуковому контент? за пром?жок часу t у в?део потоц?, де L = l1,l2,…;lf – назва f-того предмету у множин? предмет?в у звуковому контент? L, де f – ?ндекс предмета у множин? звукового контенту за пром?жок часу L;bf – к?льк?сть f-тих предмет?в у множин? предмет?в у звуковому контент? L;{R} – множина предмет?в з мета даних у в?део, де R = r1,r2,…;re – назва e-того предмету у множин? мета даних у в?део R, де e – ?ндекс предмета у множин? множин? мета тег?в в?део R;Зм?нн?: xij – в?дпов?дн?сть j-того предмета з множини предмет?в i-того рекламного оголошення Mi, до множини сп?льних предмет?в у кадрах за пром?жок часу t у в?део потоц? S:xij=0 – якщо предмет не показал? у кадрах ( mij ? S) ak – якщо предмет показли у кадр? (? k, що sk= mij, sk ∈ S, mij ∈ S) ;yij – в?дпов?дн?сть j-того предмета з множини предмет?в i-того рекламного оголошення Mi, до множини предмет?в у звуковому контент? за пром?жок часу t у в?део потоц? L:yij=0 – якщо про предмет не йшла мова ( mij ?L) bf – якщо про предмет йшла мова (? f, що lf= mij, lf ∈ L, mij ∈ L) ;zij – в?дпов?дн?сть j-того предмета з множини предмет?в i-того рекламного оголошення Mi, з мета даних у в?део R:zij=0 – якщо предмет не ? у мета даних в?део ( mij ?R) 1 – якщо про предмет ? у мета даних в?део (? e, що re= mij, re ∈ R, mij ∈ R) ;Ц?льова функц?я:Максим?зувати м?ру (в?дсоток) попадання предмет?в множина предмет?в, яка в?дпов?да? певн?й контекстн?й реклам? до множини предмет?в з в?део кадр?в, звукового потоку та мета даних в?део:j=1∞ xij+ yij+zij→max(2.17)Обмеження:0 <i,j,k,f,e,t< ∞;1 <ak,bf< ∞;i,j,k,f,e,t,ak,bf∈N;i,j,k,f,e,ak,bf ∈Z;Загальна схема алгоритму розв’язання задач?Отже, заберемо до купи ус? оглянут? алгоритми та методи розв’язання дано? задач? ? покажемо загальну схему алгоритму пошуку релевантного контекстного рекламного оголошення для дов?льного ?нтервалу в?део довжиною t.КРОК 1. Знайти наб?р предмет?в з кадр?в в?део потоку.КРОК 1.1. Д?стати кадри з в?део потоку.КРОК 1.2. Знайти контури об’?кт?в у зображенн? за допомогою оператору Прев?тта.КРОК 1.3. Розрахувати зони об'?кт?в у зображенн?.КРОК 1.4. Розрахувати перцептивн? хеш? об’?кт?в зображення за допомогою методу pHash.КРОК 1.4.1. Зменшити розм?р зображення до розм?ру в д?апазон? 32х32.КРОК 1.4.2. Виконати операц?ю знебарвлення зображення.КРОК 1.4.3. Визначити середн? значення кольору матриц?.КРОК 1.4.4. Виконати ДКП для отримано? матриц?. КРОК 1.4.5. Побудувати хеш для отримано? матриц?.КРОК 1.5. Знайти сп?льн? об’?кти за допомогою функц?? Хемм?нга.КРОК 1.6. В?дтворити зображення сп?льних об’?кт?в.КРОК 1.7. Класиф?кувати множину сп?льних предмет?в за допомогою комп'ютерного зору.КРОК 2. Знайти наб?р предмет?в з звукового контенту за пром?жок часу за який треба показати рекламу.КРОК 2.1. Отримати текст з звукового потоку за допомогою MFCC.КРОК 2.1.2 Знайти супер вектор середн?х для вс??? бази навчання за допомогою алгоритму K-середн?х.КРОК 2.1.2 Знайти власне середн? значення (адаптивне) для кожного файлу бази (за формулою 2.13).КРОК 2.1.3. Отримати матрицю з адаптованих супер вектор?в на за допомогою LDA для вс?х N клас?, на основ? знайдених адаптивних середн?х значень.КРОК 2.1.4. Спроектувати вс? адаптован? супер вектора середн?х на новий базис ? знайти середн? значення ? СКО проекц?й для кожного класу.КРОК 2.1.5. Визначити приналежност? тексту за допомогою отриманих адаптивних супер вектор?в.КРОК 2.2. Знайти наб?р терм?н?в про як? йдеться мова у звуковому потоц? з тексту за допомогою TF-IDF.Крок 2.2.1. Розбити текст на слова, видалити ?стоп-слова?, привести слова до сп?льно? основи за допомогою стем?нга. Крок 2.2.2. Додати текст до колекц?? текст?в, та перерахувати для кожного слова к?льк?сть текст?в в яких зустр?ча?ться дане слово.Крок 2.2.3. Для кожного слова в текст? порахувати частоту появи цього слова (формула 2.2).Крок 2.2.4. Для кожного слова визначити його значим?сть(оц?нку) на основ? функц?? Okapi BM25 (формула 2.16).Крок 2.2.5. Упорядкувати слова за спаданням ?х значимост?.Крок 2.2.6. Повернути 1/10 третину фраз з упорядкованого списку.КРОК 3. Знайти наб?р ключових сл?в з мета даних в?део потоку.КРОК 4. Розрахувати ц?льову функц?ю. Знайти рекламу яка буде максимально наближена до контенту в?део потоку враховуючи множину можливих рекламних оголошень, предмет?в з в?део кадр?в, з звукового потоку, мета даних в?део. К?НЕЦЬВисновки до розд?луВ цьому розд?л? була сформульована зм?стовна та математична постановки задач? пошуках м?сць де краще за все можна буде запропонувати рекламу, яка буде максимально наближена до контенту в?део потоку. Визначено ц?льову функц?ю задач? та ?? обмеження. Було об?рунтовано методи розв’язання задач? дано? задач?. А також був наведений детальний опис метод?в ?? розв’язання та продемонстрований розроблений алгоритм вир?шення дано? задач?.ОПИС ПРОГРАМНОГО ПРОДУКТУЗасоби розробки?нформац?йна система анал?зу в?део для визначення релевантно? контекстно? реклами створена з використанням сучасних тенденц?й та напрямк?в розробки.Програмне забезпечення, що використову?ться при розробц? дано? ?нформац?йно? системи: платформа MacOS[53];мова Node.JS[54], верс?я вище 10.15.2;мова Node.JS[54], верс?я вище 10.15.2;мова C++[55], верс?я вище 11;база даних MongoDB[56];мова написання коду кл??нтсько? частини Javascript[57];використан? б?бл?отеки: React[58], FFmpeg[59], Express[60], Socket.IO[61], PASL[62], OpenCV[63] 3 верс??;система контролю верс?й Github[64];серв?с AWS Lambda[65];середовище розробки VS Code[66].Дал? наведемо б?льш детальний опис програмних засоб?в та ?нструмент?в розробки.JavaScript — це мова програмування, яка була насамперед розроблена для роботи у браузер?. Проте з часом вона стала мовою загального призначення ? нараз? використову?ться будь де в?д простих веб-сайт?в, до обчислень корабл?в NASA. Серед недол?к?в дано? мови можна вид?лити в?дсутн?сть низькор?вневих засоб?в роботи з пам'яттю, процесором та р?зноман?тними процесами застосування, оск?льки ?сторично спочатку вона була ор??нтована на роботу т?льки у браузер?, в якому це не потр?бно.Node.JS – середовище виконання JavaScript побудоване на движку V8 [74] з Google Chrome. Node.JS використову? систему под?? без блокування модел? введення/виведення, що робить його легким та ефективним, ? дозволя? писати серверн? додатки з використанням мови JavaScript.C++ – це мовою програмування загального призначення. Вона ма? ?мперативн?, об'?ктно-ор??нтован? та ун?версальн? функц?? програмування, а також нада? можливост? для ман?пулювання пам'яттю низького р?вня. Через це програми написан? мовою C++ вид?ляються сво?ю швидкод??ю та можуть виконувати р?зноман?тн? д?? на р?вн? процесору системи. Також до мови Node.JS можна писати так зван? аддони – файли та функц?? написан? на мов? C++ для пришвидшення розрахунку р?зноман?тних операц?й, як? потребують багато розрахунк?в чи ? дуже складними. PASL – це б?бл?отека планування паралельного алгоритму для мови С++. Дана б?бл?отеки використову? передов? методики планування для ефективного запуску паралельних програм на сучасних багатоядерних системах ? нада? ряд утил?т для розум?ння повед?нки паралельних програм. PASL дозволять користувачев? писати паралельн? програми на високому р?вн?, не турбуючись про детал? нижчого р?вня, так? як оптим?зац?я для машин чи процесору, пам’ят?.OpenCV – це програмна б?бл?отека, спрямована на вир?шення р?зноман?тних задач комп'ютерного бачення в реальному час?. Б?бл?отека ? м?жплатформованою з в?дкритим вих?дним кодом.MongoDB – це NoSQL база даних, ор??нтована на багато платформ, яка використову? JSON-под?бн? документи для збер?гання ?нформац?? у так званих таблицях.Github – один з найб?льших?та найпопулярн?ших веб-серв?с?в? ? система контролю верс?й (Git) програмного забезпечення та ?нформац?йних систем.VS Code – це IDE розроблена Microsoft для Windows, Linux ? MacOS. Вона включа? в себе п?дтримку налагодження програмних засоб?в, вбудовану систему Git контроль, п?дсв?чування синтаксису та помилок, ?нтелектуальне завершення коду, функц?ю рефакторинг коду та ?н. Також дана IDE розроблена в першу чергу для роботи з мовою JavaSctipt та TypeScript[67], яка да? можлив?сть IDE автоматично тип?зувати написаний код ? ма? багато ?нструмент?в для в?дладки на написання великих ?нформац?йних систем ?нструментами мови JavaScript.React — це Javascript фреймворк побудований на концепц?? компонент?в. В?н в?др?зня?ться в?д таких фреймворк?в, як Angular[67] або Ember[68], як? використовують двосторонню прив'язку даних для поновлення HTML стор?нки. Також в?н надзвичайно швидкий, так як використову? в?ртуальний DOM для оновлення даних застосування. Розробля?ться Facebook ? сп?льнотою ?ндив?дуальних розробник?в.FFmeg – це програмний проект, який склада?ться з набору б?бл?отек ? програм для обробки в?део, ауд?о та ?нших мультимед?йних файл?в ? поток?в. Даний програмний проект дозволя? швидко виконувати р?зноман?тн? ман?пуляц?? з вх?дним в?део потоком, анал?зувати його мета ?нформац?ю та структуру в?део файлу, декодувати його та зм?нювати формат. Даний програмний продукт, а саме його основна б?бл?отека ядра, дозволя? систем? робити скр?ншоти кадр?в з в?део та оптим?зувати ?х розм?р для подальшого анал?зу, а також д?ставати ауд?о дор?жку та мета ?нформац?ю з в?деопотоку.Express – фреймворк для створення веб-додатк?в ? API на мов? Node.js. На р?з? Express ? одним з найлегших шлях?в побудови серв?с?в на Node.js ? дозволя? швидко розробляти р?зноман?тн? серверн? застосування.Socket.IO – ? б?бл?отекою на мов? JavaScript для веб-додатк?в у реальному час?. Вона дозволя? зд?йснювати двосторонн?й зв'язок м?ж веб-кл??нтами та серверами в реальному час? шляхом створеня так званих сокетних з’?днань. Пакет Socket.IO склада?ться з двох частин б?бл?отеки для сторони кл??нта та Node.js сервера. Обидва компоненти мають майже ?дентичний API для керу?ться под?ями.AWS Lambda – платформний серв?с в систем? Amazon Web Services, який пода?ться у вигляд? модел? ?функц?я як послуга?, що забезпечу? под??во-ор??нтован? без серверн? обчислення. AWS Lambda дозволя? запускати програмн? коди без вид?лення сервер?в ? керування ними. Так за допомогою Lambda можна запускати практично будь-як? види додатк?в ? серверних серв?с?в, при цьому не потр?бн? будь-як? операц?? адм?н?стрування, а треба лиш завантажити програмний код, ? Lambda забезпечить вс? ресурси, необх?дн? для його виконання, масштабування ? забезпечення високо? доступност?. AWS Lambda був обраний для запускання фрагмент?в коду написаних на мов? C++.Вимоги до техн?чного забезпеченняЗагальн? вимогами до техн?чного забезпечення серверного застосування:Програмне забезпечення, що використову?ться при розробц? дано? ?нформац?йно? системи: платформа Unix, один з дистрибутив?в Linux чи MacOS;мова NodeJS, верс?я 10.15.2;мова C++, верс?я 11;MongoDB, верс?я 4.0.3;OpenCV, верс?я 3.0.0;FFmpeg, верс?я 4.1.1;доступ до швидко? мереж? ?нтернет.Загальн? вимогами до техн?чного забезпечення кл??нтського застосуваннявеб браузер Chrome, Safari, Firefox чи IE Edge (п?дтримуються останн? 2 верс?? браузер?в);доступ до мереж? ?нтернет.Арх?тектура програмного забезпеченняД?аграма клас?вВ ход? розробки була створена структура клас?в ?нформац?йно? системи анал?зу в?део для визначення релевантно? контекстно? реклами.Наведено класи для серверного застосування формац?йно? системи (рисунок 3.1):Рисунок 3.1 – Схема структурна д?аграми клас?вApp – клас, який в?дпов?да? за створення та ?н?ц?ал?зац?ю модул?в сервера;WWW – клас, який реал?зу? точку входу в серверне застосування та збира? вс? модул?;AddsStrorage – клас, який в?дпов?да? за зав’язок з базою даних рекламних оголошень;RoutesProvider – класс, який ?н?ц?ал?зу? роути серверне застосування;Socket – класс, який ?н?ц?ал?зу? сокети серверне застосування;VideoService – клас, який в?дпов?да? за роботу з в?деопотоком ? дозволя? працювати з його метаданим, кодування, ауд?о та в?део дор?жками;NLP – клас, який в?дпов?да? за роботу з текстом ? знаходженням у ньому ключових сл?в;ML – клас, який дозволя? анал?зувати кадри та мовлення з в?деопотоку;Core – клас, який в?дпов?да? за анал?з в?деопотоку та пропонування реклами глядачу;CoreUtils – клас, який нада? допом?жн? функц?? класу Core.Д?аграма компонент?вСхема компонент?в верхнього р?вня ?нформац?йно? системи анал?зу в?део для визначення релевантно? контекстно? реклами наведено на рисунку 3.2.Дана схема ?нформац?йно? системи склада?ться с чотирьох компонент?в. Серверного застосування – Adds Video Service, який написаний на NodeJS. MongoDB бази даних, рекламних оголошень, яке знаходиться в клауд? – Amazon Elastic Cloud. Серв?су розрахунк?в розп?знавання образ?в з кадр?в та мови з ауд?о дор?жки в?део потоку, який знаходиться в клауд? – AWS Lambda. ? на останок, безпосередньо самого кл??нту системи у браузер? чи кл??нтському застосуванн?, який працю? з сервером.Рисунок 3.2 – Схема структурна компонент?в верхнього р?вняСхема структурна посл?довност? ?нформац?йно? системи анал?зу в?део для визначення релевантно? контекстно? реклами наведено на рисунку 3.3.Рисунок 3.3 – Схема структурна посл?довност?Схема структурна розгортання ?нформац?йно? системи анал?зу в?део для визначення релевантно? контекстно? реклами наведено на рисунку 3.4.Рисунок 3.4 – Схема структурна розгортанняСпециф?кац?я функц?йФункц?? клас?в для анал?зу в?део для визначення релевантно? контекстно? реклами наведено в таблиц? 3.1.Таблиця 3.1 – Функц?? клас?в програмного забезпеченняКласФункц?яОпис функц??WWWpublic http: ServerПоле класу, яке в?дпов?да? за сервер застосуванняpublic app: AppПоле класу, яке ? реал?зац?ю API серверного застосуванняpublic socket: SocketПоле класу, яке ? реал?зац??ю сокет?в серверного застосуванняApppublic logger: LoggerПоле класу, яке ? реал?зац??ю модуля лог?в серверного застосуванняpublic routes: RoutesProviderПоле класу, яке ? реал?зац??ю модля роут?в серверного застосуванняpublic cookieParser: CookieParserПоле класу, яке ? реал?зац??ю модуля парсу кук?в серверного застосуванняpublic errorHandler(): ErrorHandlereПоле класу, яке в?дпов?да? за в?дловлювання помилок у серверному застосуванн?RoutesProviderpublic routes: RoutesПоле класу, яке в?дпов?да? за реал?зац?ю роут?в у застосуванн?AddsStorages public etAdd(add: Add): voidМетод класу, який реал?зу? додавання нового рекламного оголошенняpublic getAdds(): Add[]Метод класу, який реал?зу? д?ставання ус?х рекламних оголошеньpublic searchAdd(keyWord: string): Add[]Метод класу, який реал?зу? пошук рекламного оголошення по ключовим словамSocketpublic io: IOПоле класу, яке в?дпов?да? за реал?зац?ю сокет?в у серверному застосуванн?public create(): voidМетод класу, який ?н?ц?ал?зу? з’?днання з ус?ма кл??нтами серверного застосуванняVideoServicepublic getScreenshots(file: Path, timestamps: Timestamps; distPath: Path): Promise<void>Метод класу, який реал?зу? функц?ю створення скр?ншот?в кадр?в з в?деопотокуpublic getAudio(file: Path,startTime: number,duration: number,pathToAudio: Path): Promise<void>Метод класу, який реал?зу? функц?ю створення ауд?одор?жки з в?деопотокуpublic getMetaData(file: Path): Promise<void>Метод класу, який реал?зу? функц?ю отримання мета даних з в?деопотокуMLpublic vision(screenshotsPath: Path): Promise<VisionResults>Метод класу, який реал?зу? функц?ю розп?знавання образ?в з кадр?в в?деопотоку public speech(audioPath: Path): Promise<AudioResults>Метод класу, який реал?зу? функц?ю розп?знавання мовлення з ауд?о дор?жки з в?деопотокуNLPpublic extract(text: string): string[]Метод класу, який реал?зу? пошук ключових сл?в у текст?Corepublic exec(link: Path): voidМетод класу, який реал?зу? функц?ю анал?зу в?деопотоку та пошуку релевантних рекламних оголошень до ньогоpublic processVideo(file: Path, timestamps: Timestamps; distPath: Path): RateMapМетод класу, який реал?зу? функц?ю знаходження ключових образ?в з в?деопотокуpublic processAudio(file: Path, startTime: number, duration: number, pathToAudio: Path): RateMapМетод класу, який реал?зу? функц?ю знаходження ключових сл?в у ауд?о дор?жц? з в?деопотокуpublic processMetaData(file: Path): MetaDataМетод класу, який реал?зу? функц?ю анал?зу мета даних в?део потокуCoreUtilspublic setupDist(): voidМетод класу, який реал?зу? функц?ю п?дготовки середовища для сес?? анал?зу в?део потокуpublic cleanDist(): voidМетод класу, який чистить данн? та заквашу? процеси п?сля сес?? анал?зу в?део потокуpublic getTimestamps(duration: number): TimeStampsМетод класу, який д?лить в?део пот?к на ?нтервали для паралельного розрахункуpublic rateKeyWords(keyWords: KeyWords): RateMapМетод класу, який п?драхову? ключов? слова з образ?в та мовлення з в?деопотокуpublic getAdd(addMap: AddMap): AddResМетод класу, який знаходить релевантну рекламу для певного пром?жку в?деопотокуКер?вництво користувача?нформац?йна система анал?зу в?део для визначення релевантно? контекстно? реклами склада?ться з ряду компонент?в. Через це опис кер?вництва користувача буде складатися з ?нструкц?? налаштування системи, п?дключення до не? з кл??нтських застосувань – опису користування API ?нформац?йно? системи, а також кер?вництва користування пробною верс??ю системи. Налаштування системиРозроблена ?нформац?йна система написана на мов? Node.js. Тому для ?? налаштування та запуску с початку необх?дно встановити мову Node.js на ваше застосування.Для цього з початку сл?д встановити NVM – Node Version Manager (л?стинг 3.1). Л?стинг 3.1$ env VERSION=`python tools/getnodeversion.py` make install DESTDIR=`nvm_version_path v$VERSION` PREFIX=""Дал? сл?д встановити верс?ю Node.js (л?стинг 3.2).Л?стинг 3.2$ nvm use 10.15.2Д?л? сл?д встановити б?бл?отеку для Ffmpeg для роботи з в?део потоком (Л?стинг 3.3). Л?стинг 3.3$ sudo add-apt-repository ppa:mc3man/trusty-media$ sudo apt-get update$ sudo apt-get install ffmpeg$ sudo apt-get install frei0r-pluginsП?сля чого сл?д зайти в директор?ю з проектом ? запустити ?н?ц?ал?зац?ю системи та встановлення необх?дних пакет?в (л?стинг 3.4).Л?стинг 3.4$ npm installП?сля дано? команди ус? необх?дн? пакети будуть усп?шного встановлен? та про?н?ц?ал?зовано три пакети: модуль серверно? частина ?нформац?йно? системи, модуль лог?чних операц?й, який розп?зна? образи з кадр?в та анал?зу? звукову дор?жку в?део потоку та модуль пробно? верс?? ?нформац?йно? системи.Дал? сл?д запустити ?нформац?йну систему (л?стинг 3.5).Л?стинг 3.5$ npm run startКер?вництво користування API ?нформац?йно? системиДля користування ?нформац?йною системою анал?зу в?део для визначення релевантно? контекстно? реклами сл?д встановити з’?днання шляхом сокет?в з серверною частиною ?нформац?йною системи. Методи запит?в но серверно? частини представлен? у таблиц? 3.2.Таблиця 3.2 – Сокетн? запити до сервено? частини ?нформац?йно? системиНазваТипОпис функц??API_URLCONNECT?н?ц?ал?зац?я з’?днання та п?дключення до сокет?в сервераvideo/process/requestEMITЗапит на початок анал?зу в?део потокуvideo/process/${ID }/cancelEMITЗапит на припинення анал?зу даних в?деопотокуvideo/process/responseONПов?домлення про зак?нчення анал?зу частин? в?део потокуvideo/process/status/responseON Пов?домлення про зм?ну статусу (стад??) анал?зу в?деопотокуvideo/process/finishONПов?домлення про зак?нчення анал?зу в?деопотоку Кер?вництво користування користування пробною верс??ю системиКористувач в?дкрива? браузер ? заходить до пробно? верс?? системи. В?н бачить список посилань на р?зноман?тн? в?део ролики (рисунок 3.5).Рисунок 3.5 – Початкова стор?нка з посиланнями в?део ролик?вНа стор?нц? з списком посилань, користувач обира? бажане в?део та переходить за його посиланням. П?сля чого в?н бачить стор?нку з обраним в?део файлом (рисунок 3.6).Рисунок 3.6 – Стор?нка з в?део файломНа стор?нц? з в?део файлом, користувач може програти в?део у в?деопле?р? (рисунок 3.7).Рисунок 3.7 – Програвання в?део файлуТакож в?н може проанал?зувати обраний в?део файл. Для цього йому треба натиснути на кнопку “Analize”. П?сля натискання на кнопку почина?ться анал?з в?део ? внизу в?део з’являються пов?домлення про стад?ю анал?зу в?део (рисунок 3.8).Рисунок 3.8 – Анал?з в?део файлуЗ права поряд з анал?зом показу?ться посилання на рекламу до в?део та час коли ?? сл?д показати (рисунок 3.9).Рисунок 3.9 – Результати анал?зу в?део файлуЯкщо п?дчас програвання в?део у пле?р?, було знайдено рекламу, то в?н в?део пот?к зупиниться ? буде показана реклама, яку можна завершити натиснувши на хрестик в верхньому правому кутку реклами (рисунок 3.10).Рисунок 3.10 – Показ реклами п?д час програвання в?део файлуТакож, якщо користувач хоче завершити абао перервати анал?з в?део потоку, то йому сл?д натиснувши на кнопку “Cancel”, п?д в?деопле?ром (рисунок 3.11).Рисунок 3.11 – Припинення анал?зу в?деопотокуВисновки до розд?луВ даному розд?л? було розглянуто технолог?чн? аспекти ?нформац?йною системою анал?зу в?део для визначення релевантно? контекстно? реклами. Описано технолог??, як? були обран? для написання дано? ?нформац?йно? системи, а також описано вимоги до техн?чного забезпечення системи.Також було описано арх?тектуру системи та подано ?? у вигляд? д?аграми клас?в, компонент?в, посл?довност? та розгортання. Разом з цим було надано специф?кац?ю функц?й з ?х детальним описом.Додатково було розглянуто кер?вництво користувача. Де було розглянуто ?нструкц?ю налаштування системи, опису користування API ?нформац?йно? системи, а також кер?вництва користування пробною верс??ю системи.АНАЛ?З РЕЗУЛЬТАТ?В ДОСЛ?ДЖЕННЯ4.1 Вх?дн? дан?Для анал?зу результат?в досл?дження було обрано в?део в?домого американського в?деоблогера Джейка Пола (рисунок 4.1). На даному приклад?, сл?д показати роботу алгоритму пошуку релевантних рекламних пов?домлень та проанал?зувати отриман? результати, для першого пром?жку часу.Рисунок 4.1 – Результати анал?зу в?део файлу4.2 Анал?з отриманих результат?вРозроблений алгоритм склада?ться з 4 складових. А саме анал?зу мета даних в?део, його кадр?в та ауд?о дор?жки. На останньому кроц? в?дбува?ться пошук в?дпов?дного рекламного оголошення на основ? ц?льово? функц??.4.2.1 Анал?з мета даних в?део Дане в?део ма? ряд мета даних, а саме:JakePaul;CarInPool;TakeFunWithFriends;MyFriendsPool;П?сля ?х опрацювання можна отримати наступний впорядкований наб?р тег?в з вагами, частотою ?х трапляня:pool – 2;friends – 2;jake – 1paul – 1car – 1;take – 1;fun – 1;my – 1.Дан? мета теги можна використовувати для пошуку в?дпов?дних рекламних оголошень для будь-якого пром?жку часу даного в?део, оск?льки вони стосуються всього в?део потоку.4.2.2 Анал?з зображення з в?део потокуДля анал?зу забреженная з в?део, заданий пром?жок потоку розбива?ться на кадри з ?нтервалом 1 секунда (рисунок 4.2), п?сля чого вони анал?зуються за допомогою розробленого алгоритму ? метод?в комп’ютерного зору.Рисунок 4.2 – Кадри з в?део потокуРезультатом анал?зу кадр?в ? впорядкований наб?р предмет?в з ?х рахунком, коеф?ц??нтом значущост? у в?део потоц?:vehicle – 22.74494457244873;car –18.89864546060562;vehicle door – 12.314380288124084;window part – 6.391701281070709;grass – 5.551468133926392;windshield – 5.518191874027252;tree – 5.253252983093262;glass – 3.742722451686859;swimming pool – 1.5801533460617065;road – 1.05413019657135.Як бачимо, з кадр?в в?део потоку, знайдений наб?р ключових об’?кт?в ? в?рним.4.2.3 Анал?з ауд?о дор?жки Анал?з ауд?о дор?жки склада?ться з двох етап?в. На першому кроц? в?дбува?ться розп?знавання мови. Результатом дано? операц?? для пром?жку в?део потоку ? наступний текст: “Scarlet Starlet recipe Sky broke yo we almost died less than you need a better car by Scarlett so wait any car okay not like well there's limitations like a better car than this one but not like a Lamborghini. it's sorry lol Pro subscribe seriously I still got subscribe button for this after have you done this before now why do you guys keep saying that huh”На другому кроц? в?дбува?ться операц?я пошуку ключових сл?д для даного тексту. ?? результатом ? наб?р знайдених сл?в з ?х вагами, ?х значущ?стю:car – 6;subscribe – 6;scarlet – 2;recipe – 2; sky – 2;broke – 2; starlet – 2; scarlett –2;wait – 2; limitations – 2;lamborghini – 2;died –2;beauty – 2;pie – 2;lol – 2;pro – 2;Як бачимо, з тексту ауд?о дор?жки, знайдений наб?р ключових сл?в ? в?рним.4.2.4 Анал?з результату пошуку релевантного рекламного оголошенняПо?днавши отриман? результати з набором ус?х рекламних оголошень у ц?льов?й функц?? ми отрима?мо рекламу машини Lincoln (рисунок 4.3). Даний результат в?дпов?да? д?йсност? оск?льки ключовим елементом у даному фрагмент? в?деоблогу ? розмалювання машини перед ?? зануренням у басейн.Рисунок 4.3 – Результат пошуку рекламного оголошенняВисновки до розд?луОтже, в даному розд?л? було розглянуто роботу алгоритму на приклад? фрагменту в?деоролику в?домого американсього блогера Джейка Пола. Наведено результати анал?зу мата даних, кадр?в та ауд?о дор?жки з в?део. В результат? перев?рено доц?льн?сть ? правильн?сть анал?зу в?део потоку та пошуку релевантного рекламного оголошення.ВИСНОВКИП?д-час виконання дисертац?? було виконано досл?дження в сфер? анал?зу та обробки в?деопотоку. Насамперед, проведено огляд в?домих результат?в, метод?в, п?дход?в та досл?джень у сфер? розв’язання задач? анал?зу в?део, пошуку контенту в?деопотоку, в?дстеження головних об’?кт?в у ньому. Проанал?зован? досл?дження були класиф?кован? та структурован? у групи. Також в рамках проведеного анал?зу було висв?тлено основн? переваги та недол?ки ?снуючих алгоритм?в та п?дход?в для розв’язання поставлено? задач?.На основ? проанал?зованих досл?джень було розроблено власний алгоритм розв’язання задач? анал?зу контенту потокового в?део та пошуку релевантно? контекстно? реклами до нього. При розробц? даного алгоритму було враховано переваги та недол?ки вже досл?джених алгоритм?в. Розроблений алгоритм анал?зу? в?део за допомогою трьох складових, а саме обробц? кадр?в з в?део, ауд?о дор?жки та мета даних на пошук ключових об’?кт?в у них. П?дчас розробки алгоритму було висунуто ?дею, оптим?зац?? процесу анал?зу зображень з кадр?в в?део потоку за допомогою машинного зору. А саме, оск?льки операц?я класиф?кац?? за допомогою машинного зору вимага? багато розрахунк?в, то було розроблено алгоритм пошуку сп?льних об’?кт?в у кадрах з в?део ? безпосередньо? класиф?кац?? т?льки ?х. В результат? на основ? розробленого алгоритм?чного забезпечення, був розроблений прототип ?нформац?йно? системи, яка анал?зу? контент потокового в?део ? пропонувати глядачу рекламу, релевантну до контенту даного в?део. Протягом тестування розроблено? ?нформац?йно? системи, було продемонстровано ефективн?сть ?? роботи.В результат?, за матер?алами дисертац?? було опубл?ковано 2 науков? роботи: 1 стаття [76-77] та 1 тези допов?д? на конференц?ю [78].РЕКОМЕНДАЦ???В результат? досл?дження було висунуто ряд перспектив, як? зможуть покращати розроблену систему ? визначають подальший розвиток досл?джень, а також розвитку розроблено? ?нформац?йно? системи. Дан? перспективи насамперед можна розд?лити на три групи. Перш? дв? з яких це покращення алгоритму та ?нформац?йно? системи, а остання це початок сп?впрац? з системами як? надають рекламн? пов?домлення та в?део контент кл??нтам.По-перше, сл?д модиф?кувати розроблений алгоритм використовуючи дан? з ретаргету [75]. За допомогою дано? складово? можна буде краще анал?зувати потреби користувача ? пропонувати рекламу, яка буде краще перепл?татись з його запитами.По-друге, необх?дно, розробити публ?чним API та кл??нтську б?бл?отеку для браузер?в ? моб?льних пристро?в для безпосередньо? роботи з ним. Даний API може бути використаний в р?зноман?тних онлайн к?нотеатр?в, в?део серв?сах ? кл??нтських застосуваннях, в якост? системи анал?зу в?део потоку та системи надання рекламних пов?домлень. Данна розробка допоможе покращити ?нтеграц?ю розроблено? ?нформац?йно? системи у глобальн?й павутин?.По-трет?, сл?д розробити прототип пле?ра, який буде на сторон? кл??нту виконувати розрахунки розп?знавання контенту в?део ? пропонування реклами за допомогою Nvidia CUDO ? Apple Core ML. Дана розробка на багато полегшить використання системи р?зноман?тними в?део серв?сами а також ?? навантаження, оск?льки вс? розрахунки буть виконуватись на сторон? користувач?в.Останн?м кроком перспектив, можна вважати початок сп?впрац? з р?зними системами контекстно? реклами (Google Adwords, Yahoo Ads, Facebook Ads) ? з р?зними онлайн к?нотеатрами та в?део серв?сами та кл??нтськими застосуванням (Netflix, Youtube, Megogo тощо).ПЕРЕЛ?К ПОСИЛАНЬCees G.M. Snoek, Marcel Worring, Arnold W.M. Smeulders, Early versus Late Fusion in Semantic Video Analysis ISLA, Informatics Institute University of Amsterdam Kruislaan, 2005.Ahmet Ekin, A. Murat Tekalp and Rajiv Mehrotra, Automatic Soccer Video Analysis and Summarization, IEEE Transactions on Image Processing, Vol. 12, No. 7, July 2003.Andrea Cavallaro, Olivier Steiger, Touradj Ebrahimi, Semantic video analysis for adaptive content delivery and automatic description, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 15, No 10, pp 1200-1209, October 2005.Janko Calic and Ebroul Izquierdo, Multimedia and Vision Research Lab, Queen Mary, Efficient Key-Frame Extraction and Video Analysis, University of London, April 2002.Nevenka Dimitrova, Hong-Jiang, Behzad Shahraray, Ibrahim Sezan, Thomas Huang, Avideh Zakhor, Applications of Video-Content Analysis and Retrieval, University of California at Berkeley, 2012.Yuh-Lin Chang, Wenjun Zeng, I. Kamel, R. Alonso Integrated image and speech analysis for content-based video indexing, Hiroshima, Japan, 2012.Ying Li, Shrikanth S Narayanan, C.-C. Jay Kuo, Content-Based Movie Analysis and Indexing Based on AudioVisual Cues, IEEE Transactions on Circuits and Systems for Video Technology, 14(8):1073 – 1085, September 2005.Chong-Wah Ngo, Ting-Chuen Pong, HongJiang Zhang, 1. Recent advances in content-based video analysis, International Journal of Image and Graphics 1(3):445-468, Hong Kong University of Science & Technology, January 2011.Alan Hanjalic and Hong Jiang Zhang, An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 9, No. 8, December 2009.Nuno Vasconcelos, Statistical models of video structure for content analysis and characterization, University of California, San Diego, IEEE Transactions on Image Processing, February 2000.Shih-Fu Chang, William Chen, VideoQ: An Automated Content Based Video Search System Using Visual Cues, Dept. of Electrical Engineering, Columbia University, New York New York, 2007.Yao Wang, Zhu Liu, Jin-Cheng Huang, Multimedia content analysis-using both audio and visual clues, IEEE Signal Processing Magazine, Vol. 17 , Issue 6, November 2011.Liang Bai, Songyang Lao, Gareth J.F. Jones, Alan F., SmeatonVideo Semantic Content Analysis based on Ontology, International Machine Vision and Image Processing Conference (IMVIP 2007), September, 2007.E. Sahouria, A. ZakhorContent, Analysis of Video Using Principal Components, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 9, Issue 8, December 2009.H. Miyamori, S.-I. Iisaku, Video Annotation for Content-based Retrieval using Human Behavior Analysis and Domain Knowledge,Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition, August 2002.Wei Qi, Lie Gu, Hao Jiang, Xiang-Rong Chen, Hong-Jiang Zhang, Integrating visual, audio and text analysis for news video, Proceedings 2000 International Conference on Image Processing, August 2012.Yoshinobu Tonomura, Akihito Akutsu, VideoMAP and VideoSpaceIcon: Tools for Anatomizing Video Content, Take, Yokosuka, Kanagawa, 235 Japan, INTERCHI, 2003.Tong Zhang, Yong Wang, Daniel R. Tretter, Video content understanding through real time video motion analysis, Hewlett Packard Development Co LP, October, 2004.Lie Lu, Hong-Jiang Zhang and Hao Jiang, Content Analysis for Audio Classification and Segmentation,IEEE Transactions on Speech and Audio Processing, Vol. 10, Issue 7, October 2012.Jean-Marc Odobez, Patrick Bouthemy, Direct incremental model-based image motion segmentation for video analysis, Campus universitaire de Beaulieu, France, October 2007.Josef Sivic and Andrew Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, Robotics Research Group, Department of Engineering Science, University of Oxford, United Kingdom, Proceedings Ninth IEEE International Conference on Computer Vision, October 2003.Tie Liu, Nanning Zheng, Wei, Zejian Yuan Video Attention, Learning to Detect A Salient Object Sequence, 19th International Conference on Pattern Recognition, January 2009.Changick Kim, Jenq-Neng Hwang, Fast and Automatic Video Object Segmentation and Tracking for Content-Based Applications, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 12, Issue 2, August 2002.Shiuh-Ku, Wenga Chung-Ming Kuo, Shu-Kang Tu, Video object tracking using adaptive Kalman filter Author links open overlay panel, Journal of Visual Communication and Image Representation, Vol. 17, Issue 6, pp 1190-1208, December 2006.Dong Zhang, Omar Javed, Mubarak Shah, Video Object Segmentation through Spatially Accurate and Temporally Dense Extraction of Primary Object Regions, IEEE Conference on Computer Vision and Pattern Recognition, October 2013.Gedas Bertasius, Lorenzo Torresani and Jianbo Shi, Object Detection in Video with Spatiotemporal Sampling Networks, University of Pennsylvania, July 2018.Peng Chen, Yuanjie Dang, Ronghua Liang, Wei Zhu, Real-Time Object Tracking on a Drone With Multi-Inertial Sensing Data, IEEE Transactions on Intelligent Transportation Systems, Vol. 19, Issue 1, January 2018.Liang Zhao, Zhihai He, Wenming Cao, Debin Zhao, Real-Time Moving Object Segmentation and Classification From HEVC Compressed Surveillance Video, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 28, Issue 6, June 2018.Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, You Only Look Once: Unified, Real-Time Object Detection, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 779-788, 2016.Ben Benfold, Ian Reid, Stable multi-target tracking in real-time surveillance video, CVPR, June 2011.B. U?ur T?reyin, Yi?ithan Dedeo?lu, U?ur Güdükbay, A. Enis?etina, Computer vision based method for real-time fire and flame detection, Pattern Recognition Letters, Vol. 27, Issue 1, pp. 49-58, January 2006.Iljoo Baek, Albert Davies, Geng Yan, Ragunathan Raj Rajkumar, Real-time Detection, Tracking, and Classification of Moving and Stationary Objects using Multiple Fisheye Images, IEEE Intelligent Vehicles Symposium (IV), June 2018.Yong Jae Lee, Jaechul Kim, and Kristen Grauman, University of Texas at Austin, Key-Segments for Video Object Segmentation, International Conference on Computer Vision, January 2012.Esa Rahtu, Juho Kannala, Mikko Salo, Janne Heikkil?, Segmenting Salient Objects from Images and Videos, University of Oulu, Finland, ECCV Computer Vision, pp. 366-379, 2010.Jing Zhang, Rangachar Kasturi, Extraction of Text Objects in Video Documents: Recent Progress, The Eighth IAPR International Workshop on Document Analysis Systems, November 2008.Yong Jae Lee, Joydeep Ghosh, Kristen Grauman, University of Texas, Discovering important people and objects for egocentric video summarization, IEEE Conference on Computer Vision and Pattern Recognition, June 2012.Chenlei Guo, Liming Zhang, A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression, IEEE Transactions on Image Processing, Vol. 19, Issue 1, January 2010.DAI Ke-xue, LI Guo-hui,T U Dan, YUAN Jian, Prospects and Current Studies on Background Subtraction Techniques for Moving Objects Detection from Surveillance Video, Department of System Engineering, School of Info System and Management, National University of Defense Technology, Changsha, August 2010.Goyette, N., Jodoin, P-M, Porikli, F., Konrad, J., Ishwar, P., : A New Change Detection Benchmark Dataset, MITSUBISHI ELECTRIC RESEARCH LABORATORIES, TR2012-044, June 2012.Rangachar Kasturi, Dmitry Goldgof, Padmanabhan Soundararajan, Framework for Performance Evaluation of Face, Text, and Vehicle Detection and Tracking in Video: Data, Metrics, and Protocol, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, Issue 2, Febury 2009.Suet-Peng Yong, Jeremiah D. Deng, Martin K. Purvis, Wildlife video key-frame extraction based on novelty detection in semantic context, Multimedia Tools and Applications, Vol. 62, Issue 2, pp. 359–376, January 2013.S. Dasiopoulou, V. Mezaris, I. Kompatsiaris, V.-K. Papastathis, M.G. Strintzis, Knowledge-assisted semantic video object detection, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 15, Issue 10, October 2005.Z. Rasheed, M. Shah, Detection and representation of scenes in videos, IEEE Transactions on Multimedia, Vol. 7, Issue: 6, December 2005.Bahadir Karasulu, Serdar Korukoglu, Moving Object Detection and Tracking in Videos,Performance Evaluation Software, pp 7-30, March 2013.International Conference on Robotics and Automation, . Kevin Lai, Liefeng Bo, Xiaofeng Ren, Dieter Fox, A large-scale hierarchical multi-view RGB-D object dataset, IEEE International Conference on Robotics and Automation, August 2011.Weiming Hu, Nianhua Xie, Li Li, Xianglin Zeng, Stephen Maybank, A Survey on Visual Content-Based Video Indexing and Retrieval, IEEE Transactions on Systems, Man, and Cybernetics, Vol. 41, Issue 6, November 2011.Zheng Lu, Kristen Grauman, Story-Driven Summarization for Egocentric Video, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2714-2721, June 2013.Jan W. Amtrup, Jiyong Ma, Anthony Macciola, Systems and methods for detecting and classifying objects in video captured using mobile devices, Kofax Inc., US Grant US8885229B1, May 2013.Meng Wang, Richang Hong, Guangda Li, Zheng-Jun Zha, Shuicheng Yan, Event Driven Web Video Summarization by Tag Localization and Key-Shot Identification, IEEE Transactions on Multimedia, Vol. 14, Issue: 4, January 2012.Anestis Papazoglou, Vittorio Ferrari, Fast Object Segmentation in Unconstrained Video, The IEEE International Conference on Computer Vision (ICCV), pp. 1777-1784, 2013.P. Chockalingam, S. N. Pradeep, and S. Birchfield. Adaptive fragments-based tracking of non-rigid objects using level sets. In ICCV, 2009.R. Cucchiara, C. Grana, M. Piccardi, and A. Prati. Detecting moving objects, ghosts, and shadows in video streams. IEEE Trans. on PAMI, 2003.?MacOS Mojave Simply powerful? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?About Node.js? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Clang: a C language family frontend for LLVM? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Open Source Document Database? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?JavaScript? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?React. A JavaScript library for building user interfaces? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?FFmpeg. A complete, cross-platform solution to record, convert and stream audio and video.? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Express. Fast, unopinionated, minimalist web framework for Node.js? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?SOCKET.IO 2.0? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Parallel Computing in C++ with PASL? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?OpenCV? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Github? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?AWS Lambda? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?VS Code? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?TypeScript? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Angular? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?Ember? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)Sp?rck Jones. A probabilistic model of information retrieval: Development and comparative experiments: Part 1. Information Processing & Management [Текст] / Sp?rck Jones, K.,Walker, S., Robertson, S. E. // Department of Information Science, City University, London, UK, 2000.Ламберто Баллан. Event detection and recognition for semantic annotation of video [Текст] / Ламберто Баллан // Multimedia Tools and Applications, 2011 – № 51 – С. 279–302.Стюарт Джексон. Flexible, Mobile Video Camera System and Open Source Video Analysis Software for Road Safety and Behavioral Analysis [Текст] / Стюарт Джексо // Ун?верситет Макг?лла, Канада, с?чень 2013 – № 1. C: 90-98.Вей Цзян. Automatic consumer video summarization by audio and visual analysis [Текст] / Вей Цзян, Олександр Лу? // IEEE International Conference on Multimedia and Expo. Барселона, ?спан?я. 2011.?V8? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)?What is ReTargeting and How Does it Work?? [Електронний ресурс]: [Веб-сайт]. – Режим доступу: (дата звернення 05.03.2019)Шехет Г.О. Система анал?зу контенту потокового в?део та формування релевантно? контекстно? реклами / Шехет Г.О., Ковалюк Т.В. / V М?жнародна науково-практична конференц?я ?Обчислювальний ?нтелект? – м. Ужгород, 15-20 кв?тня 2019 р.Шехет Г.О. Система анал?зу контенту потокового в?део та формування релевантно? контекстно? реклами. / Шехет Г.О. / Всеукра?нська науково-практична конференц?я молодих вчених та студент?в ??нформац?йн? системи та технолог?? управл?ння? (?СТУ-2019), НТУУ ?КП? ?м. ?горя С?корського? – м. Ки?в, 18-19 кв?тня 2019 р.Шехет Г.О. The algorithmic solution of content streaming video analysis for the definition of relevant contextual advertising / Шехет Г.О. / Establish Modern Master-level Studies in Information Systems (MASTIS), НТУУ ?КП? ?м. ?горя С?корського? – м. Ки?в, 12-13 березня 2019 р.ДОДАТОК А ГРАФ?ЧНИЙ МАТЕР?АЛПЛАКАТ 1 МАТЕМАТИЧНА ПОСТАНОВКА ЗАДАЧ?. АНАЛ?З КАДР?В З В?ДЕО ПОТОКУ.ПЛАКАТ 2 МАТЕМАТИЧНА ПОСТАНОВКА ЗАДАЧ?. АНАЛ?З АУД?О ДОР?ЖКИ. Ц?ЛЬОВА ФУНКЦ?Я.ПЛАКАТ 3 ЗАГАЛЬНА СХЕМА АЛГОРИТМУ ПОШУКУ РЕКЛАМНИХ ПОВ?ДОМЛЕНЬ РЕЛЕВАНТНИХ ДО КОНТЕНТУ В?ДЕО ПОТОКУПЛАКАТ 4 АРХ?ТЕКТУРА ?НФОРМАЦ?ЙНО? СИСТЕМИПЛАКАТ 5 Д?АГРАМА КЛАС?В СЕРВЕРНОГО ЗАСТОСУВАННЯПЛАКАТ 6 КРЕСЛЕННЯ ВИГЛЯДУ ЕКРАННИХ ФОРМ ................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download