
یادگیری عمیق و چالش های تشخیص اجسام متحرک در ویدئو
تشخیص اجسام متحرک یک جزء ضروری برای کاربردهای مختلف بینایی کامپیوتری و پردازش تصویر است: تشخیص عابر پیاده، نظارت بر ترافیک، نظارت امنیتی و غیره. اگرچه جدیدترین روشهای تشخیص اجسام متحرک نتایج امیدوارکنندهای ارائه میدهند، تشخیص دقیق هنوز به دلیل چالشهای مختلف مانند روشنایی، مسائل، انسداد و اشیاء پس زمینه در یک محیط کنترل نشده دشوار است.
در این مقاله، رایجترین چالشهای تشخیص دقیق اجسام متحرک را مورد بحث قرار میدهیم، مروری بر روشهای موجود برای تشخیص اجسام متحرک ارائه میکنیم و توضیح میدهیم که چگونه راهحلها را میتوان با استفاده از یادگیری عمیق بهبود بخشید.
اجسام متحرکی که باید در یک ویدیو شناسایی شوند می توانند افراد، حیوانات یا وسایل نقلیه از جمله اتومبیل، کامیون، هواپیما و کشتی باشند. بیشتر این اجسام سفت و سخت هستند: شکل آنها تغییر نمی کند. با این حال، اجسام غیر صلب یا اجسامی نیز وجود دارند که می توانند شکل خود را تغییر دهند. افراد و حیوانات هنگام انجام اقدامات و ژست گرفتن مدام حالت خود را تغییر می دهند. اجسام دیگر مانند آبشارها، طوفان ها، ابرها و درختان در حال نوسان نیز حرکت می کنند، اما باید توسط یک الگوریتم تشخیص به عنوان بخشی از پس زمینه در نظر گرفته شوند.
یک ویدیو از فریمهای متوالی تشکیل شده است و تکنیکهای پردازش تصویر برای تشخیص یک شی در هر فریم و سپس برقراری روابط بین پیکسلها در فریمهای مختلف برای شناسایی اشیایی که حرکت میکنند وجود دارد. این نوع تجزیه و تحلیل ویدئویی شامل چهار مرحله زیر است:
- طبقه بندی نقاط ویژگی (Feature point classification)
- تشخیص شی متحرک (Moving object detection)
- ردیابی شی متحرک (Moving object tracking)
- تجزیه و تحلیل شی متحرک (Moving object analysis)

در این مقاله، تنها روشهایی را در نظر خواهیم گرفت که برای تشخیص شی متحرک در یک تصویر ویدیویی استفاده میشود.
روش های تشخیص اجسام متحرک
اولین گام در تجزیه و تحلیل ویدیو، شناسایی اشیاء هدف و خوشه بندی پیکسل های آنها است. در این بخش، رویکردهای زیر را برای تشخیص اجسام متحرک در نظر خواهیم گرفت:
- تفریق پس زمینه (Background subtraction)
- تفاوت زمانی (Temporal differencing)
- تفاوت قاب (Frame differencing)
- جریان نوری (Optical flow)

تفریق پس زمینه و مدل سازی
تفریق پسزمینه، همچنین به عنوان تشخیص پیشزمینه شناخته میشود، روشی است که اغلب برای تقسیمبندی حرکت در صحنههای ایستا استفاده میشود. با استفاده از مدلسازی ریاضی یا تئوری احتمال، اجسام متحرک پیشزمینه پیکسل به پیکسل از یک تصویر پسزمینه ثابت کم میشوند. تصویر پسزمینه یا مدل، با میانگینگیری تصاویر در طول زمان ایجاد میشود و پیشزمینه استخراجشده میتواند برای تشخیص اشیا استفاده شود. در زیر، میتوانید ببینید که چه تکنیکهایی برای یک فریم ویدیویی در حین تفریق پسزمینه اعمال میشوند:

تصور کنید یک اتاق پر از افراد در یک ویدیو دارید، و پس از اجرای تفریق پسزمینه، فقط افراد باقی میمانند. اکنون می توانید فقط با افراد کار کنید، که به طور قابل توجهی تشخیص بیشتر اشیاء را ساده می کند. اگرچه این روش شبح خوبی از اشیا را ارائه می دهد، اما بر اساس یک پس زمینه ثابت است، بنابراین هر تغییری در تصویر به عنوان پیش زمینه علامت گذاری می شود. علاوه بر این، مدل پس زمینه باید در طول زمان به روز شود تا با تغییرات صحنه پویا، سازگار شود. چندین الگوریتم برای رسیدگی به این چالشها معرفی شدهاند، از جمله ترکیب گاوسیها (MOG) و تقسیمبندی پیشزمینه، MOG تطبیقی و یک مدل گاوسی دوگانه.
الگوریتم های تفریق پس زمینه برای دوربین های متحرک را می توان به دو دسته تقسیم کرد:
روشهای مبتنی بر مسیر نقطهای، نقاط را برای استخراج مسیرها و خوشهبندی آنها بر اساس شباهت حرکت دنبال میکنند. این نوع روش ها شامل رویکردهایی مانند طبقه بندی مسیر است.
روشهای تقسیمبندی مکانی-زمانی تقسیمبندی تصویر را به حوزه مکانی-زمانی گسترش میدهند، جایی که جنبه مکانی شباهت معنایی را در فضای تصویر تعیین میکند و جنبه زمانی حرکت پیکسلهای شی را در طول زمان مرتبط میکند. این بدان معناست که ما باید روابط مکانی-زمانی پیکسل ها را برای تشخیص یک شی متحرک در نظر بگیریم. با این حال، بسیاری از روش ها تنها جنبه زمانی را برای تشخیص اجسام متحرک در نظر می گیرند.
طبقه بندی مسیر
طبقه بندی مسیر یک روش تشخیص جسم متحرک برای دوربین های متحرک است. این روش شامل مراحلی مانند انتخاب نقاط خاص در اولین فریم ویدیویی و سپس به دست آوردن یک مسیر است که نشان دهنده جابجایی های پیوسته در هر نقطه در فریم های مجاور است.

در پایان، یک رویکرد خوشهبندی برای طبقهبندی مسیرها به مناطق پسزمینه و پیشزمینه که در آن اجسام متحرک قابل تشخیص هستند، اعمال میشود.
اما، رویکرد خوشهبندی در پرداختن به نقاط نزدیک به تقاطع دو زیرفضا با مشکلاتی مواجه است. به همین دلیل است که با مقایسه مسیرهای منطقه با مسیرهای نقطه ای، تقسیم بندی منطقه برای برچسب زدن مناطق با نقاطی که نه به پیش زمینه و نه به پس زمینه تعلق دارند، اعمال می شود. با این حال، الگوریتم watershed که برای ذخیره قطعات مرزی استفاده می شود اغلب منجر به تغییر شکل، شکل و کانتور یک شی می شود. بنابراین، مسیر نقطه ای مشکلات دسته بندی نادرست و یا عملکرد بد در حفظ لبه اجسام را دارد.
تفاوت زمانی و مکانی
تفاوت زمانی یکی از محبوب ترین روش ها برای تشخیص اجسام متحرک در فیلم های ضبط شده با دوربین متحرک است. برخلاف تشخیص اجسام متحرک در فیلم های ضبط شده توسط یک دوربین ثابت، نیازی به ساخت مدل پس زمینه از قبل نیست، زیرا پس زمینه همیشه در حال تغییر است. روش تفاضل زمانی هدف متحرک را با استفاده از روش تفاوت پیکسلی در فریم های متوالی شناسایی می کند.
تفاوت مکانی شامل رویکردهای مختلفی بر اساس شباهت معنایی پیکسل ها در فریم های ویدئویی است. بنابراین، میتواند یک رابطه مکانی پایدار بین پیکسلهای فعلی و پیکسلهای انتخابی تصادفی در قاب فعلی وجود داشته باشد. این رویکرد مبنای یک الگوریتم تشخیص شد که یک مجموعه نمونه مکانی را برای هر پیکسل مجزا تنظیم میکند و اجماع اختلاف نمونه مکانی را ایجاد و تعریف میکند.
اخیراً، رویکرد جدیدی مبتنی بر فیلتر مکانی و تفریق پسزمینه مبتنی بر منطقه معرفی شده است. فیلتر مکانی پیشنهادی، از انسجام مکانی در همسایگی پیکسلی مناطق پیشزمینه استفاده میکند. برای از بین بردن نویز و قسمت های تار اجسام متحرک عالی عمل می کند. این فیلتر مکانی را می توان به راحتی با گنجاندن همسایه های زمانی به یک فیلتر مکانی-زمانی گسترش داد.
اگرچه نتایج تقسیم بندی مکانی-زمانی از نظر زمانی سازگار هستند، این روش ها اغلب با مشکلات هموارسازی بیش از حد روبرو هستن
تفاوت قاب
رویکرد تفاوت فریم مبتنی بر تشخیص اجسام متحرک با محاسبه اختلاف پیکسل به پیکسل دو فریم متوالی در یک توالی ویدیو است. این تفاوت سپس با یک آستانه مقایسه می شود تا مشخص شود آیا یک شی در پس زمینه یا پیش زمینه است. این روش با تغییرات پویا در پسزمینه بسیار سازگار به نظر میرسد، زیرا فقط جدیدترین فریمها را محاسبه میکند. با این حال، این رویکرد همچنین چالش هایی دارد. به ویژه، ممکن است اشیایی را که خیلی سریع حرکت می کنند یا ناگهان متوقف می شوند، به اشتباه تشخیص دهد چون آخرین فریم دنباله ویدیو به عنوان مرجع در نظر گرفته می شود که از فریم فعلی کم می شود این اتفاق میفتد.

جریان نوری
روش جریان نوری از بردارهای جریان اجسام متحرک در طول زمان برای تشخیص آنها در پس زمینه استفاده می کند. برای هر پیکسل، بردار سرعت بسته به جهت حرکت جسم و سرعت حرکت پیکسل در تصویر محاسبه می شود. جریان نوری همچنین می تواند برای تشخیص اجسام ساکن و متحرک در یک قاب استفاده شود. این رویکرد بر اساس اصول زیر بردار حرکت است:
- ترجمه عمیق مجموعه ای از بردارها را با تمرکز مشترک بسط ایجاد می کند.
- ترجمه در یک فاصله ثابت به عنوان طیفی از بردارهای حرکت موازی منعکس می شود.
- چرخش عمود بر محور دید، یک یا چند مجموعه از بردارها را تشکیل می دهد که از پاره های خط مستقیم شروع می شوند.
- چرخش در فاصله ثابت منجر به انواع بردارهای حرکت متحدالمرکز می شود.

این روش از دقت تشخیص بالایی برخوردار است زیرا حتی زمانی که دوربین در حال لرزش است نیز با آن مقابله می کند. با این حال، جریان نوری وقت گیر است، زیرا نیاز به محاسبه سرعت و جهت ظاهری هر پیکسل در یک فریم ویدیویی دارد. این روش را می توان برای تشخیص اشیاء متحرک در زمان واقعی استفاده کرد، اما به نویز بسیار حساس است و ممکن است به سخت افزار تخصصی نیاز داشته باشد.
7 چالش حیاتی در تشخیص اجسام متحرک
چالشهای تشخیص اجسام متحرک در یک ویدیو به محیطی که این فیلم در آن ضبط میشود و دوربین مورد استفاده بستگی دارد. ویدئویی که در داخل خانه گرفته شده است ممکن است حاوی سایه ها و تغییرات ناگهانی در نور باشد.
اگر یک ویدیو در فضای باز فیلمبرداری شود، چالش های بیشتری وجود دارد، زیرا محیط غیر قابل کنترل است. در این مورد، اغلب باید با پس زمینه های پیچیده، حرکت ناگهانی، انسداد و سایه های متحرک سروکار داشته باشیم. علاوه بر این، اگر فیلمی با دوربین متحرک ضبط شود، ممکن است اجسام تار در حرکت یا اعوجاج جزئی لنز وجود داشته باشد.
نگاهی دقیق تر به برخی از رایج ترین چالش ها:
چالش های روشنایی
تغییرات ناگهانی در نور ممکن است منجر به تشخیص اشیا مثبت کاذب شود. به عنوان مثال، در داخل خانه ممکن است به طور ناگهانی روشن یا خاموش شدن چراغ ها وجود داشته باشد یا منبع نور ممکن است حرکت کند. در خارج از منزل، ممکن است تغییرات سریعی از نور شدید خورشید تا هوای ابری یا بارانی، سایههایی که روی اجسام متحرک میافتند و بازتابهایی از سطوح روشن وجود داشته باشد. علاوه بر این، همیشه این خطر وجود دارد که پسزمینه همرنگ یک جسم متحرک باشد.
به همین دلیل است که مدل پسزمینه باید با تغییرات روشنایی و تغییرات ناگهانی روشنایی سازگار باشد تا از اشتباه در تشخیص اجسام متحرک جلوگیری شود.
برای مقابله با این چالشها، محققان راهحلهای مختلفی از جمله بهروزرسانی مداوم مدلهای پسزمینه، استفاده از ویژگیهای محلی یک شی متحرک، و استخراج ویژگیهای دامنه Cepstral ارائه کردهاند.

2. تغییر در ظاهر اجسام متحرک
همه اشیا در زندگی واقعی سه بعدی هستند و ممکن است هنگام حرکت ظاهر خود را تغییر دهند. به عنوان مثال، نمای جلوی خودرو با نمای جانبی متفاوت است. اگر اشیا افراد باشند، ممکن است حالات چهره یا لباسی که می پوشند را نیز تغییر دهند. علاوه بر این، ممکن است اشیاء غیر صلب مانند دست انسان وجود داشته باشد که با گذشت زمان شکل خود را تغییر می دهد. همه این تغییرات در اشیا چالشی را برای الگوریتم های ردیابی اشیا ایجاد می کند. روش های مختلفی برای غلبه بر این چالش پیشنهاد شده است. موثرترین آنها مواردی هستند که بر ردیابی اشیاء مفصلی تمرکز می کنند:
- مدل ظاهر تطبیقی مبتنی بر چارچوب Wandering-Stable-Lost است. این مدل با استفاده از یک مدل مخلوط که از یک الگوی تطبیقی، تطبیق فریم به فریم و یک فرآیند دورافتاده تشکیل شده است، ظاهری سه بعدی ایجاد میکند.
- یادگیری الگوهای حرکتی با یادگیری عمیق امکان جداسازی اجسام مستقل را با استفاده از یک مدل قابل آموزش که جریان نوری را به یک شبکه کاملاً کانولوشن منتقل میکند، میدهد.

3. وجود حرکت پیش بینی نشده
وقتی صحبت از نظارت بر ترافیک می شود، مشکل تشخیص اشیا با حرکت ناگهانی وجود دارد. به عنوان مثال، استارت jackrabbit یک وسیله نقلیه ممکن است باعث شود ردیاب جسم را گم کند یا باعث ایجاد خطا در الگوریتم ردیابی شود. منبع دیگر مشکلات تشخیص اشیایی هستند که خیلی کند یا خیلی سریع حرکت می کنند. اگر یک شی به کندی حرکت کند، روش تفاضل زمانی قادر به تشخیص بخشهای جسم نخواهد بود. با یک شی سریع، دنباله ای از مناطق ارواح در پشت جسم در ماسک پیش زمینه وجود خواهد داشت. حرکت متناوب – زمانی که یک جسم حرکت می کند، سپس برای مدتی می ایستد و دوباره شروع به حرکت می کند – نیز چالش برانگیز است.

برای غلبه بر چالش سرعت حرکت غیرقابل پیش بینی، محققان راه حل هایی از قبیل:
- ادغام الگوریتم Wang-Landau
- معرفی نمونهگیری به شدت تطبیقی زنجیره مارکوف مونت کارلو
- ادغام دینامیک Hamiltonian
- و بیشتر
4. انسداد
انسداد همچنین می تواند تشخیص و ردیابی اجسام متحرک در یک ویدیو را بسیار دشوارتر کند. به عنوان مثال، هنگامی که یک وسیله نقلیه در جاده رانندگی می کند، ممکن است پشت شاخه های درخت یا اشیاء دیگر پنهان شود. اشیاء در یک جریان ویدئو ممکن است به طور کامل یا جزئی مسدود شوند، که نشان دهنده یک چالش اضافی برای روشهای ردیابی شی است.

چندین راه برای مقابله با انسداد وجود دارد:
- با استفاده از یک الگوریتم expectation-maximization
- حفظ مدلهای ظاهری اجسام متحرک در طول زمان
- با در نظر گرفتن اطلاعات مربوط به زمینه مکانی-زمانی
- ادغام یک مدل قطعه قابل تغییر شکل در یک ردیاب چند هسته
5. پس زمینه های پیچیده
محیط های طبیعی در فضای باز ممکن است برای بسیاری از الگوریتم های تشخیص اجسام متحرک بسیار پیچیده باشد. دلیل این امر این است که پسزمینه ممکن است بسیار بافت داشته باشد یا حاوی قطعات متحرکی باشد که نباید به عنوان اشیا شناسایی شوند. به عنوان مثال، فواره ها، ابرها، امواج و درختان در حال تاب خوردن حرکات نامنظم یا دوره ای را در پس زمینه ایجاد می کنند. مقابله با چنین پویایی در پس زمینه چالش برانگیز است.

پیشنهاد شده است که این مشکل را می توان با یک مدل رگرسیون خودکار، اعمال یک قانون تصمیم بیزی برای ویژگی های آماری پیکسل های تصویر، یا با استفاده از یک مدل پس زمینه تطبیقی بر اساس تخمین حرکت هموگرافی برطرف کرد.
6.سایه های متحرک
قبلاً اشاره کردهایم که ممکن است سایهها روی اجسام متحرک بیفتند، اما اگر خود اجسام سایه بیاندازند چه؟ این سایهها نیز حرکت میکنند و تشخیص آنها از اجسام متحرکی که آنها را ایجاد میکنند دشوار است. به ویژه، آنها از فعالیت های بیشتر پردازش تصویر مانند جداسازی منطقه و طبقه بندی که باید پس از تفریق پس زمینه انجام شود، جلوگیری می کنند.

از جمله روشهای پیشنهادی برای غلبه بر این مشکل، یک مدل مخلوط گاوسی اصلاحشده و یک الگوریتم حذف سایه بر اساس بافت و ویژگیهای شی است.
7. مشکلات دوربین
علاوه بر چالش های مرتبط با شی، مسائل مربوط به محدودیت های دوربین نیز وجود دارد. ویدئو ممکن است توسط دوربینهای لرزان یا دوربینهایی با وضوح پایین یا اطلاعات رنگی محدود ضبط شود. در نتیجه، یک دنباله ویدیو ممکن است حاوی آرتیفکت های بلوکی باشد که در اثر فشرده سازی یا تاری ناشی از ارتعاشات ایجاد می شود. همه این مصنوعات میتوانند الگوریتمهای تشخیص شی متحرک را گیج کنند، اگر برای مقابله با فیلمهای با کیفیت پایین آموزش ندیده باشند. راه حل های بسیار متنوعی برای غلبه بر چالش های دوربین پیشنهاد شده است، اما این مشکل همچنان وجود دارد.

حل چالش های تشخیص شی متحرک با یادگیری عمیق
به لطف در دسترس بودن مجموعه دادههای ویدیویی بزرگ مانند CDnet و Kinetics و چارچوبهای یادگیری عمیق مانند TensorFlow و Caffe، از شبکههای عصبی شروع برای مقابله با چالشهای تشخیص شی متحرک استفاده شده است. در این بخش،بررسی میکنیم که چه زمانی باید از یادگیری عمیق برای تشخیص اشیا استفاده کنید، و چگونه میتوان از شبکههای عصبی مختلف برای رفع اشکالات روشهای تشخیص اجسام متحرک و غلبه بر چالشهای کلی تشخیص اجسام متحرک در یک دنباله ویدیویی استفاده کرد.
شبکه های عصبی کانولوشنال
مدلهای شبکه عصبی کانولوشنال (CNN) قبلاً نتایج چشمگیری در تشخیص تصویر ارائه کردهاند. کاربرد آنها برای پردازش ویدیو با نمایش فضا و زمان به عنوان ابعاد معادل داده های ورودی و انجام کانولوشن های سه بعدی برای این ابعاد به طور همزمان امکان پذیر شده است. این امر با انحراف یک هسته سه بعدی به یک مکعب حاصل می شود که از روی هم قرار دادن چندین فریم به هم پیوسته تشکیل شده است.

استفاده از مدل CNN برای تفریق پسزمینه، عملکرد بهتری را برای دوربینهایی با حرکت نرم در برنامههای همزمان نشان میدهد. علاوه بر این، یک مدل CNN از قبل آموزشدیده میتواند برای تشخیص مسیر حرکت اجسام در یک ویدیوی بدون محدودیت به خوبی کار کند.
شبکه های عصبی بازگشتی
مدلهای شبکه عصبی بازگشتی (RNN) لایههای پیچشی و بازگشت زمانی را ترکیب میکنند. مدلهای RNN طولانی هم از نظر مکانی و هم از لحاظ زمانی عمیق هستند، بنابراین میتوان آنها را برای کارهای بینایی مختلف شامل ورودیها و خروجیهای متوالی، از جمله شناسایی فعالیت یک شی که در اعماق زمان است، اعمال کرد.
یک RNN میتواند از رابطه ترتیب زمانی بین قرائتهای حسگر استفاده کند، بنابراین این مدلها برای تشخیص حرکات شی کوتاه با نظم طبیعی توصیه میشوند. در مقابل، مدلهای CNN در یادگیری ویژگیهای عمیق موجود در الگوهای بازگشتی بهتر هستند، بنابراین میتوان از آنها برای تشخیص حرکات تکراری طولانیمدت استفاده کرد.
حافظه کوتاه مدت_بلند مدت (LSTM) یک نسخه بهبودیافته از RNN است که نه تنها می تواند مکان ها و دسته های اشیاء را طبقه بندی کند، بلکه می تواند ویژگی هایی را برای نمایش هر شی خروجی مرتبط کند. به عنوان مثال، یک مدل LSTM همراه با یادگیری تقویتی عمیق را می توان با موفقیت برای ردیابی چند شیء در ویدیو به کار برد. LSTM همچنین میتواند اشیاء را با فریمهای مختلف مرتبط کند و نتایج عالی را در تشخیص اجسام متحرک در جریانهای ویدیویی آنلاین ارائه دهد.
شبکه های عصبی عمیق
تفریق پسزمینه بر اساس مدلهای شبکه عصبی عمیق (DNN) نتایج بسیار خوبی در استخراج اجسام متحرک از پسزمینههای پویا نشان داده است. این رویکرد میتواند بهطور خودکار ویژگیهای پسزمینه را بیاموزد و از مدلسازی پسزمینه معمولی بر اساس ویژگیهای صنایع دستی بهتر عمل کند.
علاوه بر این، مدلهای DNN را میتوان برای تشخیص رویدادهای غیرعادی در ویدیوها، مانند سرقت، دعوا، و تصادف استفاده کرد. این را می توان با تجزیه و تحلیل ویژگی های یک جسم متحرک با توجه به سرعت، جهت گیری، آنتروپی و نقاط علاقه(interest points) به دست آورد.
شبکه های متخاصم مولد
مدلهای شبکه متخاصم مولد (GAN) برای حل محدودیتهای جریان نوری برای تشخیص مرزهای حرکت نزدیک به روشی نیمهنظارتشده به کار گرفته شدهاند. این رویکرد می تواند جریان نوری را با استفاده از داده های برچسب دار و بدون برچسب در یک چارچوب یادگیری نیمه نظارت شده پیش بینی کند. یک GAN می تواند خطاهای تاب جریان را با مقایسه جریان حقیقت زمین و جریان تخمینی تشخیص دهد که به طور قابل توجهی دقت تخمین جریان را در اطراف مرزهای حرکت بهبود می بخشد.
یادگیری عمیق در مقابل روش های سنتی
با توجه به بحثی که کردیم، واضح است که شبکههای عصبی با چالشهای تشخیص شی متحرک بهتر از الگوریتمهای سنتی کنار میآیند. بیایید توضیح دهیم که چرا
- یادگیری عمیق با محاسبه بر روی منابع قدرتمندتر در وظایف پردازش ویدیو بهتر عمل می کند: GPU به جای CPU.
- CNN ها و مدل های بهبود یافته آن ها دارای معماری عمیق تری هستند که قابلیت های بیانی به طور نمایی بیشتر را تضمین می کند.
- یادگیری عمیق امکان ترکیب چندین کار مرتبط را فراهم می کند. به عنوان مثال، Fast-RCNN می تواند هم اشیاء متحرک را تشخیص دهد و هم محلی سازی را به طور همزمان انجام دهد.
- CNN ها و شبکه های عصبی بهبودیافته ظرفیت زیادی برای یادگیری دارند، که به آنها اجازه می دهد چالش های تشخیص اشیا را به عنوان مشکلات تبدیل داده با ابعاد بالا بازنویسی کنند و آنها را حل کنند.
- به لطف ساختار چند مرحلهای سلسله مراتبی، یک مدل یادگیری عمیق میتواند عوامل پنهان دادههای ورودی را با اعمال نگاشتهای غیرخطی چندسطحی آشکار کند.
- مدلهای CNN برای کارهایی که نه تنها شامل تشخیص اجسام متحرک، بلکه طبقهبندی و انتخاب مناطق مورد علاقه است، بهتر عمل میکنند.
نتیجه
تشخیص اجسام متحرک در جریان های ویدئویی یک کار امیدوارکننده و در عین حال چالش برانگیز برای توسعه دهندگان مدرن است. تشخیص اشیاء در یک ویدیو را می توان در بسیاری از زمینه ها – از سیستم های نظارتی گرفته تا ماشین های خودران – برای جمع آوری و تجزیه و تحلیل اطلاعات و سپس تصمیم گیری بر اساس آن اعمال کرد.
در این مقاله، چالشهای تشخیص اجسام متحرک در ویدئو را مورد تاکید قرار دادهایم و محدودیتهای روشهای تشخیص موجود را نشان دادهایم. خوشبختانه، شبکه های عصبی امکانات زیادی را برای بهبود دقت تشخیص شی متحرک در اختیار ما قرار می دهند، زیرا دسترسی به منابع محاسباتی بیشتری را فراهم می کنند.