یادگیری ماشین

یادگیری عمیق و چالش های تشخیص اجسام متحرک در ویدئو

تشخیص اجسام متحرک یک جزء ضروری برای کاربردهای مختلف بینایی کامپیوتری و پردازش تصویر است: تشخیص عابر پیاده، نظارت بر ترافیک، نظارت امنیتی و غیره. اگرچه جدیدترین روش‌های تشخیص اجسام متحرک نتایج امیدوارکننده‌ای ارائه می‌دهند، تشخیص دقیق هنوز به دلیل چالش‌های مختلف مانند روشنایی، مسائل، انسداد و اشیاء پس زمینه در یک محیط کنترل نشده دشوار است.

در این مقاله، رایج‌ترین چالش‌های تشخیص دقیق اجسام متحرک را مورد بحث قرار می‌دهیم، مروری بر روش‌های موجود برای تشخیص اجسام متحرک ارائه می‌کنیم و توضیح می‌دهیم که چگونه راه‌حلها را می‌توان با استفاده از یادگیری عمیق بهبود بخشید.

اجسام متحرکی که باید در یک ویدیو شناسایی شوند می توانند افراد، حیوانات یا وسایل نقلیه از جمله اتومبیل، کامیون، هواپیما و کشتی باشند. بیشتر این اجسام سفت و سخت هستند: شکل آنها تغییر نمی کند. با این حال، اجسام غیر صلب یا اجسامی نیز وجود دارند که می توانند شکل خود را تغییر دهند. افراد و حیوانات هنگام انجام اقدامات و ژست گرفتن مدام حالت خود را تغییر می دهند. اجسام دیگر مانند آبشارها، طوفان ها، ابرها و درختان در حال نوسان نیز حرکت می کنند، اما باید توسط یک الگوریتم تشخیص به عنوان بخشی از پس زمینه در نظر گرفته شوند.

یک ویدیو از فریم‌های متوالی تشکیل شده است و تکنیک‌های پردازش تصویر برای تشخیص یک شی در هر فریم و سپس برقراری روابط بین پیکسل‌ها در فریم‌های مختلف برای شناسایی اشیایی که حرکت می‌کنند وجود دارد. این نوع تجزیه و تحلیل ویدئویی شامل چهار مرحله زیر است:

  • طبقه بندی نقاط ویژگی (Feature point classification)
  • تشخیص شی متحرک (Moving object detection)
  • ردیابی شی متحرک (Moving object tracking)
  • تجزیه و تحلیل شی متحرک (Moving object analysis)
شکل 1. فرآیند تجزیه و تحلیل ویدئو

در این مقاله، تنها روش‌هایی را در نظر خواهیم گرفت که برای تشخیص شی متحرک در یک تصویر ویدیویی استفاده می‌شود.

روش های تشخیص اجسام متحرک

اولین گام در تجزیه و تحلیل ویدیو، شناسایی اشیاء هدف و خوشه بندی پیکسل های آنها است. در این بخش، رویکردهای زیر را برای تشخیص اجسام متحرک در نظر خواهیم گرفت:

  • تفریق پس زمینه (Background subtraction)
  • تفاوت زمانی (Temporal differencing)
  • تفاوت قاب (Frame differencing)
  • جریان نوری (Optical flow)
شکل 2. رویکردهای سنتی برای تشخیص جسم متحرک

تفریق پس زمینه و مدل سازی

تفریق پس‌زمینه، همچنین به عنوان تشخیص پیش‌زمینه شناخته می‌شود، روشی است که اغلب برای تقسیم‌بندی حرکت در صحنه‌های ایستا استفاده می‌شود. با استفاده از مدل‌سازی ریاضی یا تئوری احتمال، اجسام متحرک پیش‌زمینه پیکسل به پیکسل از یک تصویر پس‌زمینه ثابت کم می‌شوند. تصویر پس‌زمینه یا مدل، با میانگین‌گیری تصاویر در طول زمان ایجاد می‌شود و پیش‌زمینه استخراج‌شده می‌تواند برای تشخیص اشیا استفاده شود. در زیر، می‌توانید ببینید که چه تکنیک‌هایی برای یک فریم ویدیویی در حین تفریق پس‌زمینه اعمال می‌شوند:

شکل 3. مفهوم کلی تفریق پس زمینه

تصور کنید یک اتاق پر از افراد در یک ویدیو دارید، و پس از اجرای تفریق پس‌زمینه، فقط افراد باقی می‌مانند. اکنون می توانید فقط با افراد کار کنید، که به طور قابل توجهی تشخیص بیشتر اشیاء را ساده می کند. اگرچه این روش شبح خوبی از اشیا را ارائه می دهد، اما بر اساس یک پس زمینه ثابت است، بنابراین هر تغییری در تصویر به عنوان پیش زمینه علامت گذاری می شود. علاوه بر این، مدل پس زمینه باید در طول زمان به روز شود تا با تغییرات صحنه پویا، سازگار شود. چندین الگوریتم برای رسیدگی به این چالش‌ها معرفی شده‌اند، از جمله ترکیب گاوسی‌ها (MOG) و تقسیم‌بندی پیش‌زمینه، MOG تطبیقی ​​و یک مدل گاوسی دوگانه.

الگوریتم های تفریق پس زمینه برای دوربین های متحرک را می توان به دو دسته تقسیم کرد:

روش‌های مبتنی بر مسیر نقطه‌ای، نقاط را برای استخراج مسیرها و خوشه‌بندی آن‌ها بر اساس شباهت حرکت دنبال می‌کنند. این نوع روش ها شامل رویکردهایی مانند طبقه بندی مسیر است.

روش‌های تقسیم‌بندی مکانی-زمانی تقسیم‌بندی تصویر را به حوزه مکانی-زمانی گسترش می‌دهند، جایی که جنبه مکانی شباهت معنایی را در فضای تصویر تعیین می‌کند و جنبه زمانی حرکت پیکسل‌های شی را در طول زمان مرتبط می‌کند. این بدان معناست که ما باید روابط مکانی-زمانی پیکسل ها را برای تشخیص یک شی متحرک در نظر بگیریم. با این حال، بسیاری از روش ها تنها جنبه زمانی را برای تشخیص اجسام متحرک در نظر می گیرند.

طبقه بندی مسیر

طبقه بندی مسیر یک روش تشخیص جسم متحرک برای دوربین های متحرک است. این روش شامل مراحلی مانند انتخاب نقاط خاص در اولین فریم ویدیویی و سپس به دست آوردن یک مسیر است که نشان دهنده جابجایی های پیوسته در هر نقطه در فریم های مجاور است.

شکل 4. مفهوم کلی تکنیک طبقه بندی مسیر

در پایان، یک رویکرد خوشه‌بندی برای طبقه‌بندی مسیرها به مناطق پس‌زمینه و پیش‌زمینه که در آن اجسام متحرک قابل تشخیص هستند، اعمال می‌شود.

اما، رویکرد خوشه‌بندی در پرداختن به نقاط نزدیک به تقاطع دو زیرفضا با مشکلاتی مواجه است. به همین دلیل است که با مقایسه مسیرهای منطقه با مسیرهای نقطه ای، تقسیم بندی منطقه برای برچسب زدن مناطق با نقاطی که نه به پیش زمینه و نه به پس زمینه تعلق دارند، اعمال می شود. با این حال، الگوریتم watershed که برای ذخیره قطعات مرزی استفاده می شود اغلب منجر به تغییر شکل، شکل و کانتور یک شی می شود. بنابراین، مسیر نقطه ای مشکلات دسته بندی نادرست و یا عملکرد بد در حفظ لبه اجسام را دارد.

تفاوت زمانی و مکانی

تفاوت زمانی یکی از محبوب ترین روش ها برای تشخیص اجسام متحرک در فیلم های ضبط شده با دوربین متحرک است. برخلاف تشخیص اجسام متحرک در فیلم های ضبط شده توسط یک دوربین ثابت، نیازی به ساخت مدل پس زمینه از قبل نیست، زیرا پس زمینه همیشه در حال تغییر است. روش تفاضل زمانی هدف متحرک را با استفاده از روش تفاوت پیکسلی در فریم های متوالی شناسایی می کند.

تفاوت مکانی شامل رویکردهای مختلفی بر اساس شباهت معنایی پیکسل ها در فریم های ویدئویی است. بنابراین، می‌تواند یک رابطه مکانی پایدار بین پیکسل‌های فعلی و پیکسل‌های انتخابی تصادفی در قاب فعلی وجود داشته باشد. این رویکرد مبنای یک الگوریتم تشخیص شد که یک مجموعه نمونه مکانی را برای هر پیکسل مجزا تنظیم می‌کند و اجماع اختلاف نمونه مکانی را ایجاد و تعریف می‌کند.

اخیراً، رویکرد جدیدی مبتنی بر فیلتر مکانی و تفریق پس‌زمینه مبتنی بر منطقه معرفی شده است. فیلتر مکانی پیشنهادی، از انسجام مکانی در همسایگی پیکسلی مناطق پیش‌زمینه استفاده می‌کند. برای از بین بردن نویز و قسمت های تار اجسام متحرک عالی عمل می کند. این فیلتر مکانی را می توان به راحتی با گنجاندن همسایه های زمانی به یک فیلتر مکانی-زمانی گسترش داد.

اگرچه نتایج تقسیم بندی مکانی-زمانی از نظر زمانی سازگار هستند، این روش ها اغلب با مشکلات هموارسازی بیش از حد روبرو هستن

تفاوت قاب

رویکرد تفاوت فریم مبتنی بر تشخیص اجسام متحرک با محاسبه اختلاف پیکسل به پیکسل دو فریم متوالی در یک توالی ویدیو است. این تفاوت سپس با یک آستانه مقایسه می شود تا مشخص شود آیا یک شی در پس زمینه یا پیش زمینه است. این روش با تغییرات پویا در پس‌زمینه بسیار سازگار به نظر می‌رسد، زیرا فقط جدیدترین فریم‌ها را محاسبه می‌کند. با این حال، این رویکرد همچنین چالش هایی دارد. به ویژه، ممکن است اشیایی را که خیلی سریع حرکت می کنند یا ناگهان متوقف می شوند، به اشتباه تشخیص دهد چون آخرین فریم دنباله ویدیو به عنوان مرجع در نظر گرفته می شود که از فریم فعلی کم می شود این اتفاق میفتد.

شکل 5. مفهوم کلی تفاوت قاب

جریان نوری

روش جریان نوری از بردارهای جریان اجسام متحرک در طول زمان برای تشخیص آنها در پس زمینه استفاده می کند. برای هر پیکسل، بردار سرعت بسته به جهت حرکت جسم و سرعت حرکت پیکسل در تصویر محاسبه می شود. جریان نوری همچنین می تواند برای تشخیص اجسام ساکن و متحرک در یک قاب استفاده شود. این رویکرد بر اساس اصول زیر بردار حرکت است:

  • ترجمه عمیق مجموعه ای از بردارها را با تمرکز مشترک بسط ایجاد می کند.
  • ترجمه در یک فاصله ثابت به عنوان طیفی از بردارهای حرکت موازی منعکس می شود.
  • چرخش عمود بر محور دید، یک یا چند مجموعه از بردارها را تشکیل می دهد که از پاره های خط مستقیم شروع می شوند.
  • چرخش در فاصله ثابت منجر به انواع بردارهای حرکت متحدالمرکز می شود.
شکل 6. مفهوم کلی جریان نوری

این روش از دقت تشخیص بالایی برخوردار است زیرا حتی زمانی که دوربین در حال لرزش است نیز با آن مقابله می کند. با این حال، جریان نوری وقت گیر است، زیرا نیاز به محاسبه سرعت و جهت ظاهری هر پیکسل در یک فریم ویدیویی دارد. این روش را می توان برای تشخیص اشیاء متحرک در زمان واقعی استفاده کرد، اما به نویز بسیار حساس است و ممکن است به سخت افزار تخصصی نیاز داشته باشد.

7 چالش حیاتی در تشخیص اجسام متحرک

چالش‌های تشخیص اجسام متحرک در یک ویدیو به محیطی که این فیلم در آن ضبط می‌شود و دوربین مورد استفاده بستگی دارد. ویدئویی که در داخل خانه گرفته شده است ممکن است حاوی سایه ها و تغییرات ناگهانی در نور باشد.

اگر یک ویدیو در فضای باز فیلمبرداری شود، چالش های بیشتری وجود دارد، زیرا محیط غیر قابل کنترل است. در این مورد، اغلب باید با پس زمینه های پیچیده، حرکت ناگهانی، انسداد و سایه های متحرک سروکار داشته باشیم. علاوه بر این، اگر فیلمی با دوربین متحرک ضبط شود، ممکن است اجسام تار در حرکت یا اعوجاج جزئی لنز وجود داشته باشد.

نگاهی دقیق تر به برخی از رایج ترین چالش ها:

چالش های روشنایی

تغییرات ناگهانی در نور ممکن است منجر به تشخیص اشیا مثبت کاذب شود. به عنوان مثال، در داخل خانه ممکن است به طور ناگهانی روشن یا خاموش شدن چراغ ها وجود داشته باشد یا منبع نور ممکن است حرکت کند. در خارج از منزل، ممکن است تغییرات سریعی از نور شدید خورشید تا هوای ابری یا بارانی، سایه‌هایی که روی اجسام متحرک می‌افتند و بازتاب‌هایی از سطوح روشن وجود داشته باشد. علاوه بر این، همیشه این خطر وجود دارد که پس‌زمینه همرنگ یک جسم متحرک باشد.

به همین دلیل است که مدل پس‌زمینه باید با تغییرات روشنایی و تغییرات ناگهانی روشنایی سازگار باشد تا از اشتباه در تشخیص اجسام متحرک جلوگیری شود.

برای مقابله با این چالش‌ها، محققان راه‌حل‌های مختلفی از جمله به‌روزرسانی مداوم مدل‌های پس‌زمینه، استفاده از ویژگی‌های محلی یک شی متحرک، و استخراج ویژگی‌های دامنه Cepstral ارائه کرده‌اند.

شکل 7. چالش روشنایی

2. تغییر در ظاهر اجسام متحرک

همه اشیا در زندگی واقعی سه بعدی هستند و ممکن است هنگام حرکت ظاهر خود را تغییر دهند. به عنوان مثال، نمای جلوی خودرو با نمای جانبی متفاوت است. اگر اشیا افراد باشند، ممکن است حالات چهره یا لباسی که می پوشند را نیز تغییر دهند. علاوه بر این، ممکن است اشیاء غیر صلب مانند دست انسان وجود داشته باشد که با گذشت زمان شکل خود را تغییر می دهد. همه این تغییرات در اشیا چالشی را برای الگوریتم های ردیابی اشیا ایجاد می کند. روش های مختلفی برای غلبه بر این چالش پیشنهاد شده است. موثرترین آنها مواردی هستند که بر ردیابی اشیاء مفصلی تمرکز می کنند:

  • مدل ظاهر تطبیقی ​​مبتنی بر چارچوب Wandering-Stable-Lost است. این مدل با استفاده از یک مدل مخلوط که از یک الگوی تطبیقی، تطبیق فریم به فریم و یک فرآیند دورافتاده تشکیل شده است، ظاهری سه بعدی ایجاد می‌کند.
  • یادگیری الگوهای حرکتی با یادگیری عمیق امکان جداسازی اجسام مستقل را با استفاده از یک مدل قابل آموزش که جریان نوری را به یک شبکه کاملاً کانولوشن منتقل می‌کند، می‌دهد.
شکل 8. چالش تغییر ظاهر

3. وجود حرکت پیش بینی نشده

وقتی صحبت از نظارت بر ترافیک می شود، مشکل تشخیص اشیا با حرکت ناگهانی وجود دارد. به عنوان مثال، استارت jackrabbit یک وسیله نقلیه ممکن است باعث شود ردیاب جسم را گم کند یا باعث ایجاد خطا در الگوریتم ردیابی شود. منبع دیگر مشکلات تشخیص اشیایی هستند که خیلی کند یا خیلی سریع حرکت می کنند. اگر یک شی به کندی حرکت کند، روش تفاضل زمانی قادر به تشخیص بخش‌های جسم نخواهد بود. با یک شی سریع، دنباله ای از مناطق ارواح در پشت جسم در ماسک پیش زمینه وجود خواهد داشت. حرکت متناوب – زمانی که یک جسم حرکت می کند، سپس برای مدتی می ایستد و دوباره شروع به حرکت می کند – نیز چالش برانگیز است.

شکل 9. حرکت ناگهانی

برای غلبه بر چالش سرعت حرکت غیرقابل پیش بینی، محققان راه حل هایی از قبیل:

  • ادغام الگوریتم Wang-Landau
  • معرفی نمونه‌گیری به شدت تطبیقی ​​زنجیره مارکوف مونت کارلو
  • ادغام دینامیک Hamiltonian
  • و بیشتر

4. انسداد

انسداد همچنین می تواند تشخیص و ردیابی اجسام متحرک در یک ویدیو را بسیار دشوارتر کند. به عنوان مثال، هنگامی که یک وسیله نقلیه در جاده رانندگی می کند، ممکن است پشت شاخه های درخت یا اشیاء دیگر پنهان شود. اشیاء در یک جریان ویدئو ممکن است به طور کامل یا جزئی مسدود شوند، که نشان دهنده یک چالش اضافی برای روش‌های ردیابی شی است.

شکل 10. چالش انسداد

چندین راه برای مقابله با انسداد وجود دارد:

  • با استفاده از یک الگوریتم expectation-maximization
  • حفظ مدل‌های ظاهری اجسام متحرک در طول زمان
  • با در نظر گرفتن اطلاعات مربوط به زمینه مکانی-زمانی
  • ادغام یک مدل قطعه قابل تغییر شکل در یک ردیاب چند هسته

5. پس زمینه های پیچیده

محیط های طبیعی در فضای باز ممکن است برای بسیاری از الگوریتم های تشخیص اجسام متحرک بسیار پیچیده باشد. دلیل این امر این است که پس‌زمینه ممکن است بسیار بافت داشته باشد یا حاوی قطعات متحرکی باشد که نباید به عنوان اشیا شناسایی شوند. به عنوان مثال، فواره ها، ابرها، امواج و درختان در حال تاب خوردن حرکات نامنظم یا دوره ای را در پس زمینه ایجاد می کنند. مقابله با چنین پویایی در پس زمینه چالش برانگیز است.

شکل 11. پس زمینه پیچیده

پیشنهاد شده است که این مشکل را می توان با یک مدل رگرسیون خودکار، اعمال یک قانون تصمیم بیزی برای ویژگی های آماری پیکسل های تصویر، یا با استفاده از یک مدل پس زمینه تطبیقی ​​بر اساس تخمین حرکت هموگرافی برطرف کرد.

6.سایه های متحرک

قبلاً اشاره کرده‌ایم که ممکن است سایه‌ها روی اجسام متحرک بیفتند، اما اگر خود اجسام سایه بیاندازند چه؟ این سایه‌ها نیز حرکت می‌کنند و تشخیص آن‌ها از اجسام متحرکی که آنها را ایجاد می‌کنند دشوار است. به ویژه، آنها از فعالیت های بیشتر پردازش تصویر مانند جداسازی منطقه و طبقه بندی که باید پس از تفریق پس زمینه انجام شود، جلوگیری می کنند.

شکل 12. چالش سایه

از جمله روش‌های پیشنهادی برای غلبه بر این مشکل، یک مدل مخلوط گاوسی اصلاح‌شده و یک الگوریتم حذف سایه بر اساس بافت و ویژگی‌های شی است.

7. مشکلات دوربین

علاوه بر چالش های مرتبط با شی، مسائل مربوط به محدودیت های دوربین نیز وجود دارد. ویدئو ممکن است توسط دوربین‌های لرزان یا دوربین‌هایی با وضوح پایین یا اطلاعات رنگی محدود ضبط شود. در نتیجه، یک دنباله ویدیو ممکن است حاوی آرتیفکت های بلوکی باشد که در اثر فشرده سازی یا تاری ناشی از ارتعاشات ایجاد می شود. همه این مصنوعات می‌توانند الگوریتم‌های تشخیص شی متحرک را گیج کنند، اگر برای مقابله با فیلم‌های با کیفیت پایین آموزش ندیده باشند. راه حل های بسیار متنوعی برای غلبه بر چالش های دوربین پیشنهاد شده است، اما این مشکل همچنان وجود دارد.

شکل 13. مشکلات دوربین

حل چالش های تشخیص شی متحرک با یادگیری عمیق

به لطف در دسترس بودن مجموعه داده‌های ویدیویی بزرگ مانند CDnet و Kinetics و چارچوب‌های یادگیری عمیق مانند TensorFlow و Caffe، از شبکه‌های عصبی شروع برای مقابله با چالش‌های تشخیص شی متحرک استفاده شده است. در این بخش،بررسی میکنیم که چه زمانی باید از یادگیری عمیق برای تشخیص اشیا استفاده کنید، و چگونه می‌توان از شبکه‌های عصبی مختلف برای رفع اشکالات روش‌های تشخیص اجسام متحرک و غلبه بر چالش‌های کلی تشخیص اجسام متحرک در یک دنباله ویدیویی استفاده کرد.

شبکه های عصبی کانولوشنال

مدل‌های شبکه عصبی کانولوشنال (CNN) قبلاً نتایج چشمگیری در تشخیص تصویر ارائه کرده‌اند. کاربرد آنها برای پردازش ویدیو با نمایش فضا و زمان به عنوان ابعاد معادل داده های ورودی و انجام کانولوشن های سه بعدی برای این ابعاد به طور همزمان امکان پذیر شده است. این امر با انحراف یک هسته سه بعدی به یک مکعب حاصل می شود که از روی هم قرار دادن چندین فریم به هم پیوسته تشکیل شده است.

شکل 14. مقایسه بصری کانولوشن دو بعدی و سه بعدی

استفاده از مدل CNN برای تفریق پس‌زمینه، عملکرد بهتری را برای دوربین‌هایی با حرکت نرم در برنامه‌های هم‌زمان نشان می‌دهد. علاوه بر این، یک مدل CNN از قبل آموزش‌دیده می‌تواند برای تشخیص مسیر حرکت اجسام در یک ویدیوی بدون محدودیت به خوبی کار کند.

شبکه های عصبی بازگشتی

مدل‌های شبکه عصبی بازگشتی (RNN) لایه‌های پیچشی و بازگشت زمانی را ترکیب می‌کنند. مدل‌های RNN طولانی هم از نظر مکانی و هم از لحاظ زمانی عمیق هستند، بنابراین می‌توان آن‌ها را برای کارهای بینایی مختلف شامل ورودی‌ها و خروجی‌های متوالی، از جمله شناسایی فعالیت یک شی که در اعماق زمان است، اعمال کرد.

یک RNN می‌تواند از رابطه ترتیب زمانی بین قرائت‌های حسگر استفاده کند، بنابراین این مدل‌ها برای تشخیص حرکات شی کوتاه با نظم طبیعی توصیه می‌شوند. در مقابل، مدل‌های CNN در یادگیری ویژگی‌های عمیق موجود در الگوهای بازگشتی بهتر هستند، بنابراین می‌توان از آنها برای تشخیص حرکات تکراری طولانی‌مدت استفاده کرد.

حافظه کوتاه مدت_بلند مدت (LSTM) یک نسخه بهبودیافته از RNN است که نه تنها می تواند مکان ها و دسته های اشیاء را طبقه بندی کند، بلکه می تواند ویژگی هایی را برای نمایش هر شی خروجی مرتبط کند. به عنوان مثال، یک مدل LSTM همراه با یادگیری تقویتی عمیق را می توان با موفقیت برای ردیابی چند شیء در ویدیو به کار برد. LSTM همچنین می‌تواند اشیاء را با فریم‌های مختلف مرتبط کند و نتایج عالی را در تشخیص اجسام متحرک در جریان‌های ویدیویی آنلاین ارائه دهد.

شبکه های عصبی عمیق

تفریق پس‌زمینه بر اساس مدل‌های شبکه عصبی عمیق (DNN) نتایج بسیار خوبی در استخراج اجسام متحرک از پس‌زمینه‌های پویا نشان داده است. این رویکرد می‌تواند به‌طور خودکار ویژگی‌های پس‌زمینه را بیاموزد و از مدل‌سازی پس‌زمینه معمولی بر اساس ویژگی‌های صنایع دستی بهتر عمل کند.

علاوه بر این، مدل‌های DNN را می‌توان برای تشخیص رویدادهای غیرعادی در ویدیوها، مانند سرقت، دعوا، و تصادف استفاده کرد. این را می توان با تجزیه و تحلیل ویژگی های یک جسم متحرک با توجه به سرعت، جهت گیری، آنتروپی و نقاط علاقه(interest points) به دست آورد.

شبکه های متخاصم مولد

مدل‌های شبکه متخاصم مولد (GAN) برای حل محدودیت‌های جریان نوری برای تشخیص مرزهای حرکت نزدیک به روشی نیمه‌نظارت‌شده به کار گرفته شده‌اند. این رویکرد می تواند جریان نوری را با استفاده از داده های برچسب دار و بدون برچسب در یک چارچوب یادگیری نیمه نظارت شده پیش بینی کند. یک GAN می تواند خطاهای تاب جریان را با مقایسه جریان حقیقت زمین و جریان تخمینی تشخیص دهد که به طور قابل توجهی دقت تخمین جریان را در اطراف مرزهای حرکت بهبود می بخشد.

یادگیری عمیق در مقابل روش های سنتی

با توجه به بحثی که کردیم، واضح است که شبکه‌های عصبی با چالش‌های تشخیص شی متحرک بهتر از الگوریتم‌های سنتی کنار می‌آیند. بیایید توضیح دهیم که چرا

  • یادگیری عمیق با محاسبه بر روی منابع قدرتمندتر در وظایف پردازش ویدیو بهتر عمل می کند: GPU به جای CPU.
  • CNN ها و مدل های بهبود یافته آن ها دارای معماری عمیق تری هستند که قابلیت های بیانی به طور نمایی بیشتر را تضمین می کند.
  • یادگیری عمیق امکان ترکیب چندین کار مرتبط را فراهم می کند. به عنوان مثال، Fast-RCNN می تواند هم اشیاء متحرک را تشخیص دهد و هم محلی سازی را به طور همزمان انجام دهد.
  • CNN ها و شبکه های عصبی بهبودیافته ظرفیت زیادی برای یادگیری دارند، که به آنها اجازه می دهد چالش های تشخیص اشیا را به عنوان مشکلات تبدیل داده با ابعاد بالا بازنویسی کنند و آنها را حل کنند.
  • به لطف ساختار چند مرحله‌ای سلسله مراتبی، یک مدل یادگیری عمیق می‌تواند عوامل پنهان داده‌های ورودی را با اعمال نگاشت‌های غیرخطی چندسطحی آشکار کند.
  • مدل‌های CNN برای کارهایی که نه تنها شامل تشخیص اجسام متحرک، بلکه طبقه‌بندی و انتخاب مناطق مورد علاقه است، بهتر عمل می‌کنند.

نتیجه

تشخیص اجسام متحرک در جریان های ویدئویی یک کار امیدوارکننده و در عین حال چالش برانگیز برای توسعه دهندگان مدرن است. تشخیص اشیاء در یک ویدیو را می توان در بسیاری از زمینه ها – از سیستم های نظارتی گرفته تا ماشین های خودران – برای جمع آوری و تجزیه و تحلیل اطلاعات و سپس تصمیم گیری بر اساس آن اعمال کرد.

در این مقاله، چالش‌های تشخیص اجسام متحرک در ویدئو را مورد تاکید قرار داده‌ایم و محدودیت‌های روش‌های تشخیص موجود را نشان داده‌ایم. خوشبختانه، شبکه های عصبی امکانات زیادی را برای بهبود دقت تشخیص شی متحرک در اختیار ما قرار می دهند، زیرا دسترسی به منابع محاسباتی بیشتری را فراهم می کنند.

امیرحسین باقری

امیرحسین باقری هستم عاشق برنامه نویسی مخصوصا با python و همینطور طراح قالب و متخصص فرانت اند؛ از دانشی که تو این مدت بدست آوردم میشه به HTML, CSS, Bootstrap, Flexbox, SASS, Python, Django, DRF و هوش مصنوعی اشاره کرد.

دیدگاهتان را بنویسید

همچنین ببینید
بستن
دکمه بازگشت به بالا