یکشنبه 1 مهر 1397 | Sunday 23 rd of September 2018 صفحه اصلی گروه الکترونیکی کامپیوتر
1-2- بررسی کلی کارهای انجام شده تا کنون

در این بخش به اختصار کارهای انجام شده در زمینه اکتشاف اشیاء راشرح می دهیم:

در اینجا به کارهای انجام گرفته در زمینه اکتشاف شی رنگی با استفاده از توابع احتمالی انطباقی فاصله- رنگ می پردازیم:

 به منظور شناسایی یک شی، دو رهیافت اصلی و پایه وجود دارد : 1- اموزش یک موتور یادگیری روی یک مجموعه بزرگ از نمونه‌ها ( رهیافت یادگیری ماشین) 2- استفاده از شهود بشری برای ایجاد مدل‌هایی برای پیدا کردن اشیاء (رهیافت یادگیری بشری).

هیچ یک از این دو روش به صورت ساده و عمومی قابل اجرا نیستند. روش یادگیری ماشین که روشی قدرتمند است، نیازمند انبوه وسیعی از نمونه‌ها برای حالات و شرایط گوناگون شی است وممکن است برای اشیاء انعطاف پذیر به خوبی عمل نکند . تولید قوانین یا مدل‌هایی برای تشخیص اشیاء نیازمند درک و دانش بشری زیادی است. برخی از مسائل اصلی عبارتند از: انتقال و تبدیل دانش انسان به صورت قوانین، تعمیم اطلاعات به داده‌های جدید و بررسی و برشمردن همه حالات ممکن. به علاوه، اشکار ساز حاصل از هر دو روش‌، به طور ویژه برای یک دسته از اشیاء قابل استفاده است، به طوری که برای هر دسته از اشیاء جدید نیاز به یک اشکار ساز جدید یا مجموعه‌ای کاملاً متفاوت از قوانین است[7].

در این پژوهش، هدف اصلی، معرفی متد منتخب برای شناسایی دسته خاصی از اشیاء به نام اشیاء رنگی ترکیبی است. این اشیاء از تعدادی رنگ که به طور یکتا و خاص در کنار هم چیده شده‌اند تشکیل شده است. پرچم‌ها، شخصیت‌های کارتونی، ارم‌ها، افراد در لباس‌های خاص، علائم و... نمونه‌ای از این اشیاءاند.

مسئله چندان ساده نیست، چرا که ظاهر اشیاء رنگی ترکیبی ممکن است از شرایطی به شرایط دیگر، کاملاًمتفاوت باشد و به بیان دیگر در یک صحنه، ظاهری کاملاً متفاوت نسبت به صحنه دیگر داشته باشد. اشیائی مثل پرچم‌ها و ارم‌ها اغلب به صورت اشیاء انعطاف پذیر ظاهر می‌شوند. برای مثل یک پرچم با توجه به شرایط وزش باد می‌تواند اعوجاجات و حالات مختلف و کاملاً متفاوتی به خود بگیرد. زمانی که جهت تصویر و شی مورد نظر مشخص نیست، اشکار ساز باید نسبت به چرخش مستحکم و ثابت باشد. همچنین الگوریتم باید نسبت به تغییرات رنگ‌ها مثل تغییر در میزان روشنایی و یا تغییر ذات یک رنگ به رنگی دیگر(مثلاً رنگ ابی به دلیل شرایط در یک تصویر به صورت رنگ بنفش ظاهر شود) مستحکم و مقاوم باشد.

طیفی از روش‌های شناسایی اشیاء وجود دارند که بر حسب میزان سازگاری با تغییرات دسته بندی می‌شوند. یکی از روش‌ها‌، روش تطبیق نقطه به نقطه با الگو است که برای اشیاء ثابت و غیر منعطف به کار برده می‌شود با این شرط که دوران قابل توجه غیر صفحه‌ای صورت نگیرد (مثلاً در تشخیص چهره تمام رخ که جزء اشیاء غیر منعطف محسوب می‌شود، نباید شی دوران قابل توجهی داشته باشد). در سوی دیگر این طیف ، مدل‌های انعطاف پذیری وجود دارند که ارتباطات مکانی ممکن بین اجزای شی را در نظر می‌گیرند . چنین رهیافتی برای اشیائی که ترتیب مکانی اجزاء ان‌ها می‌تواند به طور مفهومی تغییر کند ، ضروری است (مانند انسان‌ها وافرادی که در حال پیاده رویند[1]) .

همچنان که به این سوی طیف حرکت می‌کنیم‌، الگوریتم‌ها انتزاعی‌تر می‌شوند اما از طرفی نسبت به تغییراتی که شی می‌تواند داشته باشد‌، انعطاف پذیرتر می‌شوند . به هر حال این روش‌ها به سطح بالاتری از دانش درباره شی مورد نظر، نیازمندند و این باعث افزایش احتمال شکست و عدم مؤفقیت ان‌ها می‌شود.

کارهایی که در این زمینه انجام شده در زیر امده است که تقریباً بر طبق افزایش میزان تجردشان در طیف، مرتب شده‌اند :

 -Rowley[7]و همکارانشبا استفاده از رده بند[2] شبکه‌های عصبی روی الگوی روشنایی[3] در تصویر چهره‌ها را اشکار می‌کنند . در مرحله پیش پردازش‌، تصویر دریافت می‌شود تا تاثیرات نور، تضاد و جهت شی، تصحیح شود.

-Oren[7]و همکارانش از ویژگی‌های موجک 4برای شناسایی افراد پیاده استفاده می‌کنند. تصاویر ورودی با استفاده از پنجره‌هایی با اندازه‌های متفاوت بررسی و با ماشین بردار پشتیبانی (SVM)دسته بندی می‌شوند تا افراد پیاده شناسایی شوند.

-Selinger[7]و Nelsonتصاویر سه بعدی را با استفاده از تصاویر دو بعدی که از زوایای مختلف گرفته شده اند، باز نمایی می‌کند. تصاویر دو بعدی به صورت گروه‌هایی از منحنی‌های مرزی‌، انتزاعی شده‌اند (جزئیات حذف می‌شوند) . باز شناسی شی با تطبیق جامع الگو با منحنی‌ها انجام می‌شود .

-Huttenlocher[7]و همکارانش اشیاء را با استفاده از الگوی پیکسل‌های لبه‌ای باز نمایی کرده و تصاویر را با استفاده از فاصله Hausdorffبا پیکسل‌های لبه‌ای مدل مقایسه می‌کنند. فاصلهHausdorffتحمل پذیری نسبت به برخی به هم ریختگی‌های هندسی اشیاء را بالا می‌برد .

-[7]Cootesو همکارانش اشیاء را با استفاده از مدل‌های ظاهری فعال (AAMs) باز نمایی می‌کنند که شکل و ویژگی‌های ظاهری مقیاس خاکستری شی را مدل سازی می‌کند . این مدل‌ها امکان اشکار سازی اشیائی که تا حدودی انعطاف پذیرند(مانند صورت ) را فراهم می‌کنند .

-Forsyth [7]وFleckتصویر را با استفاده از ویژگی‌های رنگی و بافتی‌، به ناحیه‌های کاندید که ممکن است تصویر فرد پیاده در ان باشد‌، بخش بندی می‌کنند و با استفاده از مدل‌های گرافیکی (الگوی بدن) که از استنتاج‌های هندسی پشتیبانی می‌کند‌، نواحی را سر هم می‌کنند .

-Fergus [7]و همکارانش اشیاء را به صورت گراف‌هایی[4] از بخش‌ها مدل سازی می‌کنند و از یک بازنمایی احتمالی که همه جنبه‌های شی را در نظر می‌گیرد، استفاده می‌کنند مثل : شکل‌، ویژگی‌های ظاهری‌، روی هم افتادگی و مقیاس نسبی .ان‌ها دسته مدل‌هایی از اشیاء را از تصاویر بر چسب نخورده و بخش بندی نشده یاد گرفته و باز شناسی می‌کنند. این یک چارچوب جالب برای شناسایی اشیاء است . به هر حال این چارچوب روی ساختارها متمرکز است و رنگ در ان نقش چندانی ندارد.

برای تشخیص اشیاء در تصاویر نیز از نمودارهای رخداد همزمان رنگ (CH) استفاده می شود [18]. CCH‌ اثر تعدادی از جفت پیکسل‌های رنگی خاص که در فاصله‌های مجزای خاص در فضای تصویر اتفاق می افتد را نگاه می دارد. CHرنگ اطلاعات هندسی به نمودار‌های رنگ نرمال اضافه می کند ، که پیوسته هندسه را تجزیه و تحلیل می کند. CH‌های مدل بر اساس تصاویری از اشیاء شناخته شده در یافتی از نقاط مختلف منظره‌ها تخمین و محاسبه می شوند. سپس CH‌های مدل با زیر ناحیه‌ها در تصاویر ازمایشی برای پیدا کردن اشیاء تطبیق می‌شوند. با تنظیم و تعدیل تعدادی از رنگ‌ها و فاصله‌های استفاده شده در CH‌، تحمل الگوریتم برای تغییرات روشنایی‌، دیدگاه(نقطه نظر) و انعطاف پذیری شی تنظیم می شود. تشخیص اشیاء در تصاویر همیشه بر اساس یک مدل از اشیاء در برخی سطوح مجزا است .این مدل با یک تصویر ورودی تجزیه شده در سطح یکسان به همان اندازه مدل تطبیق می شود. در پایین ترین سطح مجزا، یک شی می تواند به عنوان یک تصویر کامل مدل سازی شود و پیکسل به پیکسل در مقابل یک تصویر ورودی خام مقایسه شود. نیز می‌توان پیوسته جزئیات غیر مهم را با استفاده اززیر الگوها (نادیده گرفتن زمینه و مکان شی )، همبستگی طبیعی (نادیده گرفتن درخشندگی)، خصوصیات لبه (نادیده گرفتن تکرارهای فاصله‌ای پایین) و ... خلاصه کرد. تجرد خودش دو نمایش از اشیاء وروشی که ان با تصویر مجزا تطبیق می شود، را در بر دارد. در حالیکه نقاط لبه یک نمایش کامل شی را تشکیل می دهند، تطابق به نقاط اجازه می دهد تا به طورغیر صلب حرکت کنند. تصمیم گیری درباره اینکه چگونه به طور پیوسته تجزیه کنیم مسئله‌ای دشوار است.

یک اندازه سودمند از تجرد استحکام است .نزدیک یک انتها از این اندازه ، چندین الگوریتم تشخیص اشیاء هستند که اشیاءرا به یک مجاورت هندسی جامد و یا نیمه جامداز خصوصیات تصویر تجزیه می کنند.

این فاصله Hausdorff، مخلوط هندسی(geometric hashing)، گلوله‌های فعال(active blobs‌) ‌و eigenimage‌ را شامل می شوند. در تقابل، رهیافت‌های بر اساس نمودار مرتباً همه ارتباطات هندسی بین پیکسل‌ها را تجزیه می کند.

 در تطابق نمودار خالص[18]Swainو Ballard‌ ، هیچ محافظتی از هندسه وجود ندارد‌، فقط یک بررسی از تعدادی پیکسل‌های رنگ معلوم و معین هست. تکنیک‌های[18]Funtو Finaysonیک نمودار از نسبت‌های پیکسل‌های همسایه استفاده می کنند، که میزانی ناچیز از هندسه را برای نمایش نشان می دهد.

خلاصه سازی انعطاف ناپذیری به طور پیوسته جذاب است‌، زیرا ان به الگوریتم اجازه می دهد که روی اشیاء غیر جامد کار کند و نیز ان تعدادی از تصویرهای مدل لازم برای محاسبه ظهور تغییرات به علت تغییرات مقیاس گذاری و دیدگاه را کاهش دهد. یکی می تواند با رهیافت هندسی جامد شروع کند و به طور پیوسته میزان سختی را با استفاده از ثابت‌های هندسی تجزیه کند، رها کردن معیار‌های تطبیق و به طور واضح معرفی انعطاف پذیری در مدل. یا یکی می تواند با یک روش ساده و مؤثر مثل شاخص‌های رنگ Swainو Ballardکه همه هندسه را نادید ه می گیرد، اغاز کند.

عنوان یکپارچگی بیشینه سازی انتظار (EM)‌‌، مدل سازی زمینه و تطبیق الگو با استفاده از نمودارهای رنگ به عنوان الگوهایی برای بهبود پیگردی شخص برای کاربرد‌های نظارتی است .اشیاء پیگردی انسان‌ها هستند که اجسام سخت نیستند، نیز تغییر شکل اشیاء باید پذیرفته شود. برای هر فریم باید برای پیکسلهای شی تصمیم گیری انجام شود که به شی تعلق دارد یا نه. یکپارچگی اکتشاف و پیگردی با استفاده از چهارچوبه مبنی بر احتمال انجام می شود. این روش طبقه بندی پیکسل‌ها بین زمینه و شی‌ می تواند مبنی بر مقایسه احتمالات بیشتر از استانه‌های جدا باشد[14].

یک کاربرد نظارتHarwood[14]، K.Toyama‌ و Christopherشامل برخی گونه‌های اکتشاف شی‌ متحرک‌، پیگردی شی و پردازش مرتبه بالاتر مثل انسان‌های وارد شونده به یک ناحیه ممنوع، تشخیص صورت برای شناسایی و یا تشخیص رفتار و حرکت برای براورد اینکه شخص چه کاری انجام می دهد، می شود.

اغلب مدل سازی زمینه برای اکتشاف اشیاء متحرک استفاده می شود .Toyamaشماری از این الگوریتم‌ها را مقایسه می کند. یک الگوریتم ملی بیشینه سازی انتظار(EM,Dempster)است .به دلیل افزایش سرعت کامپیوتر‌ها، اکنون عملی است که اجراهای بلادرنگ ایجاد کنیم (‌C.Priebe) . الگوریتم زمینه را با ایجاد برای هر پیکسل یک مدل نمایش رنگ‌ها به طور فوق العاده مدل سازی می کند. این مدل با امیزه‌ای از هسته‌های Gaussianتوصیف می شود. برای هر فریم جدید ، مقدار رنگ جدید هر پیکسل با مدل ترکیبی مقایسه می‌شود‌، و با این روش احتمالی که این پیکسل زمینه است می تواند محاسبه شود . چون این روش انطباقی است، شروع با یک صحنه خالی لازم نیست واین یک امتیاز و برتری قابل توجه روی الگوریتم‌های غیر سازگار است .

با استانه‌ای کردن احتمال تصویر تولیدی با براورد زمینه، اشیاء پیش نمای[5] جدید می توانند اشکار شوند. اشیاء کشف شده نیاز دارند تا پیگرد شوند. این با استفاده از یک فیلتر Kalmanروی موقعیت‌هایشان ممکن است، فیلتر Kalmanمسائل متناظر بین فریم‌ها را حل می کند.

اگر چه انسان‌ها به اسانی جهت و سرعت را تغیر می دهند و به متقابل اثر کردن با یکدیگر تمایل دارند.ان خصوصیات اضافی است که برای حفظ اشیاء متفاوت جدا لازم هستند. دو خصوصیت که به طور مکرر استفاده می شوند شکل ورنگ هستند.

همانطور که گفته شد ردیابی و اکتشاف اشیاء در تصاویر یک کار بنیادی دربسیاری کاربردهای انالیز تصویر است . متد‌های موجود برای اکتشاف اشیاء سطح پایین همیشه انالیز‌های همسانی رنگ را در فضای تصویر‌دو بعدی‌ انجام می دهند.اگر چه، کناره‌های شلوغ اشیاء متفاوت اکتشاف پیچیده و مستعد خطا را ایجاد می کنند [11].

ردیابی اشیاء در تصاویر می تواند به دو سطح تفکیک شود:ردیابی اشیاء سطح پایین و ردیابی اشیاء سطح بالا مطابق با سطح شی هدف . ردیابی شی سطح پایین به عنوان تقطیع[6] تصاویر نامیده می شودکه معمولاً بر اساس انالیز همانندی رنگ است .ردیابی شی سطح بالا انالیز معنایی راباکمک دانش قبلی، به معنی الگوی اشیاء معلوم انجام می دهد. تکنیک‌های بسیاری روی ردیابی شی سطح پایین پیشنهاد شده‌اند ، چون ان اساسی‌تر از ردیابی سطح بالا است .رده بندی متدهای تقطیع تصویر می تواند در یافت شود.در یک مقاله اخیر Fan[11]‌ روش‌های عمومی تقطیع تصویر را به تکنیک‌های استانه ای‌، تکنیک‌های بر اساس مرز، تکنیک‌های بر اساس ناحیه و تکنیک‌های پیوندی رده بندی کرد .لبه یک خصوصیت مهم استفاده شده در این متد‌ها است. اگر چه انها همه در فضای تصویر دو بعدی در جایی که لبه‌های اشیاء متفاوت شلوغ هستند کار می‌کنند ، بنابراین ردیابی یک شی همیشه با اشیاء همسایه ان تداخل دارد .از انجایی که روشهای زیادی به همانندی رنگ وابسته هستند، چگونگی استفاده هر دوی اشیاء رنگ یکنواخت و اشیاء بافت دشوار است . برخی روشهای مبنی بر خصوصیت با استفاده از فیلترهای Gabor، می تواند هردوی انها رااشکارکند، اما انها پیچیده هستند .

زمانی که انسان‌ها یک شی سطح پایین را می یابند ، انها به علت تفاوت‌های رنگی با اشیاء همسایه ان دچار دردسر نمی شوند.

مسئله تشخیص شی بصری کلی نیز نشان داده می شود. هدف یادگیری یک مجموعه کوچک از تصاویر تعلیمی یک مدل کلاس خاص برای ردیابی اشیاء خودکار در تصاویر جدید است‌، در اینجا عبارت ردیابی شامل هر دوی رده بندی تصویر و محلی سازی شی می شود[10].

 بسیاری ازمقاله‌های جدید تشخیصS.Agarwal,P.Felzenszwalb,R.Fergus[10]))در استفاده یک جمع اوری از قسمت‌ها برای مدل سازی کلاس شی،  بررسی برای تغییرات درون کلاس در ظاهر وشکل تاحدی به طور مستقل‌، و افزایش مدل سازی به طور انعطاف پذیر در حال کاهش نیازهای اطلاعات تعلیمی دنبال می شود.

در مقابل بسیاری ازسیستم‌های موجود، اگر چه مدل به طور کارامد از عهده شمار زیادی از توانمندی قسمت‌های استفاده از یک مدل فوق العاده کامل بر می اید: افزونگی درون ساخت تحمل تغییرات درون کلاس (تفاوت‌های فردی ، پیکربندی بدن، سیما‌های مربوط به صورت)‌، شرایط تصویری (نور متفاوت‌، دیده نشدن قسمتی از شی، در هم ریختگی ، تغییرات ناچیز در حالت ) و ناتوانی‌های ردیاب‌های خصوصیات محلی را تضمین می کند. بیشتر کارهای جدید روی خصوصیات مبنی بر بافت متمرکز شده با ردیاب‌های نقاط خواسته شده کلی تمرکز کرده اند، و در حالی که نتایج قدرت وابسته به تشخیص بافت‌ها را نشان می دهند ، این خصوصیات می‌توانند فقط به طور تکراری روی درون (دور از مرز)شی کشف شوند، و نیز نمی توانند به طور کارامد تشخیص نیرومند اشاره و راهنمایی کانتور[7] را به شدت استخراج کنند .

نظربه اینکه انسانهاتواناتر به تشخیص تنوع وسیعی ازاشیاء بر اساس پیرامون طرح‌های دو بعدی تنها هستند،

برای کاوش ، یک سیستم تشخیص شی که فقط اطلاعات بر اساس کانتور را استخراج می کند، انتخاب می‌شود. به طور واضح هدف احتمالی و مشروط هر سیستم تشخیص باید به طور محسوس با انواع بسیار مفید و متفاوتی از خصوصیات (کانتور، بافت و رنگ و...) ترکیب شود ، اما برای هدف عمداً اینها نادیده گرفته می‌شود تا نشان داده شود که فقط نیرومندی رویه کانتور چگونه است .

کانتور امتیازات زیادی روی بافت دارد: برای مثال، ان می تواند به طور وسیع با شرایط روشنایی و رنگ شی ثابت باشد و می تواند به طور کارامد ساختار‌های تصویر را با وسعت‌های فاصله ای بزرگ نمایش دهد.

روش‌هایی که خصوصیات مبنی بر بافت را به کار می گیرند‌، مطرح می شود.

مدل صورت فلکی(گراف) Perona[10]و همکارانش تغییرات را در ظاهر، وضعیت نسبی و احتمالات اندازه و مقیاس نشان می دهند، اما الگوریتم‌های یادگیری پرهزینه‌ای نیاز داردکه تمام و کمال با شماره قسمت‌ها مقیاس نمی کنند.

 این به استفاده از مدل خیلی پراکنده که فاقد عدم تطابق‌های ناچیز‌، دیده نشدن قسمتی از شی، فاقد خصوصیات اکتشافی خواهد بود، اجبار می کند .داده‌های ازمایش انها به طور وسیع اشیاء سخت هستند ، در حالی که انها اکتشاف گربه‌های خالدار(spotted cats)را ارزیابی می کنند ، تکنیکی که نمی توانست برای از عهده برامدن خوب با اشیاء انعطاف پذیر دیگر با بسیاری اشاره‌های بافت‌های سست‌تر با وجود شکل خیلی مشخص (اسب‌ها) منتظره باشد.

Torralba[10]وهمکارانش به طور متقاعد کننده خصوصیات اشتراک اکتشاف شی بین کلاس‌ها رااثبات می کنند .ارزیابی انها به کلاسه‌ای متراکم به طور متوسط بدون مفصل بندی (نرم شوی) مهم محدود می شود.

 K.Mikolajczyk[10]و همکارانش نتایج خوبی از ردیابی بدن انسان نشان دادند ، اما قسمت‌های بدن منتخب دستی (و برچسب دار) را برای تعلیم نیاز داشتند[10] .Agarwalو Rothیک طرح ردیابی ماشین که به طور دستی به تعلیم تصاویرخیلی کوتاه نیاز داشت را نشان دادند. 

روشThureson[10]تصاویر را بر اساس نمودار‌ها از انواع مرتبه‌ها رده بندی می کند، اگر چه در همریختگی زمینه را تحمل می کند.

Borenstein[10]و Ullmanنتایج تقطیع کلاس خاص و کامل را نشان می دهند، اما تکنیکشان را در رده‌بندی یا اجرای ردیابی ارزیابی نمی کنند، یا حقیقتاً نتایج را روی تصاویرکه شامل اشیاء کلاس تعلیم نیست نشان می دهند.  Leibe[10]یک طرح برای قطعه قطعه سازی‌ها و رده بندی‌های اینترلیو[8] نشان ‌می دهد، اگر چه این به همه تصاویر تعلیم دارای قطعه شده‌های دستی نیاز دارد.Felzenszwalbو Huttenlocherمدل ساختار‌های تصویری، مدل‌های پراکنده مورد نیاز دیگر بخش‌های شی انتخاب دستی را معرفی می کنند.

سیستم‌های تشخیص بسیاری با استفاده از کانتور تصاویر را در برابر همه الگوهای شی، برای هر یک از دو اشیاء سخت خاص یا برای اشیاء انعطاف پذیرو دست‌ها(دست خط‌ها) تطبیق می کنند.  

تکنیک‌های سابق اغلب یک مدل 3Dکامل شی را نیاز دارند، در حالی که تکنیک‌های بعدی می توانند یک مجموعه بزرگ به طور جلوگیری کننده از الگوها برای نمایش همه پیکربندی‌های شی متصل را نیاز داشته باشد . رهیافت‌های جایگزین[10]A.Selingerاز قطعه‌های کانتور استفاده می کنند.

 Fergus‌ مدل صورت فلکی با خصوصیات قطعه کانتور را اضافه کرد ، اما فقط نسبتاً تازه ، منحنی‌های سطحی با حداقل دو نقطه انحرافی را استخراج می کند‌، و از محدودیت‌های پراکندگی یکسان چون کارهای قبلی‌شان رنج می‌برد. درM.Kumar[10]قطعه‌های کانتور اموخته شده از توالی‌های ویدئویی در ساختارهای تصویری مرتب می شوند و برای ردیابی اشیاء انعطاف پذیر استفاده می شود.این تکنیک یک مدل پراکنده مشابه را پیشنهاد می‌کند و یکی از دوتا ردیابی پیچیده توالی‌های ویدئویی یا برچسب گذاری دستی از قطعه‌ها را نیاز دارد.

بیشتر تحقیقات گذشته روی تشخیص اشیاء با فرض نتایج اکتشاف قابل اطمینان متمرکز شده‌اند .

در این رهیافت‌ها‌، بخش اکتشاف به طور خالص بر اساس رهیافت‌های پایین- بالامثل اکتشاف لبه و تقطیع

تصویر می باشد[17]. فرض عمومی ومشترک است که این الگوریتم‌های دید سطح پایین به طور نسبی حساس به مغایرت روشنایی نیستند. بنابراین خصوصیات پیشین یکسان به طور سازگار از صحنه به صحنه ظاهر می شوند.

به علاوه استفاده از رهیافت‌های راندن اطلاعات (data -driven)خالص ، اکتشاف اشیاء مخاطب شده با تطابق الگو یک مجموعه از الگوهای سخت یا منحنی‌های پارامتری شده هنر دستی را به کارمی برد.     M.Betke,A.Yuille[17])و همکارانشان). تکنیک‌های تطبیق الگو برای ادامه با اشیاء پیچیده‌تر مثل مردم به علت دشواری‌های نمایش شکلشان، واینکه تغییرات روشنایی در نظر گرفته نمی شوند، دشوارهستند.  

رهیافت‌های (M.Turk,D.Mumford[17])بر اساس ظاهر نیز به عنوان یک تکنیک اکتشاف اشیاء مستقیم که از اکتشاف لبه سطح پایین‌یا تقطیع تصویر دوری می کنند، پیشنهاد شده اند. به طور مقدماتی، انها روش‌های رانش مدل (model-driven)با یک استراتژی جستجوی کامل برای مکان‌های متفاوت با مقیاس‌های متفاوت اشیاء مدل هستند. خصوصیات بر اساس تجزیه موجک یا انالیز اجزای اصلی(PCA)به طور وسیع در این طرح‌ها پذیرفته شده اند[17]. اگر چه خصوصیات برایند می تواند به طور سخت تحت تأثیر تغییرات روشن سازی واقع شوند. بنابراین‌، یادگیری وسیع روی یک مجموعه تعلیم بزرگ با نمونه‌هایی تحت شرایط روشن سازی متفاوت لازم می شود. نسخه‌های افزوده از رهیافت‌های بر اساس ظاهر برای توجه به مسائلی از تغییرات روشن سازی بررسی شده اند. هر دو Mumford[17]و Cascia[17]  انالیز اجزای اصلی برای ایجاد (eigen-faces)بر اساس یک مجموعه بزرگی از نمونه‌های گرداوری شده تحت شرایط روشن سازی متفاوت را به کار بردند. یک شی صحنه سپس با یک ترکیب خطی از eigen-faceمشابه می شود.

موفقیت کارهایشان روی این فرض قرار می گیرد که یک شباهت بسیار کامل اشیاء صحنه با پایه‌های PCA‌ تعلیم یافته وجود دارد، که به وجود نمونه‌های گرداوری شده تحت شرایط روشن سازی مشابه اشاره دارد.

در اضافه به تغییرات روشن سازی ، مغایرت شکل یک درگیری و رقابت را برای اکتشاف و تشخیص اشیاء در صحنه‌های حقیقی نشان می دهد . به عنوان یک گسترش به رهیافت‌های تطبیق الگوی اولیه، مدل‌های شکل تغییرپذیر ، [17])M.Kass, L.Prince‌) به تدریج برای نمایش شکل برجسته و تکنیک اکتشاف برای اشیاءشکل گرفته پیچیده در طی چند سال گذشته استنتاج شده‌اند . شایستگی این رهیافت‌های شکل تغییر پذیر است که انها می توانند فعالانه یک شکل مدل را به یک شکل صحنه با نظم تغییر دهندو ارزش تغییر پذیری می تواند به مقیاس شباهت بین شکل‌ها استفاده شود . در این روش‌، تشخیص در مدل یکسان مورد توجه قرار می گیرد . به منظور اکتشاف و تشخیص اشیاء خاص در زمینه‌های پیچیده‌، مدل‌های شکل تغییرپذیر نیاز دارند تااغازگر شباهت و نزدیکی دراشیاء واقعی باشند. اگر چه، اکتشاف یک مکان مناسب برای شروع مدل‌های شکل تغییر‌پذیر برای تشخیص بیشتر در زمینه‌های پیچیده تحت شرایط روشن سازی متنوع یک کار خیلی سخت است، به این نوع از مسائل اکتشاف توجه خواهیم کرد. شبیه به شکل تغییر پذیر ، اندیشه فعال و مشابه می‌تواند برای اکتشاف اشیاء در مثل روشی که حتی اگر رنگ‌های شی بین مدل و صحنه نمایش دگرگون می‌شوند، به کار برده شود. یک اشکارگر می‌تواند به طور انطباقی کانال ان را برای یافتن بهترین نتایج اکتشافی ممکن تنظیم کند.

اکتشاف وسیله نقلیه محکم و قابل اطمینان در تصاویر حاصل با یک وسیله متحرک (اکتشاف شی در جاده) یک مسئله مهم با کاربردی برای سیستم‌های دستیار راننده[9] یا خودکار ، وسایل خودراهنما[10] است. این به طور کلی یک کار پر درگیری است ([5]Z.Sun‌ ‌). پژوهش ‌وتحقیقات روی اکتشاف وسیله نقلیه طبق ده سال اخیر کاملاً فعال بوده استMatthews[5] .وهمکارانش، PCA‌ را برای استخراج خصوصیت و شبکه‌های عصبی را برای رده بندی استفاده می کنند Goerick[5].و همکارانش رمزگذاری جهت یابی محلی(LOC) را برای رمزی کردن اطلاعات لبه و شبکه‌های عصبی‌ را برای یادگیری مشخصه‌های وسایل نقلیه به کار می گیرند .

یک مدل اماری توسط‌Schneiderman[5]تحقیق شد، در اینجا PCA‌ و خصوصیات موجک برای منظر‌های وسایل نقلیه و غیر نقلیه استفاده شدند. یک مدل اماری متفاوت توسط Weber[5]‌ تحقیق شد.

انها هر تصویر وسیله نقلیه را به عنوان یک صورت فلکی(برج) خصوصیات محلی نمایش دادند و الگوریتم EM‌ را برای یادگیری پارامتر‌ها ی توزیع احتمال صورت فلکی استفاده کردند.

یک عملگر سودمند، منتج از خوشه بندی ، برای شناختن شمار کمی از خصوصیات محلی در تصاویر وسایل نقلیه استفاده می شود . Papageorgiou[5]استفاده از موجکHaar‌ برای استخراج خصوصیات و SVMs‌ را برای رده بندی پیشنهاد کرد، Sun[5]‌ خصوصیات موجک Haar‌ و Gabor‌ را برای بهبود دقت اکتشاف ترکیب کرد. به طور مشابه، اکتشاف وسیله نقلیه در مسیر جاده ، اکتشاف صورت از یک تصویر منفرد یک وظیفه سخت به علت تغییر پذیری در مقیاس، مکان‌، جهت یابی ، وضع ، دور ، حالت مربوط به صورت و دیده نشدن قسمتی از شیاست.Rowley[5]‌ یک متد اکتشاف صورت مبنی بر شبکه‌های عصبی را پیشنهاد کرد، در اینجا مقادیر روشنایی تصویر پیش پردازش شده برای اموزش یک شبکه عصبی‌ چند لایه ای برای یادگیری الگوهای صورت و غیر صورت از نمونه‌های صورت و غیر صورت استفاده شدند.[5]Sung‌ یک سیستم مبنی بر توزیع را گسترش داد که شامل دو جزء می شود، (i)‌ یک مدل مبنی بر توزیع برای صورت/ غیر صورت، و (ii)‌ و یک شبکه عصبی چند لایه ای . SVMs‌‌ها در ابتدا برای اکتشاف صورت توسط Osuna[5] به کار برده شدند‌. در ان کار ، ورودی‌های SVM‌دوباره برای مقادیر روشنایی تصویر پیش پردازش شده مانندRowley‌ بودند.SVMs‌برای اکتشاف صورت با استفاده از خصوصیات موجک به کار برده شده اند.

Viola [5]و همکارانش اخیراً یک سیستم اکتشاف صورت خیلی سریع را با استفاده از خصوصیات خیلی ساده و الگوریتم یادگیری AdaBoostتوسعه داده‌اند . دوبررسی جامع اخیر روی اکتشاف صورت می تواند در M.Yang[5]‌ وE.Hjelmas‌ یافت شود.

شماری از رهیافت‌های انتخاب خصوصیات در نوشته‌ها)A.Jain[5]‌ وj.Yang(برای بررسی‌های جامع و وسیع ‌پیشنهاد شده اند. مطابق نتایج مورد انتظار و پیچیده استراتژی تحقیق ، الگوریتم‌های انتخاب خصوصیات به یکی از سه استراتژی تنزل می یابند: i)) انتخاب خصوصیت بهینه، (ii)انتخاب خصوصیت اکتشافی و (iii)انتخاب خصوصیات تصادفی .

جستجوی جامع سر راست‌ترین ‌رهیافت برای راه حل بهینه است ، اگر چه، شمار زیر مجموعه‌های ممکن به طور ترکیبی رشد می کند، جستجوی جامع را برای حتی سایز مناسب خصوصیات غیر عملی می کند. انتخاب به بعد مداوم(SFS) و انتخاب به عقب مداوم (SBS) دو شمای انتخاب خصوصیات اکتشافی خوب شناخته شده هستند‌. ترکیب SFSو SBS‌ پیدایشی برای متد انتخاب خصوصیات  plusl-takeaway r، (S.Stearns[5])را ارائه می دهدکه در ابتدا زیرمجموعه خصوصیات را توسط lبا استفاده ازSFS‌وسعت می دهد و سپس r‌ خصوصیت را با استفاده از SBS‌حذف می کند. جستجوی متحرک به بعد مداوم (SFFS) و جستجوی متحرک به عقب مداوم (SBFS) ازمتد plus l- takeaway rتعمیم داده می شوند. مقادیر l‌ و r‌ به طور خودکار تعیین می‌شوند و به طور پویا در SFFS‌ و SBFS‌ ویرایش می شوند. به دلیل اینکه این استراتژی‌ها تصمیم‌های محلی را ایجاد می‌کنند، نمی توانند انتظار داشته باشند که راه حل‌های بهینه را به طور کلی بیابند.

جستجوی تصادفی دیگر استراتژی انتخاب خصوصیات است. الگوریتم ترمیم (K.Kira[5]‌)‌ و چندین توسعه ان (L.Wiskott [5]‌)‌ نوعاً رهیافت‌های جستجوی تصادفی هستند. اخیراً ، در(D.Goldberg[5]‌) GAs‌ توجهبیشتر و بیشتری بر روی ابزار بهینه سازی برای انتخاب خصوصیات جلب کرده اند. Siedlicki[5]یکی از اولیه‌ترین مطالعات انتخاب خصوصیات مبنی بر GA‌ را در زمینه رده بندی کننده‌های k‌- نزدیک ترین همسایه[11] نشان داد.

Yang[5]یک رهیافت انتخاب خصوصیت مبنی بر GAs‌ با استفاده از یک رده بندی کننده شبکه عصبی پیشنهاد کرد. اگر چه‌، با استفاده از مجموعه ازمایش در ارزیابی تابع مطلوبیت (fitness)، انها برخی تمایل‌ها را نشان دادند. Chtioui[5]‌ یک شمای انتخاب خصوصیات مبنی بر GA‌ را در یک مسئله تشخیص دانه[12] جستجو کرد.Sun[5]و همکارانش، GAs‌ را برای انتخاب خصوصیات نوع گرایی برای پیشرفت رده بندی نوع استفاده کردند.

 

ضریب Bhattacharyyaیک روش کلی است که نمودارهای رنگ را برای تصاویر وابسته به کار می‌برد. اجرا و نمایش بینایی منحنی Bhattacharyya با معیار تطبیق فاصله‌ای به معنی تفاوت مربع میانگین مقایسه می‌شود.

در کاربرد‌های تشخیص الگو اغلب یافتن شباهت بین دو تصویر یا دو بخش از تصویر نیاز است[4].

این ممکن است با مرتبط کردن اطلاعات فاصله‌ای یا با تطبیق خصوصیات بینایی شان انجام شود .

این ضریب یکی از معیار‌ها است‌، که یک اندازه از شباهت بین توابع تراکم احتمال از دو تصویر را ارائه می‌دهد. ان یک اندازه انشعاب - الگو است که یک شرح هندسی سر راست دارد.

N. Thacker[4]نشان داد که این ضریب یک مقیاس همانندی مطلق و کامل است و به هیچ تصحیح طرفداری نیاز ندارد.

تحقیقات بسیاری این اندازه را برای یافتن شباهت در تصاویر یا بخش‌هایی از تصاویر به کار بردند. برای مثال در کاربردهای پیگردی شی، D.Comaniciu [4]این اندازه و رویه انتقال میانگین را برای بهینه سازی استفاده کرد .

انها تراکم‌های مدل شی وزن دار را در سر تاسر یک نقشه نمایش هسته برای استفاده از یک تابع همانندی قابل تشخیص با استفاده از ضریب Bhattacharyya به کار بردند، از ان رو که الگوریتم‌های بهینه سازی مبنی بر شیب کارامد می توانند به کار برده شوند .

Y. Rui[4]وY.Chenفیلتر‌های کوچک که اساسشان را در ترویج تراکم شرطی استفاده کردند، یافتند. انها نیز از این ضریب به عنوان اندازه شباهت استفاده کردند .

H.Chen[4]و T.Luiمعیار نظری اطلاعات Kullback Leiber را به عنوان اندازه همانندی[13]استفاده کردند. انها این ضریب را با تکنیک‌های بهینه سازی متفاوت مقایسه کرند. به اجرای بهتر بهینه سازی ناحیه اطمینان روی انتقال میانگین تأکید کردند. در حین در نظر گرفتن این ضریب به عنوان یک اندازه همانندی، سایر نویسندگان (نامبرده در پاراگراف قبل) نمودار‌های تصاویر رنگی را به عنوان یک تخمین و براورد تراکم شان استفاده کردند. اجرای این مقیاس هنوز در نوشته‌ها و مقالات بحث نشده است. ازمایشات نشان می دهند که براورد موقعیت هدف با استفاده از این ضریب تحت تاثیر قرار داده می شود.

می توانیم بگوییم که اطلاعات رنگی موجود در مقیاس خاکستری برای یک اندازه شباهت و همانندی مثل این ضریب برای تأثیر مناسب کافی نیست‌، همان طور که رنگ خاکستری در ساختمان نمودار در یک چنین روشی که اندازه به یک طرف متمایل خواهد شد، کمک خواهد کرد.

 

فعالیتهایی در زمینه جستجو و بازیابی بر اساس محتوای تصویر انجام شده است.افزایش‌ها در قدرت پردازش‌، پهنای باند و قابلیت ذخیره سازی قابلیت اطلاعات چند رسانه ای را افزایش داده است. این جمع اوری از داده چند رسانه ای نیاز به سازماندهی بر اساس مندرجات دارد. اگر چه پردازش تصویر نوعاً به طور محاسباتی پر هزینه است‌، نیاز برای الگوریتم‌های کارامد و قابلمقیاس برای بازیافتن مندرجات تصویر معلوم و اشکار است [13]. یک جستجوی تصویر و شی که اطلاعات رنگ و فاصله را ترکیب می کند بر اساس یک مجموعه از توابع موجک Gabor‌ در تغییر مقیاس‌ها و مکان‌ها استفاده می شود.

یک رهیافت کارامد، انالیز یک تصویر و تولید یک امضاء[14] وصحه بر اساس تمیز و تشخیص اطلاعات است ، سپس تصاویر بر اساس امضاهایشان (صحه) ارتباط داده می شوند.

 این روش یک متد سریع و قابل قیاس از تشخیص تصاویر فراهم می کند‌، زیرا امضاء ، برون خطی به عنوان یک گام پیش پردازش و ذخیره شده در یک پایگاه داده تولید می شود.

 الگوریتم‌های تشخیص شی و تصویر نوعی اطلاعات رنگ و شکل را انالیز می کنند. یک رهیافت تشخیص شی مبنی بر رنگ سنتی اطلاعات نمودار رنگ را برای مقایسه اشیاء استفاده می کند[13].اگر چه اطلاعات رنگ یک نماینده و شاخص نیرومند در تشخیص اشیاء است‌، چندین سختی و اشکال دارد. اولاً این رهیافت اطلاعات در مورد خاصیت‌های فاصله‌ای اشیاء را که این هم از دیگر شاخص نیرومند همسانی شی است‌، دور می ریزد. ان خیلی محتمل است که دو شی متفاوت که تجزیه‌های رنگ مشابه و شکل‌های متفاوت به طور تشخیصی دارند‌، یک شناسایی مثبت نادرست ناقص را نتیجه دهند . دوم اینکه اطلاعات رنگ تحت شرایط روشنایی متفاوت و دوربین‌های متفاوت تغییر می کند .

اگر چه رنگ‌های اشیاء یکسان باقی می مانند‌، رنگ‌های گرفته شده با دوربین می تواند به طور نمایشی تغییر کند. خوشبختانه، پیشرفت مهمی در زمینه تغییر ناپذیری رنگ برای غلبه بر این سختی‌ها وجود دارد.

تشخیص اشیاء با شکل‌های کامل سال‌های طولانی مطالعه شده است و می تواند با تکنیک‌های موجود به کار برده شود مثل شکل امضاء و توصیفگر‌های Fourier‌ (M.Hue,E.Person[19]). اگر چه مسائل زمانی که قسمتی از شی دیده نمی شود ، اتفاق می افتد.

این مسئله در کاربرد‌های واقعی اهمیت زیادی دارد. متدهای ساختاری زیادی گزارش شده اند[19].

متد‌های تشخیص مبنی بر نقاط مورد علاقه و مفید پیشنهاد شده اند(M.Han[19])اگر چه نقاط مفید تنها برای تشکیل یک نمایش یکپارچه کامل یک شی کافی نیستند. نمایش کثیرالاضلاع (Polygon‌) یک تکنیک دیگر است (H.Liu[19]) .اگرچه این روش در بی ثبات بودن در یافتن نقاط شکاف در اشیاء غیر کثیرالاضلاع اشکالاتی دارد .

در انتها یک یا ترکیبی از تعدادی خصوصیات هندسی اساسی مثل خط، کمان، گوشه و کانتور می تواند استفاده شود ، اما تعدادی اشیاء پیچیده ممکن است کاملاً فقط با خصوصیات هندسی اساسی نمایش داده نشوند‌، به طور کاربردی و عملی زمانی که قسمتی از اشیاء دیده نمی شوند(K.Lim,P.Tsang et al.[19]).

 



[1]horse

[2]classifier

[3]wavelet

[4]constellation

[5]foreground

[6]segmentation

[7]contour

[8]interleaved

[9]driver assistance

[10]self- guided vehicle

[11]k-nearest neighbor

[12]seed

[13]similarity measure

[14]signature

Compatability by:
آخرین به روز رسانی سایت: سه شنبه, 22 اسفند 1391 - 00:26