Page 40 - Saraa - No.37
P. 40
مقالات و یادداشت
برق
Char74Kاز تقســیم پایــگاه داده بــه دو قســمت دادههــای آمــوزش اسـتفاده از بازشناسـی نـوری کاراکترهـا اسـت .بـه ایـن منظـور ابتـدا یـک
( 70درصـد دادههـا) و دادههـای آزمـون ( 30درصـد باق یمانـده دادههـا) سیسـتم تشـخیص نـوری کاراکتـر بـا اسـتفاده از روش اسـتخراج ویژگـی
بـه دسـت م یآینـد .بـرای هـر یـک از 62کلاسـی کـه در ایـن پـروژه
بررســی م یشــوند 1016 ،داده وجــود دارد کــه 304تــا از ایــن دادههــا HOGپیادهسـازی شـده اسـت. .
(تقریبـ ًا 30درصـد از کل دادههـا) دادههـای آزمـون را تشـکیل م یدهنـد. در ایـن سیسـتم ،طبق هبنـدی کننـده ماشـین بـردار پشـتیبان اسـت.
بــا اســتفاده از روش اســتخراج ویژگــی HOGاصــاح شــده ،میانگیــن ایــن سیســتم در نر مافــزار MATLABنســخه R2016bو روی یــک
صحــت ،فراخوانــی ،دقــت و امتیــاز F1سیســتم شناســایی هوشــمند سیسـتم بـا پردازنـده Intelدو هسـت های بـا فرکانـس 2.53گیگاهرتز و 4
پیشـنهادی بـه ترتیـب %82.46 ،%90.88 ،%84.91و %86.47م یباشـد. گیگابایـت حافظـه پیادهسـازی شـده اسـت .در پژوهـش پیـش رو بـرای
بـرای مقایسـه مـدل پیشـنهادی بـا الگوریت مهـای پیشـین از پایـگاه آمـوزش و ارزیابـی سیسـتم بازشناسـی هوشـمند حـروف و اعـداد از پایـگاه
داده ICDAR2003و Char74Kاستفادهشـده اسـت کـه نتایـج دقـت داده Char74Kاسـتفاده شـده اسـت [ .]27ایـن پایـگاه داده ب همنظـور
سیســتم بازشناســی هوشــمند عــدد و حــروف پیشــنهاد شــده در ایــن شناسـایی کاراکترهـا در تصاویـر طراح یشـده اسـت .در ایـن پایـگاه داده،
پژوهـش در مقایسـه بـا الگوریت مهـای پیشـین در جـداول 1نشـان داده
نمادهـای زبـان انگلیسـی در دسـترس هسـتند.
شـده اسـت. پایـگاه داده Char74Kاز 62کلاس تشکی لشـده اسـت .ارقـام 0تـا
(الگوریتم HOGاصلاح شده پیشنهادی = )modified HOG ،9حـروف الفبـای aتـا zو Aتـا Zایـن 62کلاس را تشـکیل م یدهنـد.
ایـن پایـگاه داده حـاوی 75776کاراکتـر اسـت کـه از تصاویـر مختلـف
هما نطــور کــه از نتایــج جــداول 1دریافتیــم در مــدل پیشــنهادی، ب هدسـت آمدهانـد .ایـن پایـگاه داده شـامل 12784کاراکتـر دسـ تنویس
نــرخ بازشناســی بهتــری نســبت بــه روش ارائ هشــده در الگوریت مهــای کــه بــا اســتفاده از tabletتهی هشــدهاند و 62992کاراکتــر ساخت هشــده
بـا فون تهـای مختلـف م یباشـد کـه درون هـر کلاس 1016داده وجـود
پیشـین بدسـت آوردیـم. دارد .ایــن دادههــا در کل یــک پایــگاه داده از 74kتصویــر را شــکل
م یدهنــد و دلیــل نا مگــذاری ایــن پایــگاه داده نیــز همیــن اســت .ایــن
نتیج هگیری پایــگاه داده از آدرس اینترنتــی http//www.ee.surrey.ac.uk/
CVSSP/demos/chars74kقابــل دســتیابی اســت .پایــگاه داده
در پژوهـش حاضـر ،بـرای غلبـه بـر محدودیـت ،عـدم مقـاوم بـودن 74Kشـامل کاراکترهـای موجـود در تصاویـر م یباشـد .همچنیـن بـرای
در برابـر تغییـرات مقیـاس و جابجایـی کاراکترهـا ،دو گام جدیـد در پیـش- مقایسـ�ه مـ�دل پیشـ�نهادی بـ�ا الگوریت مهـ�ای قبلـ�ی از پایـ�گاه داد ه �IC
پـردازش ارائـه شـده اسـت .در طـی ایـن دو گام پبشـنهادی کاراکترهـای DAR2003استفادهشـده اسـت [ ،]29کـه حـاوی 258تصویـر آمـوزش
موجــود در تصویــر ،از پ سزمینــه بــا دقــت خوبــی جداســازی م یشــوند و 251تصویـر آزمـون بـرای محلـی سـازی متـن قـوی م یباشـد .ایـن
و ســپس از لحــاظ انــدازه نرما لســازی م یشــوند .در اغلــب رو شهــای پایــگاه داده از آدرس اینترنتــی http//www.iapr-tc11.org/
کنونـی ارائـه شـده ،جداسـازی کاراکترهـا در مرحلـه قطع هبنـدی انجـام �mediawiki/index.php/ICDAR_2003_Robust_Read
م یشــود .امــا در مقالــه حاضــر ،تفکیــک کاراکترهــا در مراحــل پیــش-
پــردازش انجــام مــی گــردد .بــا تفکیــک کاراکترهــا ،حــذف پ سزمینــه ing_Competitionsقابـل دسـتیابی اسـت.
بسـیار دقی قتـر انجـام خواهـد شـد .ایـن امـر عـاوه بـر ایـن کـه باعـث بــرای ارزیابــی سیســتم پیادهســازی شــده در بخــش قبــل ،از
افزایــش ســرعت پــردازش م یشــود ،باعــث م یشــود روش ارائــه شــده دادههــای آزمــون اســتفاده م یشــود .دادههــای آمــوزش در پایــگاه داده
ICDAR2003 Tجدول 1مقایسه دقت مدل پیشنهادی با الگوریت مهای پیشین از پایگاه های داده Char74Kو ICDAR2003
پایگاه داده Char74K
امتیاز دقت فراخوانی صحت امتیاز دقت فراخوانی صحت روش
F1- F1-
WTHOG
66.40 63.79 69.23 68.36 75.72 72.32 79.47 73.27 ][30
73.02 68.79 77.81 73.88 79.71 75.55 84.36 77.13 ]STRHOG[26
77.03 73.17 81.33 78.73 86.47 82.46 90.88 84.92
modified
HOG
ســرا | فصلنامه تخصصی سازمان نظام مهندسی ساختمان استان سمنان40