نام پژوهشگر: حسین مروی

تشخیص زبان اشاره بر اساس مشاهده
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1388
  فرید آقاجانی درونکلا   علی سلیمانی

تشخیص زبان اشاره برای برقراری ارتباط میان افراد ناشنوا و نیمه شنوا با جامعه و یا کامپیوتر در رنج وسیعی کاربرد دارد [1] و انجام این کار به کمک پردازش تصویر در سال های اخیر بخاطر اهمیت آن مورد توجه محققین قرار گرفته است. در این تحقیق می خواهیم با استفاده از پردازش تصاویر دو بعدی اشاره ها و علایم دست ها را بدون استفاده از تجهیزات ویژه تشخیص دهیم. یکی از بهترین روش ها برای شناسایی علائم و اشارات، مقایسه مسیر حرکت دست و مدل سازی شکل دست و نحوه قرارگیری انگشتان در آن می باشد. در این پروژه به معرفی و بررسی تئوری بیشترین راستای لبه (med) پرداخته و نشان داده می-شود med یک ویژگی هندسی است که به ساختار دست بستگی دارد. ویژگی med به صورت آماری بیانگر بیشترین راستای لبه های تصویر است که با دقت خوبی نشان دهنده راستای قرار گرفتن انگشتان در هر اشاره می باشد. برای استخراج این ویژگی ابتدا تصویر باینری لبه از تصویر دست گرفته شده و سپس از المان ساختاری پیشنهادی مناسب که تنها روی پیکسل های لبه عمل می کند استفاده می شود. برای مدل سازی بهتر شکل دست از ویژگی lmed استفاده می شود. به این ترتیب تصویر مورد نظر به نواحی کوچکتر با اندازه معین افراز و در هر ناحیه ویژگی med محاسبه می گردد. همچنین استفاده از این ویژگی حجم پایگاه داده مورد نیاز را به شدت کاهش داده و موجب افزایش سرعت تشخیص می شود. الگوریتم پیشنهادی برای تشخیص زبان اشاره شامل دو مرحله می باشد: 1- کلاسه بندی اولیه 2- کلاسه بندی نهایی. در مرحله اول ابتدا ویژگی های مسیر حرکت دست، منحنی زاویه ی وتر دست و منحنی مساحت تصویر دست استخراج شده و سپس با کمک الگوریتم dtw و کلاسه بندی نزدیک ترین همسایگی، بیشتر کلاس های نا مطلوب حذف می شود. در نهایت سه کلاس باقی می ماند به طوری که احتمال حضور کلاس درست در این سه کلاس صد در صد می باشد (دقت صد در صد با رنک سه). در نتیجه دقت و سرعت تشخیص در زبان اشارات بهبود داده می شود. در مرحله دوم ابتدا با استفاده از الگوریتم dtw که تابع آن منحنی مسیر حرکت دست می باشد فریم های متناظر با هم انتخاب و سپس با کمک دو ویژگی lmed و مسیر حرکت دست، فاصله اشاره ورودی از سه کلاس تعیین شده در مرحله اول محاسبه می شود. در این پروژه سه روش برای کلاسه بندی زبان اشاره پیشنهاد شده است: 1- روش مینیمم فاصله با استفاده از ویژگی lmed 2- روش مینیمم میانگین هندسی 3- روش مینیمم فاصله اقلیدسی به صورت تطبیقی. کلاسه بندی های پیشنهادی روی مجموعه ای از اشارات asl صورت گرفت که شامل 47 کلمه متفاوت با 137 نمونه می باشد. در این آزمایش میزان دقت به مقدار 97.7% رسیده که در بهترین حالت برای اشارات با یک دست 98.9% و برای اشارات با هر دو دست 95.6% بوده است. نتایج بدست آمده کارایی بالای روش های پیشنهادی را نشان می دهد.

استخراج ویژگی مبتنی بر پردازش در حوزه اتوکرولیشن جهت بازشناخت گفتار با استفاده از htk
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1388
  سید حمید اخلاق   حسین مروی

یکی از مهمترین مسایل مطرح در زمینهء سیستم‏های بازشناخت گفتار تأثیر نویز بر سیگنال گفتار و کاهش دقت بازشناسی است، لذا بازشناخت گفتار مقاوم در برابر نویز یکی از موارد مورد مطالعه محققان می‏باشد. در سالهای اخیر تحقیقات بسیاری در این زمینه به عمل آمده و روش‏های مختلفی ارائه شده است. یک دسته از روش‏های موجود در زمینهء بازشناخت گفتار مقاوم، استخراج ویژگی‏هایی از سیگنال گفتار می‏باشد که نسبت به نویز مقاوم باشند. در این پایان نامه هدف معرفی روش‏هایی جهت مقاوم سازی ویژگی‏های استخراج شده از سیگنال گفتار در برابر نویز جمع شونده می‏باشد. حوزه‏ای که در این پایان نامه از آن برای استخراج ویژگی مقاوم استفاده شده است، حوزهء اتوکرولیشن می‏باشد. برای این منظور در ابتدا بعد از بررسی مهمترین اجزاء تشکیل دهندهء سیستم‏های بازشناخت گفتار و مرور بعضی از کارهای انجام شده در زمینهء استخراج ویژگی مقاوم در حوزهء اتوکرولیشن، روش‏های پیشنهادی معرفی شده‏اند. از روش‏های موجود در حوزهء اتوکرولیشن ras، das، amfcc و pac می‏باشند. در این پایان نامه ایده‏هایی جدید جهت بهبود روش‏های amfcc و pac بر اساس استفاده از مشتق طیف توان و پنجره گذاری مناسب پیشنهاد شده است. نتایج بدست آمده از پیاده سازی روش‏های پیشنهادی بر روی دیتابیس timit بیانگر بهبود در نرخ بازشناخت گفتار پیوسته نسبت به برخی از روش‏های گذشته است.

تعیین محل لحظه ای افراد صحبت کننده در یک اتاق سمینار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1389
  محمد حسام محمودی نزاد   حسین مروی

با بهبود تکنولوژی میکروالکترونیک و الگوریتم های تعیین محل و ردیابی صحبت کننده، امروزه می توان از اینگونه سیستم ها، برای مصرف کننده ها و بازارهای تجاری بهره گرفت. همچنین علاقمندی فراوانی برای یک کاربرد جدید در اتاق های مجهز به سنسورهای مختلف معروف به اتاق کنفرانس هوشمند در حال گسترش است. در این تحقیق ما به دنبال تعیین محل لحظه ای افراد صحبت کننده در داخل یک اتاق سمینار می باشیم. باید در هر لحظه مشخص کنیم چند منبع فعال وجود دارد و سپس محل این منابع را در فضای فیزیکی تخمین بزنیم. تعیین محل در شرایط مختلفی نظیر: یک یا چند صحبت کننده به طورهمزمان و اینکه صحبت کننده ها به هر دو فرم ساکن و در حال حرکت، باشند و در حالت های نویزی مختلف، می تواند مورد بررسی قرار گیرد. در ابتدا با شبکه بندی فضای اتاق سمینار و با استفاده از الگوریتم srp-phat محل لحظه ای افراد صحبت کننده را مشخص می نماییم. از اطلاعات جهت سر صحبت کننده ها استفاده شده تا از آرایه های میکروفنی که در راستای مستقیم با جهت سر صحبت کننده قرار دارند استفاده کنیم، و تاثیر انعکاسات گرفته شده از سایر میکروفن ها را تضعیف نماییم. تابع استفاده شده در این الگوریتم را oprod-phat می نامیم. در این بخش یک سیستم برای تعیین محل همزمان چندین صحبت کننده پیشنهاد می گردد، که در آن، توسط یک الگوریتم دو مرحله ای ابتدا با استفاده از یک آستانه تطبیقی بر حسب انرژی هر فریم، فریم های بی صدا را جدا کرده و در ادامه توسط مشخصات همبستگی متقابل بین سیگنال یک جفت میکروفن، در مورد تعیین محل لحظه ای صحبت کننده ها تصمیم گیری می گردد. در ادامه برای کاهش تاثیر نویز زمینه، و افزایش سرعت جستجوی فضای اتاق سمینار و همچنین تعیین محل مناسب تر چند صحبت کننده به طور همزمان، با بخش بندی کردن فضای اتاق، یک میزان فعالیت صوتی را در هر بخش تعیین نموده و در هر فریم زمانی، هدف تعیین بخش های شامل صحبت کننده فعال می باشد. به دلیل وجود نویز متغیر، از یک آستانه وفقی با استفاده از الگوریتم em برای تعیین فعال بودن هر بخش بهره می گیریم. سپس با استفاده از یکی از روش های غیر مستقیم tde، به نام روش li، در بخش های فعال محل صحبت کننده ها را تعیین می نماییم. توسط این ایده می توان روش های دو مرحله ای را برای تعیین چندین منبع صوتی به طور همزمان استفاده کرد. در نهایت به ارزیابی الگوریتم های پیشنهادی می پردازیم. نتایج حاصله عملکرد مناسب الگوریتم های پیشنهادی را در بالا بردن دقت تعیین محل افراد صحبت کننده نشان می دهند. کلمات کلیدی: تعیین محل افراد صحبت کننده، آرایه میکروفنی، تخمین تاخیر زمانی (tde)، اتاق سمینار، روش srp-phat ، جهت سر صحبت کننده

کلاسه بندی دستگاه های موسیقی ایرانی به کمک ویژگی پروفایل پیچ
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1389
  ابراهیم گواهیان جهرمی   حسین مروی

مفهوم فواصل در موسیقی ایرانی و اثرات آن بر ساختار و کلاسه بندی ردیف موسیقی ایرانی یکی از مهمترین مسائلی است که موسیقی دانان به آن توجه می کنند. آنالیز مفهومی موسیقی همچنین، در سال های اخیر بسیار مورد توجه پژوهشگران و محققان در زمینه پردازش سیگنال قرار گرفته است. بحث تشخیص مقام یا الگو (در موسیقی غربی)، از روی سیگنال صوتی، ارتباط مستقیم با مفهوم فواصل دارد. یکی از ویژگی های اصلی که دربیان مفهوم فواصل نقش دارد پیچ است که در کاربردهای کلاسه-بندی و آنالیزهای مربوط به بررسی خواص تشابه در حوزه بازیابی اطلاعات موسیقی، بسیار مورد استفاده قرار می گیرد. در این پایان نامه، با مطالعه روشهای موجود آنالیز سیگنال های موسیقی غربی و مقایسه آنها، نهایتا یک روش جدید برای تشخیص مقام های مختلف موسیقی ایرانی پیشنهاد شده است که هیچ محدودیتی برای سازهای موجود در قطعه موسیقی مورد آنالیز نداشته و نسبت به روشهای مشابه از سرعت بالاتری نیز برخوردار است. در تشخیص مقام، یک پروفایل پیچ 24 تایی که شامل اطلاعات اساسی در مورد مقام قطعه مورد نظر است از سیگنال صوتی قطعه استخراج می شود. به علاوه، در بخش استخراج ویژگی، یک مرحله کاهش بعد در الگوریتم اعمال می شود که محاسبات را به طور قابل توجهی کاهش داده و موجب افزایش سرعت الگوریتم می شود. نهایتا با اعمال الگوریتم پیشنهادی به دیتابیس نتایج چشمگیری مشاهده شده است

تشخیص نوع شناورها با استفاده از صوت انتشاری زیرآب
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1389
  علیرضا واردان   حسین مروی

نویز انتشاری زیرآب شناورها در دریا حاوی اطلاعاتی در مورد ماشین آلات آنها می باشد . از این اطلاعات می-توان برای شناسایی آنها استفاده نمود . با توجه به تغییرات محیط دریا ، مشخصات ویژه کانال های انتقال صوت در زیرآب و تداخل امواج در محیط دریا ، تشخیص شناورها از طریق صوت انتشاری زیر آب ، فرایندی دشوار است . یکی از موارد بسیار مهم در تشخیص شناورها از طریق صوت انتشاری آنها در زیر آب استخراج ویژگی های منحصر به فرد از صوت شناور در زیر آب می باشد که امروزه مورد توجه محققین قرار گرفته است . هدف اصلی این پایان نامه ارائه روشی برای شناسایی شناورها از طریق صوت انتشاری زیر آب انها می باشد . در این پایان نامه از جمع کردن متوالی طیف های حاصل از قسمت بندی سیگنال ورودی و تشکیل یک تصویر باینری برای استخراج ویژگی استفاده شده است . مشخصه های استخراجی به عنوان ورودی به یک شبکه عصبی داده شده اند و سپس نوع شناور تعیین می گردد . آزمایش های مختلفی برروی بانک صوت شامل 20 فایل صوت کشتی سنگین ، 10 فایل صوت قایق ، 60 فایل صوت کشتی متوسط ، 20 فایل صوت زیردریایی و 12 فایل صوت دلفین انجام شده است . نرخ تشخیص صحیح در 7 کلاس 97.18% با سیگنال به نویز 10 دسیبل و در 5 کلاس 96.26% با همین سیگنال به نویز بدست آمده است . کلمات کلیدی : کشتی ها ، صوت زیرآب ، تصویر باینری h

جداسازی عروق در تصاویر شبکیه چشم به کمک فیلترهای جهت دار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1389
  رضا خرقانیان   علیرضا احمدی فرد

جداسازی خودکار عروق از تصاویر شبکیه چشم کمک شایانی به متخصصین علوم پزشکی در تشخیص به هنگام بیماری های چشم می کند. از مشکلات اساسی استخراج عروق می توان به حضور نویز، عدم توزیع یکنواخت روشنایی تصویر چشم و تغییر در ضخامت عروق شبکیه اشاره کرد. در کنار این مشکلات تفاوت شدت روشنایی بین نقاطی از تصویر که بر روی عروق باریک قرار دارند و سایر نقاط تصویر بسیار کم است. به این جهت روش های موجود از استخراج درست عروق با ضخامت کم عاجز می باشند. در این تحقیق دو هدف را دنبال می کنیم یکی سعی بر ارائه روشی جهت بهبود نتایج روش های موجود داریم دیگر اینکه می خواهیم تخمین مناسبی از قطر رگها در هر نقطه داشته باشیم. مورد آخر در تشخیص بسیاری از ضایعات چشمی مانند بیماری دیابت کاربرد دارد. الگوریتم پیشنهادی برای استخراج عروق از سه مرحل? اساسی تشکیل شده است. در مر حل? اول که پیش پردازش نامیده می شود به کمک تصحیح گاما و فیلتر بانک موجک گابور که از جمل? فیلتر های جهت دار است کیفیت تصویر را بهبود می دهیم. به کمک این مرحله سطح نویز تصویر کاهش یافته، سطح روشنایی تصویر تصحیح شده و عروق از پیش زمینه متمایز می گردند. در مرحل? دوم اقدام به استخراج خطوط مرکزی رگ ها می نماییم. برای این منظور تصویر را بصورت یک روی? توپوگرافیکی در نظر گرفته و بدنبال استخراج نقاط با ویژگی ناودانی بیرون هستیم چراکه این نقاط مکان هندسی خط مرکزی رگ می باشند. با توجه به اینکه در حضور نویز خطوط استخراج شده منقطع و شکسته می باشند نقاط استخراج شده را به کمک فیلترهای جهت دار به همدیگر پیوند می دهیم. از طرفی در این مرحله توسع? نقاط مرکزی رگ را به نحوی ممکن می سازیم تا زمینه استخراج عروق بسیار باریک فراهم گردد. خطوط مرکزی بدست آمده در مرحل? دوم برای بازسازی عرض رگ وارد مرحل? سوم می شود. در مرحل? سوم از عملگر های شکل شناسی بهره گرفته ایم تا بطور همزمان وجود رگ در جهت های متفاوت و تغییر در قطر آن ها را لحاظ نماییم. از خطوط مرکزی به عنوان نقاط شروع استفاده کرده ایم و از روش گسترش ناحیه باینری برای بازسازی عرض رگ در چند مرحله استفاده نموده ایم. بازسازی عرض رگ در هر مرحله محدود به تصاویر آستانه گذاری شد? بدست آمده از اعمال فیلتر های شکل شناسی است. نتایج حاصل از روش پیشنهاد شده و مقایسه آن با نتایج حاصل از چند الگوریتم مطرح نشان دهنده بهبود در استخراج خودکار رگ های شبکی? چشم می باشد.

طراحی و پیاده سازی سیستم شناسایی زبان گفتاری به صورت خودکار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1389
  پریا مهارلویی   حسین مروی

تشخیص اتوماتیک زبان در واقع مسأله تشخیص زبان برای یک نمونه گفتار صحبت شده توسط سخنگوی نامعـلوم است. تشخیص خودکار زبان می تواند به ارتباط بین مردم نواحی گوناگون کمک کند و کاربردهای مختلفی در توسعه گردشگری ، تجارت آزاد، تقویت امنیت ملی از طریق پیش پردازش و فیلتر نمودن مکالمات مشکوک ، خدمات اورژانس، ترجمه همزمان در همایش ها و مکالمات بین المللی دارد. در این پایان نامه با کمک کلاسه بندی ویژگی های مختلف، سیستم تشخیص خودکار زبان، طراحی و پیاده سازی شده است. برای این منظور، ویژگی های مناسب هر زبان را یافته و با دسته بندی آن برای زبان های مختلف، الگوریتم کلاس بندی و گسسته سازی چند بازه ای را آموزش داده و پس از دسته بندی آنها، قواعد تصمیم گیری برای هر زبان تعیین شده و از این دسته بندی برای تشخیص زبان های تست استفاده می کنیم. برای آزمایش روش پیشنهادی، از نمونه های صوتی 10 ثانیه ای و 45 ثانیه ای پایگاه اطلاعاتی ogi-ts استفاده گردیده است. در ogi-ts نمونه های صوتی از 11 زبان انگلیسی، فارسی، آلمانی، اسپانیایی، کره ای، ماندارین، ژاپنی، تامیل، ویتنامی، فرانسوی و هندی با زمان بندی های گوناگون موجود است. اما در سیستم های تشخیص زبان، بیشتر از 9 زبان اول استفاده شده است. به همین منظور ما نیز آزمایش ها را بر روی این 9 زبان انجام داده و با روش های پیشین مقایسه نمودیم. آزمایش ها بر روی ضرایب مختلف موجک ، mfcc، plp و lpc انجام شده اند. تا کنون روش های مختلفی برای شناسایی زبان گفتاری به صورت خودکار پیشنهاد شده است، که بیشتر آنها وابسته به اطلاعات واج آرایی بوده و استفاده از آنها دشوار می باشد. ما در این پژوهش روشی مستقل از واج آرایی ارائه دادیم که در عین سهولت، با درصد خوبی قادر به تشخیص زبان ها است. در این روش از تبدیل موجک و تبدیل کپسترال نمونه های صوتی استفاده گردیده که بدون نیاز به اطلاعات زبان شناسی، بر روی زبان های گوناگون قابل استفاده می باشند. مشاهده گردید که ضرایب کپسترال به درصد صحت بالاتری نسبت به ضریب موجک می رسند. همچنین برای هر دو ضریب کپسترال و موجک، نمونه های صوتی 45 ثانیه ای به دلیل مدت زمان بیشتر، درصد تشخیص بهتری دارند. روش های پیشین بیشتر به تشخیص دوبه دوی زبان ها می پرداختند، در حالیکه روش پیشنهادی قادر به تشخیص نوع زبان، از میان 9 زبان موجود در ogi-ts نیز می باشد.

انتخاب ویژگی های مناسب در تشخیص برخط امضاء بااستفاده ازالگوریتم های بهینه سازی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1390
  جواد رجبی اول   علی سلیمانی ایوری

امضای افراد یکی از روشهای تأیید هویت فرد در مناسبات مختلف بویژه در حوزه اقتصادی است. وظیفه یک سیستم تأیید امضاء پذیرفتن امضاء اصلی و رد امضاء جعلی می باشد. امضاهای برخط امضاهایی هستند که توسط ابزارهای الکترونیکی از قبیل صفحه رقومی کننده ثبت می شوند و امضاء به صورت رشته زمانی در رایانه ذخیره می شود. در این نوع امضاء علاوه بر اطلاعات مکانی، اطلاعات زمانی از قبیل سرعت، شتاب و ... نیز حفظ می شود.در این پایان نامه روی امضاهای اصلی و جعلی موجود در پایگاه داده svc2004 پیش پردازش هایی مانند نرمالیزه کردن امضا، حذف چرخش، هموارسازی و ... صورت گرفته و 72 ویژگی از هر امضا استخراج می شود. سپس با استفاده از الگوریتم بهینه سازی pso به تشخیص امضاء اصلی از جعلی می پردازیم. ابتدا با اعمال 72 ویژگی نرخ خطای یکسان سیستم تأیید برابر با 5/11% (5/11%=eer) بدست می آید. با حذف ویژگی های کم اهمیت توسط الگوریتم pso و استفاده از ویژگی های با اهمیت تر که تعداد آنها به 48 تا می رسد، 25/10%=eer دست می یابیم. قابل ذکر است که نتایج فوق با نتایج مربوط به تیم های شرکت کننده در اولین مسابقه بین المللی تایید امضاء مقایسه شده که در بهترین حالت حائز رتبه 5 شده است. ویژگی های با اهمیت بیشتر تعیین می گردد.

طبقه بندی آریتمی های قلبی با استفاده از تبدیل والش
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1390
  زهره نصیری   حسین مروی

بیماری های قلبی بنا بر آمارهای سازمان جهانی بهداشت شایعترین علت فوت را در میان سایر بیماری ها به خود اختصاص می دهند. استفاده از الکتروکاردیوگرام (electrocardiogram:ecg) به دلیل اینکه ثبت آن آسان، کم هزینه و در عین حال ثمر بخش می باشد، برای تشخیص بیماری های قلبی کاربرد وسیع و قابل توجهی دارد.برای کاستن از اشتباهات پزشکان و کمک به آنها، می توان از روشهای هوشمند در تشخیص این بیماری ها استفاده نمود. تغییر و اعوجاج در هریک از پارامترهای اصلی سیگنال الکتروکاردیوگرام می تواند نشان دهنده یک بیماری قلبی باشد. در این تحقیق ،روشی جدید با استفاده از تبدیل والش برای طبقه بندی آریتمی های قلبی پیشنهاد شده است. هدف اصلی این تحقیق، بدست آوردن روشی اتوماتیک ، کارا و سریع, جهت تشخیص و تفکیک بیماری های قلبی بلوک شاخه ای راست ، بلوک شاخه ای چپ ، پیس ریتم و انقباضات زودرس بطنی4 و حالت نرمال از یکدیگر می باشد. به منظوراستخراج ویژگیها و کاهش ویژگیهای سیگنال قلب از طیف والش استفاده شده است .با استفاده از طیف والش ویژگی های مناسب از سیگنال قلب استخراج شده است .آزمایشات روی دیتابیس "mit_bih" 5 انجام شده است و در نهایت نمونه های انتخاب شده به یک طبقه بندی کننده svm داده می شود و ضربان های متفاوت در هر یک از گروه ها دسته بندی می شوند.آزمایشات انجام شده بر روی دیتابیس مذکور نشان دهنده موفقیت روش پیشنهادی در جهت کاهش ویژگی می باشد.

یک روش استخراج ویژگی برای شناسایی گوینده بر مبنای توزیع ویگنر
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1390
  جلیل قاسمی   حسین مروی

چکیده: با پیشرفت روز افزون علم و تکنولوژی نیاز بشر به سیستم های هوشمند در تمامی زمینه ها مشهود می باشد. با توجه به اینکه صدای هر فرد مانند شناسه های دیگری چون اثر انگشت، خصوصیات چهره، عنبیه چشم و ... منحصر به فرد می باشد به همین دلیل از آن در سیستم های هوشمند بازشناسی گوینده استفاده می شود. اما یکی از مهمترین مسائل مطرح شده در زمینه سیستم های بازشناسی گوینده تأثیر نویز بر سیگنال گوینده و کاهش دقت بازشناسی است. لذا بازشناسی مقاوم گوینده در مقابل نویز یکی از موارد مورد مطالعه محققان می باشد که در سالهای اخیر تحقیقات زیادی در این زمینه انجام شده و روشهای مختلفی ارایه شده است. هدف از انجام این تحقیق استفاده از توزیع زمان- فرکانس ویگنر- ویل برای استخراج ویژگی از سیگنال گفتار می باشد. در این تحقیق از ترکیب تابع توزیع ویگنر- ویل و تبدیل هیلبرت و ضرایب mfcc برای استخراج ویژگی استفاده شده است. در این روش از سیگنال گفتار تبدیل هیلبرت گرفته شده و پس از آن، تبدیل ویگنر- ویل گرفته می شود. سیگنال خروجی از تبدیل ویگنر- ویل از فیلتر بانک مل عبور داده می شود و پس از لگاریتم گیری، از آن تبدیل فوریه کسینوسی گرفته می شود. خروجی بدست آمده از این سیستم پیشنهادی بعنوان یک ویژگی استخراج شده از سیگنال گفتار جهت تشخیص گوینده بکار می رود. به کمک این ویژگی ها برای هر گوینده یک مدل مخلوط گوسی(gmm) بدست آورده شده است. نتایج حاصله در این روش با ضرایب mfcc و plp مقایسه شده است که جهت پیاده سازی روش های پیشنهادی از دیتا بیس timit استفاده شده است. نتایج گویای این مطلب است که روش پیشنهادی در سیگنال به نویزهای پایین جواب بهتری را از ضرایب mfcc و plp ارایه می دهد. کلید واژه : بازشناسی گوینده و گفتار، توزیع ویگنر- ویل، استخراج ویژگی

تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1390
  مرضیه لشکربلوکی   حسین مروی

شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرآیندی که طی آن با استفاده از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه هایی صحبت کرده است. امروزه این عمل با یک عنوان جدید که هر دو فرآیند جداسازی و برچسب گذاری را در بر می گیرد بنام speaker diarization مشهور گشته است. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی است که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست. هدف از انجام این پایان نامه طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با استفاده از الگوریتم های جدید و همچنین بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم باید بطور صحیح نقاط تغییر گوینده را بدون دانستن اطلاعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد. در این پایان نامه، سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده است. درمرحله اول قسمت- های غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده وجود دارد، تقسیم می شود. در مرحله سوم با استفاده از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی mfcc root-mfcc, tdc, و root-tdc و سه نوع پایگاه داده استفاده شده است و دقت مرحله بخش بندی 80% بوده است و دقت مرحله خوشه بندی نیز 59% با استفاده از ماشین بردار پشتیبان بدست آمده است

بهسازی گفتار با استفاده از ویونت
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1391
  سمیرا مغانی   حسین مروی

بهسازی گفتار یا speech enhancement بیانگر گروه بزرگی از روش هاست که با انجام پردازش هایی روی سیگنال های نویزی، نهایتا منجر به بهبود کیفیت و قابلیت فهم گفتار می شود. تاکنون چندین روش در زمینه بهسازی گفتار نویزی ارائه شده است. روش پیشنهادی ما در این پایان نامه، شبکه عصبی موجک (ویونت) می باشد. این روش، مدلی مبتنی بر تلفیق شبکه عصبی با تبدیل موجک می باشد و به عنوان جایگزین مناسب در شبکه های عصبی پسخورد جهت تخمین و تقریب توابع غیرخطی اختیاری پیشنهاد می شود. در شبکه استاندارد پسخورد تابع فعال سازی نرون لایه پنهان یک تابع سیگموئید است. حال آنکه شبکه های عصبی موجک توابع موجک را به عنوان توابع فعالسازی نرون های لایه پنهان از شبکه پسخور مورد استفاده قرار میدهند. در روش پیشنهادی دو حالت برای دسترسی به نویز در نظر گرفته شد. حالت الف، حالتی است که دسترسی مستقیم به نویز محیط وجود دارد و حالت ب، حالتی است که از تخمین نویز استفاده کرده ایم. روش پیشنهادی برای تخمین نویز، استفاده از تبدیل موجک می باشد. موجک استفاده شده در این مرحله دابیشز 5 (db5) می باشد. روش پیشنهادی برای دادگان فارسی پیاده سازی شده است و برای ارزیابی و عملکرد آن از سه معیار سیگنال به نویز، سیگنال به نویز قطعه ای وlog likellihood ratio (llr) استفاده شده است. در نهایت روش پیشنهادی با شبکه عصبی و ترکیب شبکه عصبی با موجک و روش موجک مقایسه شده است. بررسی نتایج و آزمایشات نشان دهنده عملکرد قابل قبول روش پیشنهادی است.

فشرده سازی تصاویر چهره مبتنی بر نواحی مطلوب
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1391
  محسن اکرمی ذکراباد   امید رضا معروضی

امروزه کاربرد سیستم های شناسایی چهره به منظور تشخیص هویت، کنترل تردد و حفاظت اطلاعات افزایش چشمگیری داشته است. این سیستم ها معمولا نیازمند پایگاه بزرگی از تصاویر چهره هستند. محدودیت حافظه و افزایش سرعت بازیابی از جمله عواملی هستند که ما را به سوی فشرده سازی این تصاویر سوق می دهند. نکته مهمی که در فشرده سازی این تصاویر باید در نظر گرفته شود، حفظ کیفیت ویژگی های مهم چهره در حد مناسب، مخصوصا در نرخ بیت های پایین است. در این پایان نامه طی یک سیر تکاملی سه روش برای فشرده سازی تصاویر چهره مبتنی بر نواحی مطلوب در نرخ بیت های پایین پیشنهاد شده است. تبدیل موجک و کدگذاری wbtc پایه و اساس هر سه روش پیشنهادی را تشکیل می دهند. در روش های پیشنهادی با بازآرایی بلوک های ضرایب موجک بر حسب اهمیت، کارایی الگوریتم کدگذاری wbtc افزایش یافته است؛ چرا که در این حالت زمان و نرخ بیت کمتری صرف یافتن ضرایب مهم می گردد. در روش اول با محاسبه یک تصویر باقیمانده در حوزه موجک و کدگذاری نواحی مطلوب در این تصویر به کمک روش maxshift، کیفیت دیداری این نواحی در نرخ بیت های پایین بهبود یافته است. در روش دوم با استفاده از تبدیل rwt، امکان فشرده سازی مجزای نواحی مطلوب و غیر مطلوب در نرخ بیت دلخواه فراهم شده است. در روش سوم با استفاده تلفیقی از تبدیل rwt و تکنیک کدگذاری تصویر باقیمانده در روش اول، به کارایی بالاتری نسبت به دو روش قبل دست یافته ایم. نتایج شبیه سازی بیانگر کارایی بالاتر روش های پیشنهادی در مقایسه با jpeg2000، spiht و یک روش مبتنی بر ناحیه مطلوب است. این کارایی بالا در ناحیه چهره و مخصوصا در نرخ بیت های پایین تر خود را بهتر نشان می دهد، چرا که با کاهش نرخ بیت کارایی الگوریتم wbtc و تکنیک بازآرایی بلوک های ضرایب موجک افزایش می یابد.

جستجوی کلمات کلیدی در رشته ی گفتار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده مهندسی برق 1391
  هادی نادری   حسین مروی

تشخیص کلمات کلیدی یا keyword-spotting در حالت کلی به معنای یافتن یک کلمهی کلیدی در یک پروندهی نوشتاری و یا گفتاری است. در این تحقیق، یک روش جدید تشخیص یا بازشناسی کلمات کلیدی در زبان فارسی، در دوحالت پیوسته و گسسته معرفی شده است. در هر دوحالت تشخیص کلمات کلیدی در گفتار پیوسته و گسسته، از روش dynamic time warping(dtw) استفاده شده است که با سیستمهایی که بر اساس مدل مخفی مارکوف طراحی شده و امروزه به طور گسترده از آنها استفاده میشود، متفاوت هستند. روش ارائه شده برای تشخیص کلمات کلیدی در حالت پیوسته، بر پایهی حالت اصلاح شدهای از روش قدیمی dynamic time warping است، که یک روش ابتدایی برای محاسبهی میزان شباهت دو دنبالهی متغیر با زمان است. در مرحلهی پردازش، سیگنال گفتار به فریمهایی با طول کم تقسیم میشود. هر فریم به صورت یک بردار کوانتیزه شده از ویژگیها نمایش داده میشود. هم کلمهی کلیدی و هم گفتار اصلی که جستجو در آن انجام میشود، به صورت دنبالهای یک بعدی از اندیسهای کتاب کد تبدیل میشوند. سپس دنبالهی اندیسهای گفتار اصلی به چندین جزء تقسیم شده و فاصلهی هرکدام از این بخشها طبق معیار dtw با اندیسهای کلمهی کلیدی بدست میآید. برای هر بخش یک امتیاز اعوجاج محاسبه میشود و بخشی که کمترین امتیاز اعوجاج را داشته باشد، به عنوان محل احتمالی حضور کلمهی کلیدی معرفی میشود. در روش ارائه شده برای تشخیص کلمات کلیدی در حالت گسسته نیز از روش dtw استفاده شده است. در این حالت، ابتدا از نمونههای مختلف از یک کلمهی کلیدی خاص که توسط یک یا چند گوینده بیان شدهاند و دارای طول متفاوت هستند، بردارهای ویژگی را استخراج کرده و سپس کلمهای که دارای کوچکترین طول است را به عنوان نمونهی مرجع انتخاب میکنیم. سپس با استفاده از روش dtw، مسیر همترازی نمونهی مرجع و سایر نمونهها را بدست آورده و از روی مسیر همترازی، ابعاد ماتریس ویژگی سایر نمونهها را هم بعد با نمونهی مرجع میسازیم. در نهایت از ماتریس ویژگی تمام نمونهها، میانگین میگیریم تا یک نمونهی مرجع عام برای هر کلمهی کلیدی بدست آید. در ادامه از این نمونهی مرجع عام در فرایند تشخیص استفاده میکنیم.

فشرده سازی سیگنال صوت مبتنی بر فن انطباق الگو
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1391
  امین قنبرزاده   هادی گرایلو

با توجه به محدود بودن پهنای باند در ارتباطات مخابراتی و اینترنت، و محدودیت حافظه های در دسترس، و از طرفی نیاز روز افزون به داده های صوتی و تصویری با کیفیت بالا، و هم چنین به منظور استفاده ی بهینه از امکانات موجود، نیازمندی ما به روش های فشرده سازی سیگنال، اجتناب ناپذیر است. وجلت ها یکی از ابزارهای موفق برای فشرده سازی و حذف نویز در تصاویر هستند. وجلت ها مشابه موجک ها یک تحلیل چندمقیاسی از سیگنال را فراهم می کنند. در این پایان نامه، تعمیم روش فشرده سازی مبتنی بر وجلت های توسعه یافته، روی سیگنال های صوتی، مورد مطالعه قرار گرفته است. برای این کار ابتدا مروری بر روش فشرده سازی وجلت های اولیه و وجلت های توسعه یافته، انجام داده و مشکلات تعمیم این روش را بر روی سیگنال های صوتی بررسی کرده، و راه کارهای ممکن را به کار گرفته ایم. توابع پایه ی مربوط به وجلت، توابع چندجمله ای از مراتب مختلف انتخاب شده اند. با توجه به این که ضرایب به دست آمده، مربوط به حوزه ی زمان می باشد، و هم چنین به دلیل همبستگی موجود بین این ضرایب، سه روش مختلف کوانتیزاسیون را آزمایش کرده ایم. یک روش فشرده سازی مبتنی بر نواحی مطلوب نیز در ترکیب با روش پیشنهادی، ارائه شده است که باعث می شود در سیگنال های گفتار، قسمت های صحبت و سکوت، با نرخ بیت و کیفیت متفاوتی فشرده شوند. هم چنین عملکرد سیستم در محیط های نویزی نیز بررسی شده است. از قابلیت های روش پیشنهادی این است که نرخ فشرده سازی و هم چنین کیفیت سیگنال بازسازی شده، قابل تنظیم می باشد. برای ارزیابی، روش پیشنهادی با دو روش مبتنی بر تبدیل dwt و dct مورد مقایسه قرار گرفته است. نتایج از لحاظ معیارهای کمّی snr و mos مقایسه شده اند. نتایج نشان می دهد که از دید معیار snr روش مبتنی بر وجلت در مورد سیگنال های صحبت به طور متوسط 40/19% نسبت به روش dwt و 90/11% نسبت به روش dct، بهتر بوده و در سیگنال های صوتی نیز به طور متوسط 97/19% نسبت به روش dwt عملکرد بهتری داشته است. نتایج حاکی از این است که روش مبتنی بر وجلت می تواند روش موثری برای فشرده سازی انواع مختلف سیگنال های صوتی و صحبت باشد.

تشخیص صحت امضای دستنویس بصورت برون خط
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1391
  نیوشا نوایی   علی سلیمانی ایوری

ابتدا برای پیش پردازش، فضای سفید اضافی تصویر اسکن شده ی امضا ء، حذف می شود و سپس با ایجاد ناحیه بندی خاص بر روی تصاویر، ویژگی های محلی جدیدی را بر مبنای تقسیم بندی شبکه ای استخراج می نماییم. در ادامه زیر مجموعه ای بهینه از این ویژگی ها به کمک الگوریتم رقابت استعماری (ica) انتخاب می شود. در مرحله طبقه بندی برای هر کاربر از یک شبکه عصبی مصنوعی (ann) مجزا استفاده می شود که برای فاز آموزش 27 امضای آن کاربر را در نظر می گیریم. برای ارزیابی 27 امضای باقیمانده هر فرد به شبکه عصبی آموزش دیده متناظر با آن کاربر داده می شود و تصمیم گیری در مورد تأیید یا رد امضا ء انجام می گردد. در انتها نیز نتایج به دست آمده با کارهای مشابه مقایسه می شود. ما در این پایان نامه از پایگاه داده gpds300gray برای ارزیابی الگوریتم پیشنهادی استفاده می کنیم. نرخ خطای برابر (eer) الگوریتم پیشنهادی برای این پایگاه داده 6.96 می باشد. نتایج تجربی نشان می دهد که الگوریتم پیشنهادی در مقایسه با روش های ارائه شده از دقت قابل قبولی برخوردار است .

طبقه بندی سیگنالهایeeg ناشی از تصور حرکتی به کمک تلفیق فیلترهای فضایی فرکانسی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1392
  رویا حاتمی   حسین خسروی

یکی از موضوعاتی که در دو دهه اخیر مورد توجه بسیاری از پژوهشگران قرار گرفته است، سیستم-های واسط مغز و کامپیوتر (bci) می باشد. سیستم bci سیستمی است که با دریافت سیگنال های مغزی مانند روش الکترو انسفالوگرام (eeg) از افراد، آن ها را به فرمان های کنترلی برای حرکت یک بازو، صندلی چرخدار، یک ربات و سایر وسایل جانبی تبدیل می کند. در bci مبتنی بر تصور حرکتی از افراد خواسته می شود که خود را در حال انجام یک عمل حرکتی ویژه، (بدون خروجی حرکتی) تصور کنند. در نتیجه ی تصور حرکت، رخدادهایی در مغز اتفاق می افتد که بر سیگنالهای eeg تأثیر گذار است. هدف از این پایان نامه طبقه بندی داده های eeg ناشی از چهار تصور حرکتی دست چپ، دست راست، پا و زبان می باشد. مجموعه داده مورد استفاده در این پایان نامه، مجموعه 2a از مسابقه چهارم bci که در سال 2008 برگزار شده است، می باشد. در این پایان نامه دو روش که بر مبنای آنها چهار کلاس تصورحرکتی طبقه بندی می شوند، پیشنهاد شده است. یکی از رو ش های کارآمد در تشخیص تصور حرکتی، روش نگاشت به کمک فیلترهای فضاییcsp می باشد. قبل از اعمال این روش، می بایست سیگنال های مغزی از فیلتر میان گذر مناسبی عبور نموده تا ریتم های مغزی مرتبط با تصور حرکتی ویژه فرد، در روش csp بخوبی استخراج گردد. انتخاب مناسب فیلترهای فرکانسی در کنار فیلترهای فضایی یک چالش مهم در این روش می باشد. در یکی از روش های اخیر به نام ossfn، بهینه سازی فیلترهای فضایی و فرکانسی بر اساس ماکزیمم نمودن اطلاعات متقابل بین بردار ویژگی و برچسب کلاس ها انجام می شود. در روش پیشنهادی اول این پایان نامه، روش ossfn از یک مسئله دو کلاسه به یک مسئله چهارکلاسه تعمیم داده شده است. نتایج نشان می دهد که بهینه سازی همزمان فیلترهای فضایی-فرکانسی دقت طبقه بند را نسبت به روشcsp بطور موثری بالا می برد. در بخش دوٌم این پایان نامه، بجای درنظرگرفتن معیار اطلاعات متقابل بین برچسب کلاس ها و بردارهای ویژگی، معیار ارزیابی کاپا (دقت طبقه بندی) بهینه می گردد. در این روش پیشنهادی نشان می دهیم که با معیار ارزیابی کاپا طبقه بندی چهارکلاس تصورحرکتی کارایی بسیار بهتری دارد. همچنین بجای روش گرادیانی که پیچیدگی نسبتاً بالا و احتمال بدام افتادن در نقاط اپتیمم محلی را دارد، در بهینه سازی، از الگوریتم ژنتیک استفاده نمودیم. نتایج بدست آمده از آزمایش، گواهی بر مزیت روش پیشنهادی بر ossfn دارد. الگوریتم پیشنهادی را gaossfn نامیده ایم.

کاربرد روش استخراج ویژگی rootmel جهت تخمین سن افراد با استفاده از سیگنال گفتار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1391
  عاطفه دهقانیان   حسین مروی

تخمین سن بر اساس ویژگی های گفتار انسان، یک موضوع قابل توجه در سیستم های شناسایی گفتار اتوماتیک می باشد. مطالعاتی در زمینه ی تخمین سن گوینده صورت گرفته است ولی نیاز به کار های نوین بیشتری، خصوصا برای گوینده های فارسی زبان، می باشد. در تخمین سن، مانند سایر سیستم های پردازش گفتار، با دو چالش مهم مواجه هستیم: یافتن یک روش مناسب برای استخراج ویژگی و انتخاب یک روش قابل اطمینان برای کلاسه بندی. هدف اصلی از این تحقیق استفاده از ویژگی root mel ferequency cepstral coefficients جهت بخش استخراج ویژگی در یک سیستم تخمین سن و یافتن بهترین مقدار برای داشتن درصد خطای کمتر می باشد؛ و همچنین مقایسه ی عملکرد این ویژگی با سایر ویژگی های متداول نظیر mfcc معمول، plp و lpc نیز مورد بررسی قرار گرفته است . برای استخراج ویژگی، کل سیگنال صوت را به کوچک ترین جزء آن، یعنی واج ها، تفکیک می کنیم و عملیات استخراج ویژگی و رده بندی را بر سیگنال مربوط به واج ها انجام می دهیم. از کلاسه بند به روش های تفکیک پذیری خطی و فواصل mahalanobis استفاده شده است. نتیجه آزمایشات انجام شده بر پایگاه داده ی farsdat به خطای کمترین 28.69 % بازای ریشه ی 0.006 در استفاده از روش rootmfcc و تاثیر مثبت تفکیک سیگنال صوتی به واج های تشکیل دهنده ی آن، در کاهش خطا می باشد.

استفاده از توابع بسل جهت پنهان سازی اطلاعات درون گفتار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و الکترونیک 1391
  ایمان خسرویان چم پیری   حسین مروی

پنهان سازی به معنای مخفی کردن نامحسوس اطلاعات سیگنال پیام (یا سیگنال الگو) در داخل سیگنال میزبان است به نحوی که سیگنال الگوگذاری شده ی حاصل از سیگنال اصلی یا میزبان قابل تمیز نباشد. این کار می تواند به روش های مختلفی انجام شود. سیگنال میزبان و سیگنال پیام هر کدام می توانند یکی از انواع محصولات چند رسانه ای از قبیل تصویر، صوت و متن باشند. تبدیل فوریه – بسل تبدیلی است که سیگنال را به صورت مجموعی از توابع بسل نمایش می دهد. از آنجا که توابع بسل با سیگنال گفتار از نظر ساختاری تشابه دارند، این تبدیل می تواند در زمینه پردازش سیگنال های گفتاری مفید واقع شود. روش های پیشنهاد شده در این پایان نامه، استفاده از تبدیل فوریه – بسل، جهت پنهان سازی اطلاعات در سه روش جایگزینی بیت کم ارزش، طیف گسترده و مدولاسیون اندیس کوانتیزاسیون می باشد. همچنین جهت مقایسه ی کارآیی این روش ها، در کنار آن از سه تبدیل فوریه، کسینوسی و موجک نیز استفاده می گردد. برای مقایسه بین این چهار تبدیل از معیارهای نرخ خطای بیت، هم بستگی بین نهان نگاره اصلی و استخراج شده و شفافیت استفاده می شود. برای دو معیار اول روابطی معرفی شده و برای معیار شفافیت از روش pesq کمک گرفته خواهد شد. جهت تست پایداری در برابر حملات، سیگنال در برابر دو حمله فشرده سازی و افزودن نویز قرار داده می شود. در فشرده سازی، سیگنال به دو روش mp3 و gsm 6.10 فشرده و سپس به فرمت اصلی خود یعنی wav باز گردانده شده و دو پارامتر نرخ خطای بیت و هم بستگی بین نهان نگاره اصلی و استخراج شده محاسبه می گردد. در افزودن نویز، به سیگنال نویز سفید افزوده شده تا میزان نسبت سیگنال به نویز در مقادیر db 10 و db 15 حاصل شود و سپس دو پارامتر نرخ خطای بیت و هم بستگی بین نهان نگاره اصلی و استخراج شده محاسبه می شود. نتایج انجام شده بر روی پایگاه داده timit نشان دهنده ی عملکرد خوب این تبدیل در مقایسه با سایر تبدیل های متداول کسینوسی، فوریه و موجک می باشد.

تشخیص نوع احساس از روی گفتار با استفاده از ویژگی های زمان – فرکانسی
thesis دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - دانشکده برق و الکترونیک 1392
  زینب اسماعیلیان   حسین مروی

تشخیص احساس از روی سیگنال گفتار یکی از موضوعات جدید و چالش برانگیز در پردازش گفتار می باشد که نقش مهمی در ارتباط انسان و کامپیوتر دارد. استفاده از یک پایگاه داده جامع در سیستم تشخیص احساس از اهمیت زیادی برخوردار است. تاکنون پایگاه های داده مختلفی به زبان های آلمانی، انگلیسی، دانمارکی و سایر زبان ها ارائه شده اند اما پایگاه داده فارسی جامعی تاکنون مشاهده نشده است از این رو در این تحقیق پایگاه داده فارسی احساسی درام برای تشخیص احساس از روی گفتار ارائه شده است. این پایگاه داده شامل 748 جمله با 8 احساس عصبانیت، خستگی، نفرت، ترس، طبیعی، ناراحتی، تعجب وخوشحالی می باشد. جملات توسط 33 گوینده (18 مرد و 15 زن) بیان شده اند. به منظور ارزیابی و مقایسه ی پایگاه داده پیشنهادی و پایگاه داده معروف برلین، ویژگی های متداول عروضی و طیفی از جملات این دو پایگاه داده استخراج گردیدند. نوآوری های دیگر در این تحقیق، ارائه دو ویژگی زمان- فرکانسی جدید مبتنی بر وریوگرام و مل کپستروم دو بعدی به منظور تشخیص احساس از روی گفتار می باشد. درآزمایش های انجام شده، از الگوریتم انتخاب ویژگی مبتنی بر معیار fdr و الگوریتم lda استفاده نموده ایم. به منظور کلاسه بندی احساس های مختلف ازالگوریتم های lda، svm خطی و svm با کرنل rbf استفاده نموده ایم. بیشترین نرخ تشخیص از ترکیب ویژگی های وریوگرام (پیشنهادی) با ویژگی های عروضی و طیفی حاصل شده است که در پایگاه داده درام برای گویندگان مرد 34/57% و برای گویندگان زن 18/63% و درپایگاه داده برلین برای گویندگان مرد 43/90% و برای گویندگان زن 82/86% محاسبه شد.

بازشناخت مقاوم گفتار فارسی با استفاده از ضرایب مل-کپستروم بهبودیافته و شبکه عصبی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و کامپیوتر 1392
  دانیال دارابیان   حسین مروی

ضرایب مل-کپستروم یکی از فراگیرترین ویژگی های مورد استفاده در کاربردهای بازشناسی گفتار است.مشکل عمده در به کارگیری این ضرایب آسیب پذیری و حساسیت بالای آن ها در محیط های نویزی می باشد.در این ژایان نامه یک روش مقاوم در برابر نویز، جهت استخراج ویژگی ضرایب مل-کپستروم معرفی شده است.اساس تغییرات اعمال شده در الگوریتم پیشنهادی عبارتند از : به کار بردن تفریق میانگین سیگنال به ترتیب در حوزه های زمان و فرکانس ،استفاده از تابع خودهمبستگی و حذف ضرایب مرتبه پایین ،تغییر پنجره ی مورد استفاده در مرحله ی پنجره بندی گفتار،استفاده از فیلتر های مناسب جهت حذف نویز کانولوشن ،استفاده از فیلتر بانک گوسی به جای فیلتر بانک مثلثی،افزودن بلوک های جبرانگر به تابع لگاریتم جهت بالا بردن مصونیت این بخش آسیب پذیر از الگوریتم. جهت ارزیابی عملکرد الگوریتم پیشنهادی و همچنین طبقه بندی نتایج، از یک شبکه عصبی پرسپترون چند لایه استفاده شده است. نتایج آزمایش های تشخیص گفتار فارسی در نرخ سیگنال به نویزهای متفاوت، نشان گر افزایش معنادار نرخ تشخیص در محیط نویزی و نیز مصونیت بیشتر الگوریتم پیشنهادی نسبت به الگوریتم پایه و همچنین برخی از الگوریتم های مطرح در این خانواده است. .

طراحی وساخت یک دستگاه مبتنی بر پردازشگرهای سیگنال tms320c55xx به منظورحرکت دادن بالا/پایین یک بازوی مکانیکی با استفاده از سیگنالهای تصور مغز (eeg)
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1392
  ساناز خوش ضمیر   حسین مروی

سیگنال¬های مغزی در کاربردهای بسیاری نظیر تشخیص بیماری، تشخیص هوشیاری، سیستم¬های bci و غیره مورد استفاده قرار می¬گیرند. در این پایان نامه، هدف، طراحی و ساخت یک سیستم الکترونیکی جهت تشخیص تصور حرکت بازو در کاربردهای bci بر روی پردازنده¬های dsp است. در این راستا با هدف یافتن یک روش مناسب که هم دقت بازشناسی مناسب و هم قابلیت پیاده سازی سخت افزاری داشته باشد، چند روش موجود مورد بررسی قرار گرفته است. به¬دلیل رو به رشد بودن سیستم¬های مبتنی بر سیگنال¬های مغزی، نبود پایگاه داده مناسب در کشورمان، و اهمیت پایگاه داده¬ی مناسب در نتایج تحقیقات، در این پژوهش، یک پایگاه داده¬ی مناسب در زمینه¬ی کنترل حرکت بازو با استفاده از تصورات حرکتی ایجاد شده است. برای تهیه¬ی این پایگاه داده از 3 داوطلب خواسته شد تا 4 حرکت خاص بازو را تصور کنند. این پایگاه داده، برای هر شخص 100 آزمایش از 4 حرکت در دو حالت چشم باز و چشم بسته را شامل می¬شود. سپس از روش ردگیری انطباق، جهت ارزیابی پایگاه داده خود و نیز به عنوان یک روش نو در استخراج ویژگی استفاده شد که طبق تحقیقات صورت گرفته، تاکنون از این روش در این کاربرد استفاده نشده است. این روش، با دو روش موجک و بسته موجک مقایسه و در هر سه روش از طبقه¬بند svm استفاده شده است. طبق نتایج شبیه¬سازی، روش پیشنهادی با توجه به معیارهای میانگین و واریانس دقت بازشناسی، توانست نسبت به دو روش دیگر دقت طبقه¬بندی را تا حدی افزایش دهد. علاوه بر این مشخص شد در روش پیشنهادی با انتخاب درست دیکشنری و تعداد دفعات تکرار مناسب، می¬توان نتایج میانگین بازشناسی را تا حدی بهبود داد. در ادامه به منظور پیاده سازی یک الگوریتم مبتنی بر موجک، ابتدا یک سخت افزار مناسب جهت دریافت دو کانال از سیگنال¬های مغزی طراحی و ساخته شده است که از ویژگی¬های آن می¬توان به قابل حمل بودن و کم مصرف بودن آن (24 میلی وات) اشاره کرد. سپس جهت پردازش سیگنال¬های دریافتی یک سخت افزار دیگر مبتنی بر پردازنده tms320c5509a طراحی و ساخته شده است که این بُرد نیز قابل حمل بوده و توسط باتری قابل راه اندازی است. سپس سیستم طراحی شده برای یک فرد مشخص آموزش داده شده است تا بتواند دو تصور مختلف انجام شده توسط آن فرد را تشخیص دهد. نتایج بدست آمده نشان می¬دهد با استفاده از انرژی ضرایب موجک بدست آمده در باند فرکانسی بتا و انتخاب یک آستانه مناسب برای هر فردی می¬توان تصورات آموزش داده شده را تشخیص داد.

تشخیص لهجه های مختلف فارسی بر اساس شکل موج گفتار
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1392
  مجتبی شریف نوقابی   حسین مروی

یک سیگنال گفتار علاوه بر متن گفته شده حاوی اطلاعات زیادی از جمله سن و جنسیت احساسات و استرس، لهجه و گویش و سلامتی گوینده می باشد. یکی از مواردی که ممکن است باعث کاهش چشمگیر بازدهی یک سیستم تشخیص گفتار گردد تغییر لهجه آن است. به طوری که اگر یک سیستم با یک لهجه خاص آموزش دیده باشد و سپس با لهجه ای غیر از لهجه ای که با آن آموزش دیده است آزمایش شود، شاهد کاهش نسبتاً زیادی در بازدهی سیستم تشخیص گفتار خواهیم بود. با روشن شدن اهمیت مسئله تشخیص لهجه ها، اهمیت تدوین این پایان نامه نیز روشن می شود. در این تحقیق تعدادی ویژگی جدید مانند فرکانس مرکزی طیفی و دامنه مرکزی طیفی در مرحله استخراج ویژگی معرفی شده اند تا در کنار سایر ویژگی هایی که در تحقیقات گذشته استفاده شده اند از سیگنال گفتار لهجه دار استخراج شوند. علاوه بر این تعدادی ویژگی مقاوم به نویز به منظور تشخیص لهجه ها در محیط نویزی معرفی گردیده اند. در مرحله طبقه بندی علاوه بر استفاده از طبقه بندهای استفاده شده در تحقیق های قبلی از شبکه توابع بنیادی شعاعی نیز برای طبقه بندی استفاده شده است و یک پیشنهاد به منظور بهبود عملکرد طبقه بند ماشین بردار پشتیبان ارائه گردیده است. به عنوان آخرین روش پیشنهادی در مرحله طبقه بندی از روش ترکیب طبقه بندها استفاده شده است. برای انجام آزمایش های مختلف،داده های این پایان نامه از پایگاه داده farsdat انتخاب شده اند. نتایج آزمایش ها، نشان دهنده بهبود عملکرد سیستم در بیشتر روش های پیشنهادی است.

بکارگیری اطلاعات موجود در ضرایب کپسترال دینامیکی گفتار فارسی جهت تشخیص استرس
thesis دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - دانشکده مهندسی برق و الکترونیک 1392
  فاطمه همتی   حسین مروی

جستجوی اطلاعات بر اساس صوت، تصویر و یا ویدئو هستند. براین اساس و با توجه به حجم بالای اطلاعات موجود، روش های تحلیل و دسته بندی اتوماتیک صوتی از اهمیت خاصی برخوردار است. وابستگی آن به متغیرهای کیفی انسان بر پیچیدگی کار می افزاید. در این پایان نامه سعی شده است با آنالیز صوت، روشی برای تشخیص استرس از روی پارامترهای مبتنی بر ضرایب کپسترال دینامیکی بیان شود. تغییر مشخصات گویندگان، تغییرات فرهنگی، زبان و تعریف استرس به صورت دقیق و... از جمله مواردی هستند که بر پیچیدگی کار می افزایند. با توجه به عدم دسترسی به پایگاه داده فارسی برای تشخیص استرس ابتدا یک پایگاه داده مناسب آماده شده که سعی کردیم پارامترهای موجود در پایگاه داده-های استاندارد در آن لحاظ شود. سپس براساس ویژگی های صرفا مبتنی بر ضرایب کپسترال، استرس دار یا بدون استرس بودن گفتار مشخص شده است. بدیهی است بدلیل اینکه روش فقط بر پایه ضرایب کپسترال دینامیک می باشد، هنگام ارزیابی درصد صحت آن بخوبی روش های ترکیبی یا پارامتری نخواهد بود. با این حال نتایج بدست آمده نشان داد استرس موجود در گفتار، مستقل از فرهنگ و قومیت بر ضرایب کپسترال تأثیرمعنی داری می گذارد ولذا در اکثر موارد از روی ویژگی های استخراجی از ضرایب کپسترال می توان استرس را تا حد قابل قبولی تشخیص داد و ما با استفاده از این ویژگی ها به درصد تشخیص خوبی برای تشخیص استرس رسیدیم.

تشخیص نیازهای نوزادان از طریق آنالیز صدای گریه آن ها
thesis دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - دانشکده مهندسی برق و الکترونیک 1393
  سیروس طالبی   حسین مروی

گریه نوزاد یکی از مهم ترین کانال های ارتباطی با دنیای اطرافش است که توسط آن می تواند بسیاری از نیازهای خود را بیان کند همچنین از طریق آنالیز گریه نوزاد می توان به کم کاری تیروئید او پی برده و از همان کودکی برای درمان او برنامه ریزی نمود. در این پروژه سعی شده است یکسری از نیازهای اساسی نوزادان مانند گرسنگی، ناراحتی، خستگی، نیاز به رفع بادگلو و نفخ شکم را از طریق آنالیز گریه آن ها تشخیص داده و به بررسی و تجزیه وتحلیل آن ها پرداخت. دیتابیس لازم برای انجام این پروژه از فیلم آموزشی dunstan baby language استخراج گردیده است. در این فیلم آموزشی به طور میانگین جهت هر نوع نیاز نوزاد از 20 نوع گریه کودکان مختلف استفاده شده است. پس از آماده نمودن دیتابیس، ضرایب mfcc و مشتقات اول و دوم آن استخراج می شود و نتایج استفاده از پنجره های مختلف در استخراج این ضرایب و یا تغییر فرکانس فیلتر بانک ها بر روی دقت تشخیص این نیازها بررسی می شوند. به منظور کلاسه بندی نمونه ها از الگوریتم dtw استفاده گردیده و سعی شده روش هایی جهت بهبود دقت تشخیص نیازهای نوزاد پیشنهاد گردد. در انتها معین می شود چنانچه از ضرایب imfcc و مشتقات اول و دوم آن جهت استخراج ویژگی استفاده شود و در مرحله windowing نیز از پنجره flattop استفاده گردد با تنظیم فرکانس فیلتر بانک ها بین یک کیلوهرتز الی ده کیلوهرتز به دقت بالای هفتاد درصد در هر کلاس دست می یابیم.

تشخیص تغییر صحنه در فریم های ویدئویی، اخبار تلویزیونی (تشخیص تغییر نما و تعیین نوع آن)
thesis دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - دانشکده مهندسی برق و الکترونیک 1393
  مهدیه غلامعلی بیک   هادی گرایلو

قسمت بندی ویدئو به نماهای تشکیل دهنده ی آن یک پیش پردازش بسیار مهم و مورد نیاز در اغلب تحقیقات مربوط به پردازش ویدئو از جمله اندیس گذاری و بازیابی ویدئو می باشد . این پایان نامه روی توصیف فعالیت و حرکت برای تشخیص مرزنما در توالی های ویدئویی مربوط به اخبارورزشی تمرکز دارد. اطلاعات موردنیاز جهت تشخیص صحنه های ورزشی ازغیرورزشی ازروی فعالیت و حرکت در حوزه غیر فشرده بر اساس الگوی تطبیقی (arps ) بدست می آیند . دراین پایان نامه از تعدادی ویدئوشامل اخبارورزشی جهت تشکیل پایگاه داده استفاده شده است . تعدادکل فریم های ویدئویی17925 فریم است . فریم هایی که دارای مجری هستند 7441 فریم می باشد وفریم هایی که توسط برنامه به درستی تشخیص داده شده اند 6454 فریم می باشد . بنابراین دقت بازشناسی برنامه طراحی شده حدود 86/74% می باشد.

شناسایی گوینده مبتنی بر انتخاب ویژگی مناسب با استفاده از الگوریتم رقابت استعماری
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1393
  محمد سلیمان پور   حسین مروی

شناسایی گوینده یکی از موضوع های مورد علاقه محققان در زمینه پردازش گفتار و هوش مصنوعی در چند دهه گذشته می باشد. در سالیان متوالی، تلاش های فراوانی در قسمت های مختلف این نوع سیستم ها برای بهبود کارایی آن شده است. یکی از این قسمت ها که می تواند باعث بهبود سیستم های شناسایی گوینده شود، قسمت انتخاب ویژگی می باشد. معمولاً برای برگزیدن ویژگی های مطلوب تر که باعث بهبود عملکرد سیستم می شود، بعد از مرحله استخراج ویژگی از انتخاب ویژگی استفاده می کنند. برای انجام این کار، روش ها و ابزارهای مختلفی وجود دارد که در این پایان نامه از خوشه بندی برای یافتن بردارهای ویژگی که بیشترین تشابه را دارند استفاده شده است و در نتیجه این بردارهای مشابه، بیشترین خصوصیات مربوط به مجرای صوتی فرد را مشخص می کند. این کار باعث همگرایی بیشتر برای ساخت مدل هر فرد و یا مرزهای تصمیم گیری بین افراد می شود. در این پایان نامه دو روش پیشنهاد شده است که در هر دو روش از الگوریتم رقابت استعماری جهت خوشه بندی بردارهای ویژگی استفاده شده است و همچنین دو الگوریتم دیگر خوشه بندی k-means و خوشه بندی pso برای مقایسه کارایی الگوریتم رقابت استعماری بکار گرفته شده است. در نهایت، نتایج دو روش پیشنهادی را با دو روش svm و elm بهینه سازی شده را از نظر نرخ بازشناسی و مدت زمان استفاده شده از داده گان مقایسه کرده ایم. بررسی نتایج نشان می دهد که نرخ بازشناسی در روش های پیشنهادی بهبود یافته است. در این پروژه ما از داده گان elsdsr استفاده کرده ایم. به دلیل ماهیت داده گان موجود، در این پایان نامه یک سیستم شناسایی گوینده مستقل از متن خواهیم داشت.

بازشناسی اشیاء با استفاده از ویژگی های محلی جهت درک ربات از محیط و پیاده سازی سخت افزاری روی پردازنده دیجیتال tms320dm6446
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و الکترونیک 1393
  جواد جوکار   حسین مروی

در این پایان نامه مسأله شناسایی اشیاء از پیش تعیین شده در یک تصویر از صحنه، مورد مطالعه قرار می گیرد. این مسأله کاربرد فراوانی در بینایی ربات دارد. از آنجا که برای یک ربات مسأله بلادرنگ بودن الگوریتم یک امر مهم است، روش ارائه شده باید دارای سرعت خوبی بوده و همچنین دقت آن هم مناسب باشد. با بررسی روش های موجود از توصیفگر surf برای بازنمایی تصویر شیء استفاده شد. این روش هم دقت خوب و هم سرعت مناسبی دارد. برای انطباق توصیفگرهای استخراج شده فاصله اقلیدسی بین زوج توصیفگرهای صحنه و مدل اشیاء محاسبه می گردد. این روش به دلیل پیچیدگی محاسباتی کم پیشنهاد گردید. در مرحله تطبیق یک سری داده های پرت بوجود می آیند که برای حذف آن ها از روش ransac استفاده شده است. همچنین برای پیاده سازی الگوریتم روی ربات باید از یک سخت افزار استفاده کنیم که قابل حمل بوده و همچنین سرعت اجرای مناسبی داشته باشد. به همین منظور ما از پردازنده ِی dsp شرکت ti سری داوینچی مدل dm6446 بهره برده ایم. ما در این پایان نامه الگوریتم پیشنهادی را بر روی سخت افزار اشاره شده پیاده سازی نمودیم.

استخراج ویژگی های زمانی- فرکانسی از سیگنال های گفتار فارسی جهت بهبود کارایی یک سیستم vad برای ارتباط انسان و ربات
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده مهندسی برق 1393
  فهیمه جمهوری   حسین مروی

استفاده از ربات های اجتماعی در زندگی انسان ها افزایش یافته است و اصلی ترین راه ارتباط انسان ها با آنها ارتباط کلامی است. ربات های اجتماعی دارای میکروفونی هستند تا بتوانند سیگنال گفتار را برای ارتباط با انسان دریافت کنند. با توجه به دریافت نویز محیطی به هنگام ضبط گفتار انسان، نیاز به سیستمی برای تشخیص قسمت های گفتار در سیگنال های صوتی ضبط شده می باشد. هدف این پایان نامه طراحی یک سیستم آشکارساز فعالیت گفتاری است که بتواند با مشخص نمودن بخش های گفتار در یک محیط نویزی کارایی یک سیستم پردازش گفتار مورد استفاده برای یک ربات اجتماعی را افزایش دهد. در این پایان نامه، ویژگی های مختلفی جهت استخراج از سیگنال گفتار برای سیستم آشکارساز فعالیت گفتاری پیشنهاد شده است. این ویژگی ها با استفاده از ترکیب ویژگی انرژی با هر یک از ویژگی های ضرایب کپسترال فرکانس مل ریشه، ضرایب کپسترال فرکانس بارک، ضرایب پیش بینی ادراکی خطی و ضرایب پیش بینی ادراکی خطی تجدید نظر شده ارائه شده اند. روش پیشنهادی دیگری که در این پایان نامه مطرح شده بر مبنای ویژگی ویگنر ویل به عنوان یک روش استخراج ویژگی زمانی-فرکانسی است. این روش در مقایسه با روش های پیشنهادی مبتنی بر ویژگی انرژی و ویژگی های کپسترال، کارایی بهتری دارد. بنابراین برای افزایش کارایی روش های مبتنی بر ویژگی های کپسترال علاوه بر ویژگی انرژی، با ویژگی ویگنر ویل نیز ترکیب شده اند. برای ارزیابی کارایی روش های پیشنهادی، دادگان گفتاری فارس دات که یک پایگاه داده استاندارد و به زبان فارسی می باشد، به کار رفته است. با افزودن چند نوع متفاوت نویز به فایل های این پایگاه داده در شرایط مختلف نسبت سیگنال به نویز، مقاومت روش های پیشنهادی نسبت به نویزهای متفاوت سنجیده شده اند. آزمایشات نشان داده اند که برخی از روش های استخراج ویژگی پیشنهادی در این پایان نامه در مقایسه با روش متداول استخراج ویژگی ضرایب کپسترال فرکانس مل در محیطهای نویزی کارایی بهتری دارند.

کاربرد تحلیل ادراکی پیشگویی خطی جهت پنهان ‎سازی اطلاعات گفتار
thesis دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - دانشکده مهندسی برق 1393
  علی کرم عزیزیان   حسین مروی

امروزه با پیشرفت فناوری، داده¬های دیجیتال می¬توانند به¬صورت شبکه به آسانی اشتراک گذاشته شوند و در اختیار همگان قرار گیرند؛ که باعث کپی¬های غیرمجاز، توزیع داده¬های دیجیتال و از بین بردن حقوق مالکین اثر می¬گردد. هدف پنهان¬سازی صوتی استفاده فناوری برای مخفی کردن اطلاعات در یک فایل صوتی است به¬گونه¬ای که قابل شنیدن نبوده و تأثیری در کیفیت صدای فایل اصلی نداشته باشد. طی این تحقیق از روش تحلیل ادراکـی پیشگویی خطـی جهت پنهان¬سازی اطلاعـات گفتار که به لحاظ ادراکی قابل تشخیص نمـی¬باشد، معرفی و با استفاده از نرم¬افزار matlab آن را پیاده¬سازی کردیم. در روش استفاده شده سیگنال میزبان را از پایگاه داده تیمیت دریافت کرده و پیام را متن speech watermarking plp rasta در نظر گرفته¬ایم و بعد از انجام پنهان¬سازی نتایج نشان داد نرخ خطای بیت در حالت بدون نویز سفید گوسی مقدار 5198/0 و با نویز سفیـد گوسی مقدار 4683/0 می¬باشد و همچنین با مقایسه¬ روش پیشنهادی و پنهان¬سازی با استفاده از ضرائب dct1 با چهار نوع نویز مختلف نشان داد که روش پیشنهادی مقاومت خیلی خوبی در برابر نویزهای مختلف دارد.

آنالیز موضوعی و تخصیص مولف متون فارسی و عربی با استفاده از اطلاعات ساختاری اجزای متن
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده مهندسی برق 1393
  علی شهنما   حسین مروی

تخصیص نویسنده یکی از زیرشاخه های پردازش متن می باشد که هدف اصلی آن تعیین هویت نویسنده ی یک متن است. به عبارت دیگر هدف اصلی این حوزه، طراحی سیستمی است که بتواند هویت نویسنده ی یک متن را از میان چند نویسنده ی نامزد تعیین نماید. به منظور طراحی چنین سیستمی می بایست تعدادی متن از هر نامزد در اختیار داشته باشیم. تمامی پژوهش های گذشته در حوزه ی تخصیص نویسنده ی متون فارسی به روش های مبتنی بر سیستم های پردازش زبان های طبیعی (nlp) منحصر می شوند، اما هدف اصلی این پایان نامه بررسی عملکرد روش هایی موسوم به ndp بر روی مسائل تخصیص نویسنده ی زبان فارسی است. این روش ها بر مبنای تعداد تکرار انگرام ها طراحی شده و کاملاً مستقل از سیستم های nlp می باشند. در این پایان نامه مهم ترین روش های ndp موجود مطالعه شده و سپس با الهام از آن ها، دو روش جدید پیشنهاد شده است. در روش پیشنهادی اول (cng-wis) به جای استفاده از فرکانس انگرام ها، اندیس آن ها جهت حل مسائل به کار رفته است. در دومین روش پیشنهادی (vng) به جای آنکه انگرام های پرتکرار مبنای کار قرار گیرند، از انگرام های پراکنده استفاده شده است. به منظور ارزیابی روش های موجود و هم چنین مقایسه ی روش های پیشنهادی با آن ها، از چهار مجموعه متن (یا پایگاه داده) مختلف از دو زبان فارسی و عربی استفاده شده است. یکی از این مجموعه متن ها (به نام cppt) توسط نگارنده گردآوری شده و دارای 145متن از 6 نویسنده ی معاصر فارسی زبان می باشد. نتایج بدست آمده حاکی از آنست که علاوه بر روش های ndp موجود، روش های پیشنهادی نیز قدرت بالایی در حل مسائل تخصیص نویسنده ی زبان های فارسی و عربی دارند. در انتها، دو مسئله ی خاصِ حوزه ی ادبیات فارسی بررسی شده اند: نظیره های گلستان و غزلیات سبک هندی. بدین منظور دو مجموعه متن دیگر با نام های gbp (شامل 75 حکایت از سه نویسنده) و sbh (شامل 90 غزل به سبک هندی از سه شاعر) توسط نگارنده جمع آوری شده است. نتایج بدست آمده نشان می دهد که روش های ndp علاوه بر مسائل تخصیص نویسنده ی متون نثر فارسی، در حکایات (ترکیبی از نثر و نظم) و اشعار نیز قدرت بالایی دارند. کلمات کلیدی: تخصیص نویسنده، انگرام، روش های مبتنی بر پروفایل، نشانگر سبک، مجموعه متن cppt، مجموعه متن gbp و مجموعه متن sbh.

بررسی اثر تفکیک جنسیتی در سیستم های بازشناسی احساس از روی گفتار
thesis دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - دانشکده مهندسی برق 1394
  حسن باچ   علی حریمی

تشخیص احساس از روی سیگنال گفتار یکی از شاخه های نسبتا جدید در پردازش گفتار می باشد که می تواند در تعامل انسان و ربات نقش مهمی ایفا کند و در حوزه های روانشناسی و روانپزشکی، فن-آوری اطلاعات و صنعت و تجارت کاربرد زیادی دارد. ما در این تحقیق یک سیستم تشخیص احساس از روی گفتار طراحی نموده ایم، که بدین منظور از ویژگی های عروضی و طیفی سیگنال گفتار استفاده گردیده است و نتایج حاصل از انجام آزمایشات بدست آمده از روش پیشنهادی بازسازی فضای فاز، با آزمایشاتی که بر روی پایگاه داده معروف برلین با استفاده از ویژگی های عروضی و طیفی سیگنال گفتار انجام گرفت مقایسه شده است. ابتدا سیستم مورد نظر برای گویندگان مختلط و سپس برای گویندگان زن و مرد به طور جداگانه، طراحی شده است. سپس داده ها با استفاده از طبقه بندهای مختلف از جمله ماشین بردار پشتیبان با کرنلrbf طبقه بندی گردیده اند. در هر دو روش آزمایش، بالاترین نرخ تشخیص به ترتیب برای سیستم گویندگان زن، گویندگان مختلط و گویندگان مرد با استفاده از طبقه بند ماشین بردار پشتیبان با کرنلrbf به دست آمده است. بهترین میانگین نرخ تشخیص بدست آمده برای سیستم گویندگان مختلط، زن و مرد با روش پیشنهادی به ترتیب 91.21%، 96.67% و 85.47 % و میانگین نرخ تشخیص سیستم تفکیک جنسیتی شده نیز 91.77% می باشد. همچنین میانگین نرخ تشخیص بدست آمده برای سیستم گویندگان مختلط، زن و مرد با ویژگی های طیفی و عروضی به ترتیب 89.34 % ،96.67% و 89.31 % و میانگین نرخ تشخیص سیستم تفکیک جنسیتی شده نیز 93.45% می باشد. نتیجه می گیریم که تفکیک جنسیتی نرخ تشخیص سیستم را در روش پیشنهادی از عدد 91.21% به عدد 91.77% و در روشی که آزمایشات را با ویژگی های طیفی و عروضی انجام دادیم از عدد 89.34 % به عدد 93.45% بهبود بخشیده است.

استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1392
  نسرین یادگار خسرویه   حسین مروی

در این پایان نامه روشی برای شناسایی مصوت های فارسی در کلمات تک سیلابی ارائه می شود. برای این منظور پس از جداسازی فریم های تصویر و انتخاب فریم هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه ای پیرامون لب ها، ویژگی های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب mfcc برای تشخیص مصوت ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی lsda، ویژگی ها را کاهش دادیم. در نهایت موثرترین ویژگی ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. ویژگی های استخراجی به عنوان ورودی به شبکه عصبی اعمال شدند. بهترین نرخ شناسایی از محاسبه ضرایب mfcc از 1/4 بردار ضرایب dct بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

کاهش نوفه در داده های لرزه ای مبتنی بر تلفیق روش های آماری و تبدیل های زمان-فرکانس
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق 1394
  محمد امیر نظری سیاه سر   امین روشندل کاهو

تضعیف نوفه های تصادفی یک چالش اساسی در پردازش داده های لرزه ای است. این نوفه ها توسط نوسانات تصادفی در طول زمان و فرکانس بر روی سیگنال دریافتی تأثیر می گذارند. در این پایان نامه، ما به معرفی و ارزیابی یک روش برای تضعیف این نوفه ها بر اساس تجزیه یک ماتریس به دو مولفه "رتبه پایین" و "تُنک" خواهیم پرداخت. در این روش ابتدا یک ردلرزه توسط یک تبدیل زمان-فرکانس تنک در یک زیر فضای تنک جدید به نمایش در آورده می-شود. سپس این ماتریس در زیرفضای تنک توسط اَفکنش تصادفی دو جهته به دو مولفه بخش رتبه پایین و بخش تنک تجزیه می-شود. روش پیشنهادی در نهایت توسط اعمال بر روی داده های مصنوعی و واقعی آزمایش شده است. نوفه زدایی با دو روش دیگر در این حوزه مقایسه خواهد شد. ما در این پایان نامه نشان دادیم که روش پیشنهادی یک تکنیک موثر، با قابلیت حفظ دامنه سیگنال و پایدار در برابر نوفه خواهد بود و نتایج آن توسط دو معیار کمّی و کیفی بررسی شده و عملکرد مناسب این روش در بازیابی سیگنال به تصویر کشیده شده است.

ناحیه بندی تصاویر به کمک مدلسازی معیار یکپارچگی با توابع گوسی تلفیقی و بهینه سازی pso
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1388
  علی حریمی   علیرضا احمدی فرد

چکیده ناحیه بندی تصاویر اولین گام و یکی از مهم ترین بخش های یک سیستم بینایی ماشین یا پردازش تصویر می باشد، ازینرو خطای ناشی از این مرحله یک ورودی برای سایر بلوک های سیستم به شمار آمده و تاًثیر بسزایی در خطای کل سیستم خواهد داشت. بنابراین دقت این الگوریتم در کارآیی کلی سیستم نقش چشم گیری دارد .در این راستا هدف این تحقیق آن بوده است که روشی جدید برای ناحیه بندی تصاویر ارائه شود که دقت ناحیه بندی تصاویر را افزایش دهد. لازم به ذکر است که ناحیه بندی تصویر را می توان در دو حوزه ی ناحیه بندی با سرپرست و ناحیه بندی بدون سرپرست بررسی نمود. مبنای انجام این تحقیق ناحیه بندی بدون سرپرست می باشد. در این تحقیق ناحیه بندی بدون سرپرست را در سه شاخه ی ناحیه بندی تصاویر خاکستری، ناحیه بندی تصاویر رنگی و ناحیه بندی بافت ها مورد ارزیابی قرار خواهیم داد. برای ناحیه بندی تصاویر خاکستری هیستوگرام همبستگی را برای پیکسل های تصویر تعریف نموده و آن را بوسیله ی تلفیقی از توابع گوسی مدل می کنیم. آستانه های بهینه را برای ناحیه بندی تصویر از مدل تلفیقی مذکور بدست آورده و به تصویر مربوطه اعمال می کنیم. نتایج حاکی از بهبود عملکرد الگوریتم بویژه در تصاویر نویزی می باشد. برای ناحیه بندی تصاویر رنگی نیز یک روش جدید بر مبنای آستانه گذاری روی هیستوگرام ویژگی های مربوط به رنگ پیکسل های تصویر ارائه می کنیم. بدین منظور هیستوگرام رنگ را برای پیکسل های تصویر بدست آورده و با یک پیش پردازش آن را برای مدل سازی آماده می کنیم. سپس آستانه های مناسب را از مدل گوسی تلفیقی این منحنی بدست می آوریم. روش پیشنهادی در مقابل سایر روش های بررسی شده کارآیی بسیار خوبی دارد. بویژه در تصاویری که تحت تاًثیر نویز روشنایی محیط قرار گرفته اند کارآیی الگوریتم بصورت چشمگیر بهبود پیدا می کند. روش رایج ناحیه بندی بافت ها در تصاویر استفاده از فیلتر های گبور می باشد. اشکال عمده ی این روش حجم بالای محاسبات و وابستگی الگوریتم به پارامترهای بانک فیلتر طراحی شده می باشد. در این راستا روشی جدید ارائه نمودیم که از ویژگی های آماری توزیع روشنایی پیکسل های تصویر مانند میانگین و واریانس روشنایی پیکسل ها در همسایگی های با ابعاد مشخص استفاده می کند. نتایج حاکی از کارآمد بودن الگوریتم پیشنهادی می باشند.

بررسی پایداری سیستمهای فیدبکی کسری غیرخطی (سیستم لوره)
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1388
  احمد حاجی پور   حیدر طوسیان شاندیز

در این رساله، ابتداء به معرفی علم محاسبات کسری و تعاریف مختلف اپراتورهای مرتبه کسری پرداخته شده و در ادامه خصوصیات و مشخصات سیستمهای توصیف شده با معادلات کسری بیان شده است. از فصول میانی به بعد سعی شده است که به سوالات مطرح شده در زمینه پایداری سیستمهای مرتبه کسری خطی و غیرخطی تا حدامکان پاسخ مناسبی داده شود. بحث تحلیل پایداری سیستمهای مرتبه کسری غیرخطی ( سیستمهای لوره ) برای اولین بار در این رساله انجام شده است و سعی شده که قضیه پایداری پوپوف به سیستمهای مرتبه کسری غیرخطی فیدبکی ( لوره) تعمیم داده شود.