نام پژوهشگر: شهرام خدیوی
وحید دهقان شهرام خدیوی
یافتن روابط معنی دار در اطلاعات خرید از موضوعات سابقه دار در داده کاوی است، که راه حل آن تحلیل و کاوش قوانین وابستگی است، در این تحقیق قصد داریم که رویکردی مناسب برای یافتن تکه مسیر هائی که ارتباط تنگاتنگی به لحاظ عبور و مرور بر هم دارند را در قالب قوانین وابستگی بررسی کنیم. تشخیص مسیرهائی که ترافیک آن ها بسیار به یکدیگر مرتبط و تاثیرگذاراست، منجر به ایجاد ترافیک روان و هدایت ترافیکی خواهد شد، این مسئله در گذشته معروف به دانش محدوده شهری بوده است. رویکرد ارائه شده توسعه ای است از روش cbar ، که بجای تقسیم پایگاه داده از روش خوشه بندی استفاده شده و الگوریتم الگوهای مکرر وظیفه تولید قوانین را بر عهده دارد. با توجه به نوع داده های موجود و نیاز به بررسی تأثیر مسیرها بر هم، استفاده از روش های معمول خوشه بندی میسر نیست، و لذا سازمانی به شکل یک گراف مورد نیاز است، پس از ساخت گراف ارتباطی تکه مسیرها، به دنبال روشهائی هستیم، که خوشه های واقعی گراف را در کمترین زمان و بهینه ترین تعداد مشخص کنند. با انجام تحقیقات در حوزه خوشه بندی گراف، الگوریتم های infomap ، blondel را برای خوشه بندی انتخاب می کنیم. گراف را با این دو روش خوشه بندی کرده و سپس قوانین وابستگی را از هرکدام از خوشه های بدست آمده استخراج می کنیم، برای تأثیر بر تشخیص بهینه خوشه ها علاوه بر معیاری که هر الگوریتم منتخب دارد، با توجه به تراکنش های واقعی، اقدام به وزن گذاری ارتباطات تکه مسیرها خواهیم نمود. در این روش مبتنی بر شبکه، علاوه بر اینکه نیاز به کاوش لیست های حجیم را کاهش داده و موجب تولید قوانین جذاب با سرعت بالا می شویم، بلکه مشکل روش های خوشه بندی که همانا تعیین پارامتر تعداد خوشه ها نیز هست را مرتفع می کنیم. با استفاده از شاخصه، پشتیبان و معیار قابلیت درک ، روش مفید خوشه بندی که هزینه زمان و حافظه کمتری در مقایسه با روشهای دیگر دارد و قوانین مناسبی را استخراج می کند، معرفی می شود.
زکیه شاکری نوشین ریاحی
با افزایش روزافزون حجم اطلاعات در دنیای امروز و آسان شدن برقراری ارتباط در سرتاسر دنیا توسط شبکه جهانی، اهمیت داشتن مترجم های خودکاری که بتوانند به صورت بلادرنگ و در عین حال دقیق، این اطلاعات را به زبان های مختلف آماده کنند، به شدت احساس می شود. این زمینه با ظهور ماشین های مترجم آماری جان تازه ای به خود گرفت. روش های ترکیبی ترجمه نیز در سالیان اخیر طرفداران بسیاری پیدا کرده است، خصوصاً برای ترجمه زبان هایی مانند فارسی که ابزار و داده های مناسب برای ایجاد سیستم آماری مطلوب وجود ندارد. سیستم ترکیبی پیشنهاد شده در این پایان نامه که برای ترجمه بین جفت زبان های انگلیسی و فارسی طراحی شده است به دو روش، رویکردهای غالب ترجمه ماشینی یعنی رویکرد آماری و رویکرد مبتنی بر قاعده را با هم ترکیب می کند. در روش اول این دو رویکرد بصورت درهم تنیده با هم ترکیب می شوند بدین صورت که سیستم پایه آماری بوده و آنرا با استفاده از ویژگیهای زبان بهبود می دهیم. تحقیقات انجام شده نشان می دهند که برچسب pos موثرترین فاکتور زبانی در این نوع سیستم های ترکیبی است که متأسفانه برای زبان فارسی برچسب زن های موجود جوابگو نبودند. لذا در اولین گام یک برچسب زن pos فارسی مناسب با دقت بالا آماده نمودیم. سیستم ترجمه ترکیبی که از این ابزار استفاده می کند کیفیت ترجمه بهتری نسبت به سیستم آماری دارد. از سوی دیگر سیستم های آماری حال حاضر برای زبان هایی با ساختار گرامری مشابه بهتر عمل می کنند اما دو زبان فارسی و انگلیسی ساختارهای بسیار متفاوتی دارند و لذا سیستم ترجمه آماری آنها کیفیت خوبی ندارد. در روش ترکیبی پیشنهادی دوم از جابجایی کلمات در مرحله پیش پردازش استفاده شده است. بدین صورت که با استفاده از تکنیک های آماری، قواعد جابجایی کلمات در هنگام ترجمه از زبان مبدأ به مقصد را استخراج کرده و در یک مرحله پیش پردازش، ساختار زبان مبدأ را تغییر می دهیم تا شبیه به ساختار زبان مقصد شود. این سیستم ترکیبی نیز عملکرد بهتری نسبت به سیستم آماری از خود نشان داد.
ندا نورمحمدی شهرام خدیوی
یکی از کلیدی ترین و چالش برانگیزترین مسائلی که یک سیستم مترجم آماری با آن مواجه است عبارت است از اینکه چگونه واحدهای (کلمه یا عبارت) ترجمه شده را در ترتیبی که با ساختار دستوری زبان مقصد مطابقت دارد در جمله مقصد قرار دهد. این مدل تحت نام «مدل جابه جایی» کلمات یاد می شود. در این پژوهش سعی شده است با بررسی مدل های جابجایی مطرح و توسعه آنها، کیفیت سیستم ترجمه ماشینی بهبود داده شود. به عنوان گام نخست با بهره بردن از ویژگی «کلاس کلمات» و ترکیب آن با مدل لغوی سنتی، مدلی با نام «مدل مبتنی بر کلاس کلمات» توسعه داده شده است. تجربه حاصل از این روش حاکی از موثر بودن آن می باشد. رویکرد دیگری که برای بهبود مدل جابه جایی بررسی شد، استفاده از «قوانین دستی» در گام پیش پردازش می باشد. در این روش چندین قانون جدید معرفی شده که در این میان قانون «اسم-اسم» موثرترین قانون در بالا بردن کیفیت خروجی شناخته شد. علاوه بر این، یک مدل کاملا جدید با نام «مدل مبتنی بر شماره عبارت جاری» که نوآوری حاصل از این پژوهش می باشد معرفی گردیده است. هدف از این مدل در ابتدا (نسخه اول) بهبود مدل فاصله محور- غالبا به عنوان مدل پایه در تحقیقات در نظر گرفته می شود- بود ولی در ادامه در قالب نسخه ی دوم با مدل لغوی سنتی ترکیب گشته و آزمایشات بر روی آن انجام شد. این مدل در هر دو نسخه کارایی مثبتی را از خود نشان داد.
مرضیه صالحی شهرکی نوشین ریاحی
به دلیل ابهام ذاتی موجود در زبان طبیعی، تقریبا همه فناوری های پردازش زبان طبیعی ناکاملند. با این حال با تخمینی از کیفیت خروجی، کاربران می توانند به طور مناسبی با ناکامل بودن آنها برخورد کنند. زمینه تحقیقاتی که به این مسئله می پردازد تخمین اطمینان نامیده می شود. هدف اصلی تخمین اطمینان کاربردی تر کردن فناوری های ناکامل است. در حوزه ترجمه ماشینی نیز با وجود پیشرفت های به دست آمده در سال های اخیر، این فناوری هنوز قادر به ترجمه دقیق متون نیست به طوری که گاهی ممکن است ترجمه متنی توسط ماشین و ویرایش خروجی توسط انسان، زمان بیشتری نسبت به ترجمه مستقیم توسط انسان بگیرد. در چنین حالتی، داشتن تخمینی از درستی خروجی ترجمه ماشینی برای ویرایشگران مفید است تا تلاش خود را به جملات نادرستی معطوف کنند که نیاز به تغییرات پرهزینه ندارند. علاوه بر پس ویرایش، تخمین اطمینان خروجی ترجمه ماشینی برای کاربردهایی که هدف آنها ارتقا کیفیت ترجمه ماشینی است، از قبیل ترکیب چند سامانه ترجمه گر، بازتولید خروجی و مرتب سازی دوباره لیست چند ترجمه برتر، مفید می باشد. تخمین اطمینان یا سنجش کیفیت خروجی ترجمه ماشینی یکی از موضوعات چالشی در زمینه ترجمه ماشینی محسوب می شود. همچنین برای جفت زبان انگلیسی-فارسی پژوهش های چندانی در زمینه تخمین اطمینان صورت نگرفته است. در این پژوهش مجموعه ای از ویژگی های مبتنی بر ساختار و مبتنی بر محتوای مستقل از سامانه ترجمه گر ارائه شده و کارایی چند روش یادگیری برای ترکیب این ویژگی ها بررسی شده است. مزیت ویژگی های ساختاری ارائه شده این است که برخلاف اکثر ویژگی های ارائه شده در گذشته، برای بررسی صحت ساختاری کلمه مقصد از جمله مبدا استفاده می کنند. همچنین برای نخستین بار از بردار زمینه برای تخمین اطمینان استفاده شده است و چالش متفاوت بودن فضای بردارهای مبدا و مقصد، با استفاده از روشی آماری حل شده است. نتایج به دست آمده از آزمون ویژگی های پیشنهادی در قالب جداولی ارائه گردیده است. کلمات کلیدی: تخمین اطمینان، ترجمه ماشینی، بردار زمینه، اطلاعات متقابل، ویژگی های مبتنی بر ساختار، ویژگی های مبتنی بر محتوا.