نام پژوهشگر: افشین فلاح
افشین فلاح محسن محمدزاده
وقتی اطلاعات مختلف مربوط به واحدهای جامعه در چند مجموعه داده یا فایل قرار دارند، بکارگیری تنها یکی از این فایل ها به معنی از دست دادن اطلاعات تکمیلی موجمود در سایر فایل ها است. بنابراین یکپارچه ساختن اطلاعات پراکنده ی افراد یک جامعه در مجموعه داده های مختلف، می تواند برای دسترسی به اطلاعات کامل و غیر تکراری واحدهای جامعه بسیار سودمند باشد. برای این منظور لازم است رکوردهای یکسان درون یک مجموعه داده یا بین مجموعه داده های متفاوت شناسایی و پیوند داده شوند. این کار که پیوند رکوردها نامیده می شود، معمولا به دو صورت قطعی و احتمالاتی صورت می پذیرد. در این رساله پیوند احتمالاتی رکوردها و تحلیل آماری بر مبنای داده های پیوند یافته، مورد مطالعه قرار گرفته است. در فصل 1 مفاهیم اولیه ی پیوند رکوردها معرفی شده اند. در فصل 2 مبانی نظری پیوند رکوردها، مدلهای احتمالاتی آن و قواعد پیوند مختلف از دیدگاههای بسامدی و بیزی مورد بحث و بررسی قرار گرفته اند. در فصل 3 پیوند احتمالاتی رکوردهای فارسی که به دلیل ویژگی های خاص زبان فارسی دارای مشکلات و پیچیدگی های زیادی می باشد، مورد بحث قرار گرفته و راهکارهایی برای حل برخی از دشواری های آن ارائه شده. نحوه ی بکارگیری آنها در قالب دو مثال کاربردی به نمایش گذاشته شده است. فصل 4 به تحلیل رگرسیونی با داده های پیوند یافته اختصاص دارد. نشان داده شده است که به دلیل وجود خطاهای انطباق، برآوردگرهای کمترین توانهای دوم ضرایب رگرسیونی در این حالت لزوما بهینه نیستند. سپس برای تحلیل رگرسیونی با داده های پیوند یافته، روشی مبتنی بر لحاظ نمودن توزیع متغیر پاسخ و با تاگید بر رهیافت بیزی پیشنهاد شده و کارایی روش پیشنهادی در یک مطالعه ی شبیه سازی با سایر روشهای موجود مقایسه شده است. همچنین روشی برای تحلیل رگرسیون لوژستیک با داده های پیوند یافته برای متغیر پاسخ و دوحالتی، با لحاظ نمودن آمیخته ای از توزیع های برنولی و استفاده از الگوریتم em ارائه و براساس آن یک برآوردگر ماکسیمم درستنمایی تکراری برای ضرایب رگرسیونی پیشنهاد شده است. کارایی برآوردگر پیشنهادی و تاثیر خطاهای انطباق بر آن نیز در یک مطالعه ی شبیه سازی مورد ارزیابی قرار گرفته است. نهایتا خلاصه یافته های پژوهشی این رساله به همراه نتایج و پیشنهادات ارائه شده است.