نام پژوهشگر: موسی گل علی زاده
حمید رضا فتوحی موسی گل علی زاده
تعریف مساله،اهداف و سوالات تحقیق: در زبان محاوره ایی، شکل یک شی را با اشیایی که از قبل در ذهن دارند می شناسند. به عنوان مثال اکثر مردم نقشه ایتالیا را شبیه چکمه و نقشه ایران را شکلی شبیه به گربه می دانند. در واقع تعریف شکل به این گونه، مفهومی کیفی را دنبال می کند. اما اگر یک محقق آماری علاقه مند به ارزیابی کمی اشکال براساس ساختار هندسی آنها باشد نیازمند تعریفی مناسبتر می باشد که به نوعی مفاهیم ریاضی را در خود جای داده باشد. این ابتکار اولین بار توسط کندال (1977) صورت پذیرفت. از نظر کندال شکل یک شی همه اطلاعات هندسی مربوط به شی می باشد که اثرات مقیاس، مکان و دوران از آن حذف شده است. بعد از معرفی آمار شکل، تحلیل آماری اشکال در حوزه های مختلف علوم به طور وسیع مورد توجه محققین قرار گرفت. به عنوان مثال کندال (1984) در باستانشناسی، درایدن و همکاران (2007) در بیوانفورماتیک، سیمارد و همکاران (1993) در تحلیل تصویر، لوهمان (1983) در زمین شناسی، فلتچر و همکاران (2004) در علوم کامپیوتر و ... از ابزارهای آمار شکل بهره جسته اند. یکی از اهداف تحلیل آماری شکل اندازه گیری و توصیف تفاوت بین شکلها به منظور برآورد میانگین و همچنین توصیف ساختار تغییرات مربوط به جامعه اشکال مورد مطالعه می باشد. یک تکنیک استاندارد برای دستیابی به ارزیابی آماری تغییرات بین اشکال، تحلیل مولفه های اصلی می باشد. جهت محاسبه ساختار تغییرات شکل کوتز و همکاران (1992) و کنت (1994) برای اولین بار مفهوم تحلیل مولفه های اصلی را در فضاهای مماسی به عنوان تقریبی از فضای شکل پیشنهاد کردند. دلیل استفاده از تحلیل مولفه های اصلی در فضای مماسی به این خاطر است که فضای شکل یک فضای غیرخطی (نااقلیدسی) است و در نتیجه روش های آماری موجود، مستقیما برای تحلیل آماری شکل مناسب نیستند. بنابراین تعدیل کردن چنین روش هایی جهت اجرای تحلیل های آماری روی فضاهای غیرخطی (نااقلیدسی) امری ضروری است. تحلیل ژئودزیک اصلی تعمیمی از تحلیل مولفه های اصلی بر روی فضاهای نااقلیدسی می باشد که برای محاسبه ساختار تغییرات مجموعه داده هایی که در فضایی غیراقلیدسی قرار دارند مورد استفاده قرار می گیرد. این روش اولین بار توسط فلتچر و همکاران (2004) برای تحلیل تصاویر کامپیوتری پیشنهاد شد. سپس سید و همکاران (2007) از آن برای تحلیل حرکت اندام انسان، هو و همکاران (2008) برای رده بندی چهره ها و سامر و همکاران (2010) جهت تحلیل آماری اسکلت حیوانی خاص استفاده نمودند. اگر چه محققین علوم کامپیوتر و شاخه های دیگر آن، ایده تحلیل ژئودزیک اصلی را در تحلیلهای تصاویر و موضوعات مرتبط با آن بکار برده اند اما به نظر می رسد تاکنون نحوه کاربست آن در آمار شکل توسط محققین آماری مورد بررسی قرار نگرفته است. فعالیتهای جدید محققین آمار شکل در بیوانفورماتیک نشان داد که داده های مربوط به انطباق پروتئین داده هایی ذاتا نااقلیدسی هستند (ماردیا ، 2008( . لذا به نظر می رسد بکارگیری تحلیل ژئودزیک اصلی در مورد داده های پروتئینی به کمک آمار شکل قابل توجیه باشد. این پایان نامه به بررسی امکان بکارگیری تحلیل ژئودزیک اصلی به منظور ارزیابی تغییرات شکل در فضای شکل، و مقایسه عملکرد آن با روش تحلیل مولفه اصلی خواهد پرداخت. همچنین چگونگی استفاده از تحلیل ژئودزیک اصلی در تحلیل آماری داده های ذاتا غیراقلیدسی مورد مطالعه قرار خواهد گرفت. اهداف تحقیق: 1. بررسی امکان کاربرد تحلیل ژئودزیک اصلی در آمار شکل و مقایسه آن با تحلیل مولفه های اصلی 2. مطالعات شبیه سازی مربوط به پیاده سازی تحلیل ژئودزیک اصلی در آمار شکل 3. ارزیابی تئوری و عملی بکارگیری تحلیل ژئودزیک اصلی برای داده های آماری غیرخطی سوالات تحقیق: 1. آیا جهت محاسبه روند تغییرات شکل، تقریب زدن فضای شکل با فضای مماسی می تواند موجب کاهش دقت تحلیل مولفه های اصلی نسبت به تحلیل ژئودزیک اصلی شود؟ 2. آیا می توان تحلیل ژئودزیک اصلی را به عنوان ابزاری قدرتمند برای تعیین ساختار تغییرات شکل در گونه های مختلفی از فضای شکل به کار برد؟ 3. آیا امکان شبیه سازی و بررسی دقت الگوریتم های مربوط به محاسبه تحلیل ژئودزیک اصلی با استفاده از نرم افزارهای آماری وجود دارد؟ 4. درباره کارایی تحلیل ژئودزیک اصلی نسبت به تحلیل مولفه های اصلی برای محاسبه تغییرات شکل چه می توان گفت؟ 5. محاسن و معایب تحلیل ژئودزیک اصلی در محاسبه تغییرات شکل در مقایسه با روش های استاندارد قبلی چیست؟ مواد و روش انجام تحقیق: 1. مراجعه به پایان نامه ها، مجلات و کتابهای داخلی و خارجی 2. جمع آوری و مطالعه مقالات و منابع لازم در زمینه پایان نامه 3. بر قراری ارتباط با اساتید و محققان داخلی و خارجی صاحب نظر در این زمینه به منظور بدست آوردن اطلاعات مرتبط با موضوع سازماندهی، جمع بندی و تدوین مطالب مرتبط با موضوع 4. بررسی صحت و دقت روشها به کمک شبیه سازی فرضیه ها/پیش فرض ها: 1. ساختار داده ها و فضای شکل به منظور اجرای تحلیل ژئودزیک اصلی به صورت نااقلیدسی (غیرخطی) می باشد. 2. روش بکارگیری تحلیل ژئودزیک اصلی در فضای شکل، مشابه اجرای تحلیل مولفه های اصلی در فضای مماسی مربوط به شکل است. 3. داده های اولیه شکل قابل ثبت در قالبهای استاندارد آماری هستند. 4. بکارگیری ژئودزیک اطلاعاتی مربوط به مفاهیم فاصله آماری را از بین نمی برد. جنبه جدید بودن و نوآوری: ایده تحلیل ژئودزیک اصلی توسط محققین علوم کامپیوتر معرفی و در تحلیل تصاویر پزشکی به کاربرده شده است. ولی از آنجایی که تا به حال به عنوان یک ابزار قدرتمند برای محاسبه تغییرات در فضاهای مختلف شکل به کاربرده نشده است و به نظر می رسد شبیه سازی داده های نااقلیدسی (غیرخطی) درحوزه علوم آماری صورت نگرفته است، جنبه نو بودن موضوع واضح می باشد. مراجع: 1. cootes,t.f, taylor, c.j.,cooper, d.h and graham.j. (1992). training models of shape from sets of examples. in hogg, d.c. and boyle, r.d.(eds), british machine vision conference, 9-18, springer-verlag.berline 2. dryden,i.l.,hirst, j.d.and melville, j.l.(2007). statistical analysis of unlabeled point set: comparing molecules in chemoinformatics. biometrics, 63, 237-251 3. fletcher, p. (2004). statistical variability in nonlinear spaces: application to shape analysis and dt-mri. ph.d thesis. university of north carolina at chapel hill. 4. fletcher, p., lu, c., pizer, s., joshi, s. (2004). principal geodesic analysis for the study of nonlinear statistics of shape. medical imaging, ieee transactions, 23: 995-100 5. kendall, d.g. (1977). the diffusion of shape. advances in applied probability. 9:428-430 6. kendall, d.g. (1984). shape manifolds, procrustean metrics and complex projective spaces. bulletin of the london mathematical society. 16:81-121 7. kent, j.t. (1994).the complex bingham distribution and shape analysis.journal of the royal statistical society. seriesb, 56:285-299 8. lohmann, g.p. (1983). eigenshape analysis of microfossils: a general morphometric procedure for describing changes in shape. mathematical geology, 15: 659-672. 9. mardia, k.v. (2008). holistic statistics and contemporary life sciences. in s.barber, p.d.baxter, a. gusnanto, and k.v.mardia(eds.), the art and science of statistical bioinformatics.9-17, leeds university press 10. said,s., courty, n., bihan,n.l., and sangwine,s. (2007). exact principal geodesic analysis for data on so(3). proceedings of 15th european signal processing conference. 1701-1705 11. simard,p. le gun,y., and denker,j. (1993). efficient pattern recognition using a new transformation distance. in hanson, s.,cowan, j., and giles, c.,(eds), advances in neural information processing systems. vol. 5, san mateo. morgan kaufmann. 12 . sommer, s., lauze, f. , hauberg, s. and nielson, m. (2010). manifold valued statistics, exact principal geodesic analysis and the effect of linear approximations. lecture notes in compute science., vol.6316 ,43-56 13. wu, j., smith, w.,hancock, e. (2008). weighted principal geodesic analysis for facial gender classification. in progress in pattern recognition, image analysis and applications. 331-339, springer, berlin.
عاطفه فرخی موسی گل علی زاده
یکی از فرضیات اساسی در مدل های رگرسیون خطی ساده استقلال آماری بین مشاهدات است. گاهی اوقات این فرض برای موضوع مورد مطالعه صادق نیست و در نتیجه بکارگیری مدل های متداول رگرسیونی ممکن است مناسب نباشد. این حالت بویژه برای داده هایی که دارای ساختار همبستگی درون گروهی بوده و به داده های چندسطحی یا خوشه ای معروف می باشند اتفاق می افتد. مدل مناسب برای تحلیل این گونه داده ها مدل های چندسطحی است. در مقایسه با برآورد پارامترها در مدل رگرسیون خطی ساده مدل های چندسطحی با در نظر گرفتن همبستگی میان مشاهدات نتایج دقیق تری ارائه می دهند. روش های متفاوتی برای برآورد پارامترهای مدل های چندسطحی وجود دارد. توجه این پایان نامه بر روی روش های بسامدی و بیزی می باشد. بویژه جهت بکارگیری روش بیزی از تعمیم الگوریتم مونت کارلوی زنجیر مارکوفی استفاده می شود که قالبی بسیار ساده داشتخه و باعث حذف همبستگی بین پارامترهای ثابت و خطای تصادفی منتسب به سطوح بالای مدل می شود. با این حال افزایش بعد ماتریس واریانس-کواریانس بردار خطا در این حالت از کارایی آن می کاهد. لذا در این پایان نامه جهت بهبود سرعت همگرایی این روش دو راهکار پیشنهاد شده است که پایه آنها بر مبنای تجزیه چولسکی ماتریس کواریانس است. عملکرد دو روش پیشنهادی در مطالعه شبیه سازی و یک مثال کاربردی مورد ارزیابی قرار گرفته است.
میلاد رحیمی موسی گل علی زاده
فرایندهای انتشار مثل حرکت براونی و فرایند اورنشتاین-اولن بک کلاسی از فرایندهای تصادفی هستند که در زمینه های مختلف علوم مورد توجه محققین قرار گرفته است. در مطالعه چنین فرایندهایی معمولا فرض می شود مشاهدات حاصل از آن ها در فضاهای اقلیدسی قرار دارند. اما در بعضی از مثال ها داده هایی وجود دارند که آن ها را نمی توان مقادیری از فضاهای اقلیدسی در نظر گرفت. لذا به دلیل ویژگی گوناگون مثل تناوبی بودن چنین مشاهداتی نمی توان با استفاده از روش های مرسوم در آمار خطی به تحلیل و بررسی آن ها پرداخت. یکی از چنین داده ها زوایای دوسطحی است که برای شناسایی، مدل بندی و پیش بینی ساختار اصلی پروتئین ها مورد استفاده قرار می گیرند. نکته بسیار مهم این است که این زوایا بر روی چنبره که یک فضای نااقلیدسی است قرار دارند. در نتیجه مدل بندی آماری فرایندهای انتشار روی چنبره کمک شایانی به فعالیت های معطوف به شبیه سازی پویایی مولکولی در پیش بینی ساختار اصلی پروتئین ها خواهد کرد. در این پایان نامه با به دست آوردن معادله دیفرانسیل تصادفی متناظر برای حرکت براونی و فرایند اورنشتاین-اولن بک روی دایره، کره و چنبره، توزیع های مانا و ویژگی های آن ها بررسی شده و سپس با مطالعه شبیه سازی و یک مثال واقعی عملکرد این دو فرایند انتشار مورد ارزیابی قرار خواهد گرفت.
هاشم محمودنژاد موسی گل علی زاده
در بسیاری از مسائل آمار فضایی و فضایی-زمانی هنگام مدل بندی تابع روند، پیشگوها یا متغیرهای کمکی در دسترس هستند و هدف این است که مدل رگرسیونی بسازیم که ارتباط میان پاسخ و پیشگو را توصیف نماید. به طور کلی، در مدل های رگرسیون فضایی یا فضایی-زمانی تابع روند اغلب به صورت خطی اختیار شده و فرض می شود که میانگین پاسخ یک ترکیب خطی از مقادیر پیشگوها در همان موقعیت متغیر پاسخ است. اما در مسائل کاربردی بعضاً با مواردی مواجه می شویم که پیشگوهای همسایه اطلاع مناسبی در مورد متغیر پاسخ به خصوص هنگامی که فاصله بین موقعیت ها کم است، ارائه می نمایند. با توجه به این موضوع، این پایان نامه روش میانگین هسته ای پیشگوها را برای مدل بندی تابع روند بررسی می کند که در آن از اطلاعات موقعیت های مجاور نیز استفاده می شود. هسته ها که برای توصیف چگونگی اثر متغیر کمکی روی متغیر پاسخ به کار می روند، توابعی پارامتری در نظر گرفته شده و بر اساس میزان اهمیت موقعیت ها مشخص می شوند. در ادامه نحوه به کارگیری روش در دو مدل رگرسیون فضایی چوله گاوسی که در آن توزیع متغیر پاسخ چوله نرمال فرض می شود، و رگرسیون فضایی-زمانی که در آن پاسخ ها علاوه بر فضا در زمان نیز وابسته هستند، ارائه می شود. استنباط ها و پیشگویی ها به روش بیزی انجام می گیرد که در آن برای پارامترهای مدل از جمله پارامترهای هسته توزیع پیشین اختیار شده و بر اساس روش داده افزایی و الگوریتم گیبز از توزیع پسین نمونه گیری می شود. روش مورد نظر در مثال های شبیه سازی و کاربردی ارائه شده و عملکرد آن مورد بررسی و ارزیابی قرار می گیرد.
امید اخگری موسی گل علی زاده
یکی از تاثیرگذارترین فاکتورها برای انجام هر تحقیق آزمایشی در علوم مختلف تعیین حجم نمونه لازم برای موضوع مورد مطالعه است. از نقطه نظر آماری، تعیین حجم نمونه بهینه علاوه بر وابستگی به توان آماری، ضریب اطمینان، اندازه اثر و توابع هزینه به ماهیت داده های مورد مطالعه نیز مربوط می شود. اگر داده های مورد مطالعه دارای ساختار همبستگی درون گروهی باشند یک مدل آماری مناسب برای آنها مدل های چندسطحی است. به دلیل ماهیت سلسله مراتبی این مدل ها تعیین حجم نمونه بهینه در آنها از پیچیدگی های خاصی برخوردار است. در این پایان نامه با بررسی گذرای روش های تعیین حجم نمونه ی بهینه در مدل های چندسطحی با رویکرد آمار بسامدی و به طور خاص روش زیرنمونه گیری، از سه معیار عملکرد بیزی مرتبط با پارامترهای مدل استفاده شد. با استفاده از شبیه سازی و همچنین داده های واقعی مربوط به فشار خون سیستولیک کارکنان شرکت فولاد مبارکه اصفهان عملکرد ترکیب های متفاوت نمونه ای بیزی از سطوح اول و دوم در سه مدل دوسطحی مورد ارزیابی قرار گرفت. به منظور ارزیابی معیارهای عملکرد از الگوریتم نمونه گیری گیبس برای شبیه سازی از توزیع های شرطی کامل پارامترهای مدل استفاده شد. برای هرکدام از مدل ها و بدون دخالت دادن توابع هزینه ای خاص حجم نمونه ی بهینه ی بیزی پیشنهاد شد.
رقیه باقی یزدل موسی گل علی زاده
داده های آموزشی مربوط به آزمون های سراسری دربرگیرنده حالتی است که همبستگی بین مشاهدات درون یک گروه غیر قابل چشم پوشی است. هنگام برازش مدل های آماری به چنین داده هایی عدم در نظر گرفتن همبستگی منجر به کم برآوردی پارامترها می شود. مدل های چندسطحی به دلیل ماهیت ذاتیشان ابزار مناسبی برای تحلیل داده هایی با ویژگی همبستگی درون گروهی هستند. از طرفی، در برخی مواقع به ویژه در تحلیل داده های حوزه آموزشی و اجتماعی مثال های متنوعی وجود دارد که ساختار جامعه شان لزوما آشیانه ای نیست و یا در حالتی دیگر واحد خاصی از سطح اول با بیش از یک رده سطح بالاتر در ارتباط است. در چنین مواقعی بکارگیری مدل های رده بندی متقاطع و عضویت چندگانه به عنوان زیرکلاسی از مدل های سلسله مراتبی ضروری می نماید. این پایان نامه به معرفی چنین مدل هایی پرداخته و مدل عضویت چندگانه با وزن تصادفی را به عنوان رویکردی نو، پیشنهاد می کند. همچنین، با استفاده از شبیه سازی و بکارگیری داده های واقعی مربوط به آزمون کارشناسی ارشد کشور ایران، عملکرد مدل های معرفی شده را مورد ارزیابی قرار می-دهد.
حمیدرضا مسافری قمی کلائی موسی گل علی زاده
در بررسی بعضی از پدیده ها، پژوهشگران معمولا با داده هایی مواجه می شوند که ذاتا ماهیت اقلیدسی ندارند. تحقیق راجع به ویژگی های این نوع داده ها نیازمند استفاده از ابزارهای جدید آماری است. روش های آماری برای تحلیل این گونه داده ها به آمار غیرخطی معروف هستند. آمار دایره ای مثالی از این حوزه از آمار است. در این پایان نامه به بررسی مساله چولگی در داده های دایره ای و نحوه مدل بندی آنها با استفاده از توزیع های دایره ای پرداخته می شود. از بین توزیع های دایره ای با توانایی مدل بندی داده های دایره ای چوله، توزیع فون میزس تعمیم یافته و ویژگی های آماری آن به طور کامل مورد بررسی قرار می گیرد. با انجام مطالعات شبیه سازی، کارایی این توزیع بررسی و از توزیع های دایره ای چوله برای مدل بندی داده های جهت وزش باد ایستگاه های هواشناسی استان کردستان ایران، استفاده می شود.