نام پژوهشگر: نعمت اله امیدی کیا
نعمت اله امیدی کیا محسن کمپانی زارع
بخش اول این بخش شامل اجرای یک روش انتخاب متغیر با استفاده از روش جک نایف بر روی توصیفگرهای متعامد شده با استفاده از روش gram-schmidtاست. در این مطالعه از دادهی سلوود که دارای 31 مولکول و 53 توصیفگر است استفاده شده است. از دو روش رگرسیون: رگرسیون چند متغیره و همچنین pls در ساختن مدل و انتخاب متغیر در داخل جک نایف استفاده شده است. و نتایج نشان از عملکرد بهتر pls چه با داده ی هم مقیاس و چه با داده ی متعامد دارد. در ابتدا تعداد توصیفگرها با استفاده از روش gram-schmidt به30 کاهش می یابد. مجموعه ی توصیفگرهای بدست آمده با استفاده از جک نایف بر مبنای plsدارای تکرار پذیری بسیار خوبی نسبت به حالت مشابه و استفاده از داده های هم مقیاس هستند. برای تعیین توصیفگرهای معنی دار از یک تست-t استفاده می شود. که بر روی پخش توصیفگرهای بدست آمده از جک نایف عمل می کند. در این مطالعه با تغییر اندازه ی مجموعه ی کالیبراسیون در جک نایف اقدام به رتبه دار کردن توصیفگرها شده است. به این ترتیب که با تغییر اندازه ی این مجموعه، توصیفگرها یکی یکی و بر حسب محتوای اطلاعاتشان وارد مدل می شوند. تعداد توصیفگرهای معنی دار کاملا وابسته ی اندازه ی نمونه ها در جک نایف است. در ادامه پارامترهای مدل نظیر: اندازه ی مجموعه ای که برای ساخت مدل استفاده می شود، تعداد دفعاتی که داده به دو بخش کالیبراسیون و ارزشگذاری تقسیم می شود، تعداد فاکتورهای pls و همچنین بردار آغازگر عملیات تصویر سازی در gram-schmidt بهینه می شوند. و در پایان با استفاده از روش جک نایف بر مبنای pls در شرایط بهینه 5 توصیفگر انتخاب می شود، و پارامترهای مدل نهایی بسیار تکرار پذیر و قابل مقایسه با مدل ها و روش های انتخاب متغیر دیگر است و قدرت پیش بینی مدل 0.693q2tot = و همچنین 0.811 = r2 است. بخش دوم این بخش شامل اجرا و مقایسه ی روش های انتخاب متغیری است که بر مبنای پخش عمل می کنند. اساس همه ی روشهای به کار رفته، بدست آوردن یک یا دو پخش برای هر توصیفگراست. و سپس با استفاده از مبناهای مختلف که اغلب تست های آماری هستند، توصیفگرهای مناسب انتخاب می شوند. از جمله ی این روش ها که برای انتخاب متغیر و همچنین رتبه دار کردن متغیرها به کار می رود می توان به: جک نایف و تست تصافی کردن بر اساس تست- t، استفاده از خطای نوع اول و نوع دوم و استفاده از عکس انحراف استاندارد نسبی تحت عنوان c-value اشاره کرد. در این مطالعه برای اولین بار از تست آماری خطای نوع اول و نوع دوم برای انتخاب متغیر به طور موفقیت آمیزی استفاده شده است. همچنین در این گزارش برای اولین بار از تست تصادفی برای انتخاب متغیر در qsar استفاده شده است. علاوه بر داده ی سلوود از داده ی anti-hiv که شامل 107 ترکیب از مشتقات 1-[2- هیدروکسی اتوکسی- متیل]-6- (تیوفنیل) تیمین((hept است، برای ارزیابی عملکرد روش های انتخاب متغیر مورد استفاده در این گزارش، استفاده شده است. علاوه بر روش های انتخاب متغیر گوناگونی که به کار گرفته شده است روش های پیش پردازش مختلف از جمله هم مقیاس کردن، متعامد سازی توصیفگرها با استفاده از gso و همچنین استفاده از spa برای حذف مشکل هم خطی بودن در میان توصیفگرها استفاده شده است. در مورد داده ی سلوود استفاده از همه ی روش های: جک نایف، تست تصادفی کردن، تست تصادفی کردن با متغیر وابسته ی رندوم، خطای نوع اول و نوع دوم و همچنین استفاده از روش حذف متغیرهای بی معنی که اطلاعاتی بیش از متغیر های نویزی ندارند با پیش پردازش gram-schmidt منجر به انتخاب یک مجموعه واحد از متغیرها می شود که عبارتند از: log p ، vdwvol ، nsdl7 ، s8-1cy ، .sum-f نکته ی جالب آنست که حتی رتبه ی متغیر های انتخاب شده نیز در اکثر این روش ها برابر است. اما با پیش پردازش هم مقیاس کردن و spa نتیجه ی تکرار پذیر با قدرت پیش بینی بالایی بدست نمی آید. در مورد داده ی anti-hiv تنها با استفاده از spa است که مدل های قابل قبول با همه ی روش های انتخاب متغیر ذکر شده بدست می آید، در روش uve و با استفاده از داده های معرفی شده با spa با 10 متغیر می توان به قدرت پیش بینی بالایی رسید یعنی 0.95q2 = . در ضمن توصیفگرهای انتخاب شده در این روش ها اگر چه از نظر تعداد با هم متفاوتند ولیکن اغلب توصیفگرهای آنها مشترک است. اینکه روش های مختلف دارای نتایج یکسانی هستند کاملا به روش پیش پردازش آنها ربط دارد. و این gso در داده ی سلوود و همچنین spa در داده ی anti-hiv است که سبب بهبود و یکسان شدن عملکرد روش های مختلف شده است. نوع روش پیش پردازش مناسب به طور کلی به ماهیت داده ربط دارد. و استفاده از پیش پردازش ها یا روش انتخاب متغیر اولیه تاثیر زیادی بر نتیجه ی نهایی مدل دارد.
نعمت اله امیدی کیا محسن کمپانی زارع
امروزه با گسترش روزافزون دستگاهوری در شیمیتجزیه، دادههای با حجم بسیار بالا برای شیمیدانان تجزیه فراهم میشود. با توجه به اینکه این دادهها دارای اطلاعات مفید و تغییرات غیر مفید میباشند، استفاده از روشهای استخراج اطلاعات ضروری به نظر میرسد. با توجه به رشد روشهای گوناگون جمعآوری داده، روشهای آنالیز متفاوتی ابداع و ارائه گشتهاست. علیرغم توسعهی روشهای استخراج اطلاعات با استفاده از الگوریتمهای متفاوت، بسیاری از این روشها به طور کنجکاوانه بررسی نشدهاند. منحصر بودن 1 که از ویژگیهای برجستهی مدل های فراهم شده برای دادههای با بعد بالاست برای بسیاری از این الگوریتمها بررسی نشدهاست. با در نظر گرفتن این نکته که مزیت مرتبهی دوم 2 در دادههایی قابل حصول است که دارای ویژگی منحصر بودن باشند، لازم است ویژگیهای منحصر بودن جواب تمامی روشهای سهراهی 3 که مدعی دارا بودن این مزیت هستند آنها بررسی شده باشد. با استفاده از مفهوم نمایش محدوده جواب 4 برای دادههای سهراهی که در این رساله معرفی و بسط داده شده است، نگاهی نو برای مطالعهی ویژگیهای منحصربودن مدل سهراهی پارافک 5 و سطوح منحصر بودن ارائه و بررسی شدهاست. مدل سهراهی پارالیند 6 که برای آنالیز دادههای دارای نقص مرتبه 7 معرفی شده است، مورد مطالعه قرار گرفته و با نمایش محدوده جواب پروفایلهای پارالیند یکی از ویژگیهای منحصر به فرد این مدل نسبت به مدل پارافک روشن شد. در این رساله برای محاسبهی محدوده جواب پروفایلهای ارائه شده در مدلهای سهراهی سهخطی، روشهایی بر مبنای محاسبات عددی 8 و روش حل دقیق یا آنالیتیک 1 معرفی شدهاست. تفکیک منحصر دادههای سه راهی به پروفایلهای سازنده ویژگی منحصر به فرد مدل سهراهی پارافک میباشد که آنرا الگوریتمی کارا برای مطالعهی دادههای مختلف کرده است. وجود رابطهی خطی میان پروفایلهای یک سیستم شیمیایی سبب از بین رفتن شرایط تفکیک منحصر داده میشود. در نتیجه سبب بروز ابهام چرخشی 2 در نتایج تفکیک این دادهها میشود. منحصر بودن مدل سهراهی پارافک به طور کلی و یا جزئی در حضور نقص مرتبه در پروفایل ها از بین میرود. ارائهی یک روش صحیح برای محاسبهی محدوده جواب مدل سهراهی پارفک نه تنها در شناسایی شرایط تفکیک یکتا میتواند موثر باشد بلکه در مطالعهی اثر سایر محدودیتها 3 بر ناحیهی جواب پارافک میتواند مورد استفاده قرار گیرد.