%41تخفیف

دانلود پروژه: استفاده از داده کاوی در پیش بینی وضعیت تحصیلی دانشجویان دانشگاه های دولتی وغیر دولتی

تعداد 111 صفحه در فایل word

کارشناسی ارشد ((M.Sc))

رشته مهندسی فناوری اطلاعات- گرایش شبکه های کامپیوتری

استفاده از داده کاوی در پیش بینی وضعیت تحصیلی دانشجویان دانشگاه های دولتی وغیر دولتی

چکیده

در اين پايان نامه به نحوه استفاده از روش هاي داده كاوي در دانشگاه های آزاد وفردوسی مشهد جهت پيشگويي نتيجه آتي دانشجويان پرداخته شده است. سيستم هاي آموزشي، داده هاي غني و پر محتوا درمورد رفتار دانش آموزان و دانشجويان در طي يادگيري بدست مي آورند. هدف از استفاده از روش هاي داده كاوي غني كردن و توسعه دادن اين محيط هاست. براي ساخت مدل هاي مورد نظر از تكنيك هاي مختلفي نظير  Naïve Bayes، LBR، NBTree، Best-First Decision Tree  استفاده گرديده است. عملكرد هر يك از مدلها، مورد بررسي قرار گرفته و نتايج بدست آمده با يكديگر مقايسه گرديده اند. اعتبار سنجي انجام شده بر روي مدلها اثبات مي كند كه نتايج بدست آمده دقيق و قابل اعتماد بوده اند. با بكارگيري اين مدلها، مديران آموزشي مي توانند مشاوره هاي لازم را براي پيشگيري از رسيدن دانشجويان به وضعيت بحراني بكار گيرند. همچنين اين مدلها مي توانند به عنوان يك ابزار پشتيبان تصميم گيري در سيستم هاي آموزشي مورد بهره برداري قرار گرفته و نقش مهمي را در ارتقاء سطح علمي دانشگاهها داشته باشند.

برای انجام ارزيابی از روش Cross Validation با ده دسته (fold) استفاده شده است. 66% داده ها را براي آموزش گرفتن (Train) و 34% آنها را براي تست گرفتن (Test) اختصاص داديم. برای انجام داده‌کاوی نيز روش‌های Naïve Bayes،LBR، NBTree،  Best-First Decision Tree استفاده شده است كه در بين این چهارروش، روش Naïve Bayes با72}% برای داده های دانشگاه آزاد مشهد و‌‌63.8%برای داده های دانشگاه فردوسی مشهد} بيشترين دقت را در پيشگويي داشته است. روش   LBR { با دقت 69% برای داده های دانشگاه آزاد مشهد و دقت64.2%برای داده های دانشگاه فردوسی مشهد} در رتبه دوم قرار دارد. روش NBTree  {با دقت1.59% برای داده های دانشگاه آزاد مشهد و  دقت56.8% برای داده های دانشگاه فردوسی مشهد} و روشBest-First Decision Tree  با  {دقت 59.3 % برای داده های دانشگاه آزاد مشهد ودقت 52.3% برای داده های دانشگاه فردوسی مشهد} در رتبه هاي بعدي قرار گرفتند.

کلمات کلیدی:

داده کاوی، پیش بینی، معدل کل، عوامل مؤثر، موفقیت

فهرست مطالب

چکیده……………………………………………… 1

فصل اول: کليات پژوهش………………………………… 2

1-1 مقدمه………………………………………….. 3

1-2 تعریف مسئله…………………………………….. 4

1-3 اهداف تحقیق 5

فصل دوم: مروري بر تحقيقات انجام شده 7

2-1 ادبيات پژوهش 8

فصل سوم : روش ها و الگوريتم های پيشنهادی 12

3-1 توصيف داده ها در داده کاوی 13

3-1-1 خلاصه سازی و به تصوير در آوردن داده ها 13………………        ……………………………………………………        ……………………………………………………

 3-1-2 خوشه بندی……………………………………. 13

3-1-3 تحليل لينک 14

3-2 مدل های پيش بينی داده ها………………………… 14

3-2-1 طبقه بندي……………………………………. 14

3-2-2  رگرسيون ……………………………………. 15

3-2-2-1 رگرسيون خطی………………………………… 16

3-2-2-2 رگرسيون چندگانه…………………………….. 17

 3-2-3  سري هاي زماني 18

3-2-3-1 نمودار سری زمانی……………………………. 19

3-2-3-2 اجزاء يک سری زمانی………………………….. 19

3-2-3-3 همبستگی بين مشاهدات سری زمانی………………… 20

3-2-3-4 مدل سازی سری های زمانی به روش باکس – جنکينز(ARIMA) 21

3-2-3-5 استراتژی مدل سازی…………………………… 21

3-2-3-6 تشخيص مدل آزمايشی…………………………… 22

3-3 مدل ها و الگوريتم های داده کاوی………………….. 23

3-3-1 شبکه های عصبی………………………………… 23

3-3-2 درخت تصمیم گیری………………………………. 26

3-3-3   ( Multivariate Adaptive Regression Splines(MARS…………….. 28

3-3-4 استنتاج قوانين……………………………….. 28

3-3-5 K  -نزدیکترین همسایگی واستدلال مبتنی بر حافظه………. 29

3-3-6 رگرسيون منطقی………………………………… 30

3-3-7 تحليل تفکيکی…………………………………. 30

3-3-8 مدل افزودنی کلی………………………………. 31

3-3-9  الگوريتمهاي بوستينگ………………………….. 31

3-4 سلسله مراتب انتخابها……………………………. 32

3-5 پيشگويي نتيجه تحصيلي فراگيران با استفاده از روشهاي يادگيري ماشين در داده کاوي………………………………………. 33

فصل چهارم: تعیین عوامل موثر بر موفقیت دانشجو………….. 35

4-1 مجموعه داده مورد استفاده………………………… 36

4-2 توزيع مقادير مختلف مربوط به هر كدام از ويژگي ها با استفاده از نرم افزار SPSS به منظور تحلیل و مقایسه دانشجویان‌

 دانشگاه آزاد مشهد ودانشگاه فردوسی مشهد………………. 38

4-2-1 وضعیت اشتغال…………………………………. 39

4-2-2  میزان علاقه………………………………….. 41

4-2-3  تعداد ترم های مشروطی…………………………. 43

4-2-4 نحوه مطالعه………………………………….. 45

4-2-5 متد مطالعه…………………………………… 48

4-2-6 تعداد سال های وقفه بین پیش دانشگاهی و دانشگاه……. 49

4-2-7 سطح زبان…………………………………….. 50

4-2-8 برای مطالعه دروس خود از چه منابعی استفاده میکنید   …. 51

4-2-9 معدل دیپلم…………………………………… 52

4-2-10 نوع دبیرستان………………………………… 53

4-2-11 سطح تحصیلات پدر………………………………. 54

4-2-12 سطح تحصیلات مادر……………………………… 55

4-2-13 تعداد فرزندان……………………………….. 56

4-2-14 راست دست یا چپ دست بودن………………………. 57

4-2-15 جنسیت………………………………………. 58

4-2-16 وضعیت تاهل………………………………….. 59

4-2-17 وضعیت سکونت (بومی یا غیر بومی )………………… 60

4-2-18 امکان استفاده از اینترنت در منزل یا خوابگاه…….. 61

4-2-19میزان حضور در کلاس درس…………………………. 62

4-2-20 انجام پروژه دانشجویی…………………………. 63

4-3 نرم افزار و سخت افزار مورد استفاده……………….. 64

4-3- 1   بسته نرم افزاري وکا………………………… 64

4-3-1-1 شروع كار با وکا…………………………….. 67

4-3-1-2 قالب فايل هاي ARFF………………………….. 67

4-3-2 سيستم عامل مورد استفاده……………………….. 68

4-3-3 مشخصات سخت افزاري…………………………….. 68

4-4 توزيع مقادير مختلف مربوط به هر كدام از ويژگي ها با استفاده ازweka  68

فصل پنجم : روش تحقيق و بحث و بررسي و تحليل داده ها…….. 71

5-1 ارزيابي……………………………………….. 72

5-1-1 روش ارزيابي متقاطع……………………………. 72

5-1-2 دقت و يادآوري………………………………… 72

5-1-3 ماتريس آشفتگي………………………………… 73

5-2 قوانين پيوندي………………………………….. 76

5-3 صفت هاي انتخاب شده……………………………… 80

5-4  مجموعه آموزش………………………………….. 84

5-5 نتايج بدست آمده………………………………… 85

5-6 پيشگويي نتيجه تحصيلي يك نمونه جديد……………….. 93

فصل ششم : جمع بندی، نتيجه گيری و پيشنهادات……………. 96

    

فهرست اشکال

شکل ‏3‑1: رگرسیون خطی با یک متغیر مستقل.. 17

شکل ‏3‑2: شبکه عصبی با یک لایه نهان.. 24

شکل ‏3‑3:  نمایش شبکه عصبی بصورت گراف وزن دار.. 25

شکل ‏3‑4:  درخت تصمیم گیری.. 26

شکل ‏3‑5:  محدوده همسایگی (بشتر همسایه ها در دسته X قرار گرفته اند)   29

شکل ‏4‑1:  مقایسه دانشگاه آزاد با دانشگاه فردوسی مشهد بر مبنای عامل وضعیت اشتغال.. 39

شکل ‏4‑2:  مقایسه دانشگاه آزاد با دانشگاه فردوسی مشهد بر مبنای عامل میزان علاقه.. 41

شکل ‏4‑3:  مقایسه دانشگاه آزاد با دانشگاه فردوسی مشهد بر مبنای عامل تعداد ترم های مشروطی.. 43

شکل ‏4‑4:  مقایسه دانشگاه آزاد با دانشگاه فردوسی مشهد بر مبنای عامل نحوه مطالعه.. 45

شکل ‏4‑5: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل متد مطالعه.. 48

شکل ‏4‑6:  مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل وقفه.. 49

شکل ‏4‑7:  مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل سطح زبان.. 50

شکل ‏4‑8: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل منابع مطالعه.. 51

شکل ‏4‑9:  مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل معدل دیپلم.. 52

شکل ‏4‑10: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل نوع دبیرستان.. 53

شکل ‏4‑11:  مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل سطح تحصیلات پدر.. 54

شکل ‏4‑12:  مقایسه دانشگاه آزادمشهد  با دانشگاه فردوسی مشهد بر مبنای عامل سطح تحصیلات مادر.. 55

شکل ‏4‑13:  مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل تعداد فرزندان.. 56

شکل ‏4‑14:  مقایسه دانشگاه آزادمشهد  با دانشگاه فردوسی مشهد بر مبنای عامل راست دست یا چپ دست بودن.. 57

شکل ‏4‑15:  مقایسه دانشگاه آزادمشهد  با دانشگاه فردوسی مشهد بر مبنای عامل جنسیت.. 58

شکل ‏4‑16:  مقایسه دانشگاه آزادمشهد  با دانشگاه فردوسی مشهد بر مبنای عامل وضعیت تاهل.. 59

شکل ‏4‑17: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل وضعیت سکونت.. 60

شکل ‏4‑18: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل امکان استفاده از اینترنت.. 61

شکل ‏4‑19:  مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل میزان حضور در کلاس درس.. 62

شکل ‏4‑20: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل انجام پروژه دانشجویی.. 63

شکل ‏4‑21: الگوريتم هاي طبقه بندی در وکا.. 66

شکل ‏4‑22: توزيع مقادير مختلف مربوط به هر كدام از ويژگي ها ( دانشگاه آزاد مشهد).. 68

شکل ‏4‑23: توزيع مقادير مختلف مربوط به هر كدام از ويژگي ها (دانشگاه فردوسی مشهد).. 69

شکل ‏4‑24: نمونه اي از مقادير مجموعه داده مورد استفاده.. 69

شکل ‏4‑25:  بخشي از فايل arff پايگاه داده هاي مورد نظر.. 70

شکل ‏5‑1:  نمایش مفهوم درایه های ماتریس آشفتگی.. 73

شکل ‏5‑2: نمونه اي از قوانين پيوندي توليد شده توسط نرم افزار وكا با الگوريتم    Apriori( دانشگاه آزاد مشهد).. 73

شکل ‏5‑3: نمونه اي از قوانين پيوندي توليد شده توسط نرم افزار وكا با الگوريتم Apriori( دانشگاه فردوسی مشهد).. 79

شکل ‏5‑4: نمونه اي از انتخاب صفات موثرتر در نتيجه به كمك نرم افزار وكا (دانشگاه آزاد مشهد).. 80

شکل ‏5‑5:  نمونه اي از انتخاب صفات موثرتر در نتيجه به كمك نرم افزار وكا (دانشگاه فردوسی مشهد).. 81

شکل ‏5‑6 :  انتخاب صفات به صورت اولويت دار(دانشگاه آزاد مشهد)   82

شکل ‏5‑7: انتخاب صفات به صورت اولويت دار(دانشگاه فردوسی مشهد)   83

شکل ‏5‑8 :  بخشي از نمودار حاصل از TrainingSet داده هاي مورد نظر   84

شکل ‏5‑9:  ماتريس آشفتگي (confusion matrix) حاصل از روش Naïve Bayes. 87

شکل ‏5‑10: ماتريس آشفتگي (confusion matrix) حاصل از روش Naïve Bayes. 89

شکل ‏5‑11: ماتريس آشفتگي (confusion matrix) حاصل از روش  Best-First Decision Tree. 91

شکل ‏5‑12: ماتريس آشفتگي (confusion matrix) حاصل از روش  NBTree. 93

شکل ‏5‑13: فايل arff نمونه جديد……………………… 94

شکل ‏5‑14:  پيشگويي نتيجه تحصيلي يك نمونه جديد با يادگيري ماشين   95

فهرست جداول

جدول ‏3‑1: مدل هاي آزمايشي سري زماني.. 22

جدول ‏4‑1: ويژگي هاي موجود در مجموعه داده و مقادير آنها.. 37

جدول ‏4‑2: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل معدل دیپلم.. 52

جدول ‏4‑3: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل نوع دبیرستان.. 53

جدول ‏4‑4: مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل سطح تحصیلات پدر.. 54

جدول ‏4‑5 : مقایسه دانشگاه آزادمشهد  با دانشگاه فردوسی مشهد بر مبنای عامل سطح تحصیلات مادر.. 55

جدول ‏4‑6 : مقایسه دانشگاه آزاد مشهد  با دانشگاه فردوسی مشهد بر مبنای عامل تعداد فرزندان.. 56

جدول ‏5‑1: نتايج بدست آمده توسط روش Naïve Bayes. 86

جدول ‏5‑2: نتايج بدست آمده توسط روش LBR. 88

جدول ‏5‑3: نتايج بدست آمده توسط روش Best-First Decision Tree. 90

جدول ‏5‑4: نتايج به دست آمده توسط روش NBTree  92

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo