Ανάλυση Παλινδρόμησης

Η ανάγκη για στατιστική ανάλυση, προκύπτει σχεδόν σε κάθε περίπτωση όπου αναλύεται μια βάση  δεδομένων, τόσο στην επιστημονική έρευνα όσο και σε βιομηχανικά έργα. Πολλές διαδικασίες, τεχνικές, μαθηματικά μοντέλα και κώδικες προγραμματισμού έχουν προταθεί, ωστόσο, μπορούν να ομαδοποιηθούν σε τέσσερα απλά βήματα: προεπεξεργασία δεδομένων, κατανομές μεταβλητών, συσχετισμοί ανά ζεύγη και πολυπαραγοντική μοντελοποίηση. Η προεπεξεργασία δεδομένων -ή καθαρισμός- αν και είναι κρίσιμο στάδιο -οποιουδήποτε περαιτέρω βήματος- συχνά παραλείπεται, επηρεάζοντας όλους τους επακόλουθους υπολογισμούς και συμπεράσματα. Οι κατανομές των μεταβλητών αποσκοπούν στον προσδιορισμό του τύπου διασποράς των δεδομένων (κατηγορίες, δυαδικές ή συνεχείς), των ελάχιστων και μέγιστων τιμών, καθώς και της ύπαρξης και χειρισμού των ακροτάτων τιμών. Οι συσχετισμών ανά ζεύγη και τα μεγέθη των συσχετίσεων, είναι επίσης ένα σημαντικό βήμα, καθώς μπορεί να αποκαλύψει ισχυρά πρότυπα σύνδεσης μεταξύ των υπεισερχομένων μεταβλητών.

Η ανάλυση παλινδρόμησης είναι μια τεχνική στατιστικής μοντελοποίησης που χρησιμοποιείται για τη διερεύνηση των συσχετισμών μεταξύ μιας εξαρτώμενης μεταβλητής και μιας ή περισσοτέρων ανεξαρτήτων μεταβλητών, στοχεύοντας να αναδείξει την επίδραση της μοναδιαίας αλλαγής κάθε μιας από τις ανεξάρτητες μεταβλητές xi στη εξαρτημένη μεταβλητή y, ενώ οι άλλες ανεξάρτητες μεταβλητές παραμένουν σταθερές. Στη γραμμική παλινδρόμηση, η απαίτηση του προς συγκρότηση προσομοιώματος, είναι ότι η εξαρτημένη μεταβλητή y είναι ένας γραμμικός συνδυασμός των ανεξαρτήτων μεταβλητών. Αυτό δεν είναι πάντα αξιόπιστο, επομένως πιο περίπλοκα μοντέλα όπως η μη γραμμική παλινδρόμηση, τα τεχνητά νευρωνικά δίκτυα και αλγόριθμοι μηχανικής μάθησης μπορούν να εφαρμοσθούν, ανάλογα με τις παραδοχές του θεωρούμενου μαθηματικού μοντέλου. Ωστόσο, σε αυτές τις περιπτώσεις, δημιουργείται το πρόβλημα της υπερπροσαρμογής, απαιτώντας έτσι ιδιαίτερη προσοχή στην επικύρωση του μοντέλου (σύνολα ελέγχου) καθώς και στη διερεύνηση των σφαλμάτων παλινδρόμησης.

Θεματικές ενότητες

Περιγραφική στατιστική: ελάχιστα, μέγιστα, διάμεσος, εκατοστημόρια, διακύμανση. Διανομές, τοποθέτηση και απόκλιση. Συντελεστές συσχέτισης, συνδιακύμανση, δοκιμή chi2. Ανάλυση διακύμανσης και μέγεθος αποτελέσματος. Χρονοσειρές, εξομάλυνση, κινούμενες στατιστικές, προβλέψεις.

Ανάλυση παλινδρόμησης: Προετοιμασία δεδομένων, Κανονικοποίηση, Αποκλίσεις. Συντελεστές, τιμή p, υπόλοιπα, ετεροσκεδασμός, πόλωση. Σημασία & Σημαντικότητα. Σύνολα ελέγχου. Συνδυασμένα προσομοιώματα. Σταδιακή παλινδρόμηση. Λογιστική και μη γραμμική παλινδρόμηση. Εννοιολογική ερμηνεία

Σε ποιούς απευθύνεται

  • επαγγελματίες που εργάζονται σε αναλύσεις δεδομένων, προβλέψεις και σχετικά θέματα
  • ερευνητές που επιθυμούν να αναλύσουν επιστημονικές βάσεις δεδομένων
  • οποιοσδήποτε ενδιαφέρεται να κατανοήσει την υποκείμενη θεωρία της ανάλυσης παλινδρόμησης

Εκπαιδευτικά ωφέλη

  • κατανόηση των θεμελιωδών παραδοχών της ανάλυσης παλινδρόμησης
  • hands-on εφαρμογές, σε βιομηχανικές και ακαδημαϊκές βάσεις δεδομένων

Εισηγητής: Δρ. Νικόλαος Μπάκας

Εξατομικεύστε το μάθημα