Πολλοί τύποι των δεδομένων που μελετήθηκαν και στις φυσικές και στις κοινωνικές επιστήμες, ακολουθούν μια κατανομή γνωστή ως “νόμος των δυνάμεων”. Στη στατιστική ο νόμος των δυνάμεων είναι μια συναρτησιακή σχέση μεταξύ δύο ποσοτήτων, και εκφράζει την ιδιότητα μιας ποσότητας που μεταβάλλεται ως δύναμη της άλλης. Περισσότερες από εκατό κατανομές νόμου δύναμης έχουν εξακριβωθεί στη φυσική, στη βιολογία και στις κοινωνικές επιστήμες. Μια από αυτές είναι και ο νόμος του Zipf.
Σε γενικό πλαίσιο ο νόμος του Zipf χρησιμοποιείται και σε διάφορα φυσικά φαινόμενα, όπου έχουμε πολλά και μικρά γεγονότα και λίγα αλλά μεγάλα γεγονότα, πχ. έχουμε πολύ λίγους και μεγάλους σεισμούς και πολλούς μικρούς σεισμούς, έχουμε λίγους και πλούσιους και πολλούς αλλά φτωχούς κλπ.
Ωστόσο ο ίδιος ο Zipf ασχολήθηκε ιδιαίτερα με το πόσο συχνά εμφανίζονται οι λέξεις μέσα σε ένα κείμενο, και τι κατανομή ακολουθεί η συχνότητα εμφάνισης μιας λέξης.
Στη δεκαετία του 1940 ο George Kingsley Zipf , καθηγητής στο Χάρβαρντ παρατήρησε κάτι αξιοσημείωτο.
Σε μια έρευνα πάνω σε ένα τυχαίο λογοτεχνικό βιβλίο, ερευνητές στο πανεπιστήμιο του Ουισκόνσιν σε διάστημα 14 μηνών συνέταξαν μια λίστα με όλες τις λέξεις του βιβλίου και την διέταξαν κατά φθίνουσα σειρά (από την μεγαλύτερη συχνότητα προς την μικρότερη) με κριτήριο την συχνότητα εμφάνισης κάθε λέξης.
Η δέκατη δημοφιλέστερη λέξη ( εγώ) ήταν περίπου 10 φορές πιο συχνά εμφανιζόμενη από την εκατοστή λέξη (είπε) και περίπου χίλιες φορές πιο συχνά εμφανιζόμενη από την χιλιοστή λέξη (φλογερός).
Ο Zipf μελέτησε περισσότερα κείμενα και κατέληξε ότι το παραπάνω συμπέρασμα ισχύει για κάθε βιβλίο σε όποια γλώσσα και αν έχει γραφεί.
Ο ίδιος δήλωσε ότι «αν οι λέξεις ταξινομηθούν κατά φθίνουσα σειρά του αριθμού εμφάνισής τους σε ένα σχετικά μεγάλο κείμενο, τότε η θέση/σειρά μιας λέξης σε αυτόν τον κατάλογο όταν πολλαπλασιάζεται με τη συχνότητα εμφάνισής της είναι ίση με μια σταθερά».
Έτσι δημιουργήθηκε μια εξίσωση για να περιγράψει αυτή τη σχέση, και η οποία μπορεί να προβλέψει τη συχνότητα με την οποία θα χρησιμοποιηθεί μια λέξη οπουδήποτε.
Η εξίσωση αυτή είναι: “r x f = k” η οποία μας λέει ότι: η συχνότητα της r-οστής πιο συχνά εμφανιζόμενης λέξης είναι αντιστρόφως ανάλογη του r, ή εναλλακτικά το γινόμενο της τάξης, (r), (rank, σειρά μιας λέξης, 1η, 2η κλπ σε συχνότητα εμφάνισης), επί τη συχνότητά της (f) είναι σχεδόν σταθερά (k).
Για παράδειγμα αν μέσα σε ένα αρκετά μεγάλο κείμενο μια λέξη που βρίσκεται στην θέση 1 (π.χ. η λέξη the) εμφανίζεται 1000 φορές, τότε η λέξη της θέσης 2 (π.χ. η λέξη of) θα εμφανίζεται περίπου 500 φορές, η λέξη της θέσης 3 (π.χ. η λέξη and) θα εμφανίζεται περίπου 300 φορές, κτλ….
Το γιατί μπορεί να ισχύει αυτό δεν είναι γνωστό.
Ο ίδιος ο Zipf όμως το είχε αιτιολογήσει σύμφωνα με μια ντετερμινιστική αρχή, που συνδέεται με την αρχή της ελάχιστης δράσης. Στην ουσία η αρχή της ελάχιστης δράσης αρχικά εφαρμόστηκε σε κλασικά μηχανικά συστήματα. Στην συνέχεια όμως παρατηρήθηκε ότι είχε εφαρμογή σε όλους τους μηχανισμούς της φύσης και έτσι χρησιμοποιήθηκε από τη βιολογία, τις ανθρωπιστικές επιστήμες κλπ.
Η αρχή αυτή υποστηρίζει ότι τα ζώα, οι άνθρωποι, ακόμη και οι καλά σχεδιασμένες μηχανές θα επιλέξουν τον δρόμο της μικρότερης «προσπάθειας» προκειμένου να πετύχουν κάποιον στόχο τους. Χαρακτηριστικά ο Richard Feynman είχε πει για την αρχή της ελάχιστης δράσης σε μια από τις διαλέξεις του: “Μια μέρα όταν ήμουν ακόμα μαθητής στο Λύκειο ο καθηγητής μου της Φυσικής – ο κ. Bader – με φώναξε μετά το μάθημα και μου είπε: «Φαίνεται ότι βαριέσαι κατά τη διάρκεια του μαθήματος, γι αυτό θα θελα να σου πω κάτι που το θεωρώ ενδιαφέρον». Αυτό που μου είπε αμέσως μετά το βρήκα απόλυτα συναρπαστικό, τόσο που εξακολουθεί να με συναρπάζει μέχρι και σήμερα. Το θέμα αυτό εμφανίζεται συνέχεια μπροστά μου και δουλεύω πάνω σ’ αυτό διαρκώς.”
Λίγα χρόνια μετά ο μαθηματικός Benoit Mandelbrot μελέτησε τον νόμο του Zipf, και τον εξέλιξε δημιουργώντας τον νόμο Zipf–Mandelbrot. O Mandelbrot υποστήριξε ότι ακόμα και στην περίπτωση που πατήσεις τυχαία πλήκτρα σε ένα πληκτρολόγιο, το αποτέλεσμα που θα βγάλεις θα υπακούσει στον νόμο του Zipf. Όλοι οι χαρακτήρες, από το a μέχρι το z, ακόμα και το spacebar, και όλοι οι συνδυασμοί τους έχουν ένα κανόνα συχνότητας στον οποίο υπακούν.
Σε γενικό πλαίσιο ο νόμος του Zipf χρησιμοποιείται και σε διάφορα φυσικά φαινόμενα, όπου έχουμε πολλά και μικρά γεγονότα και λίγα αλλά μεγάλα γεγονότα, πχ. έχουμε πολύ λίγους και μεγάλους σεισμούς και πολλούς μικρούς σεισμούς, έχουμε λίγους και πλούσιους και πολλούς αλλά φτωχούς κλπ.
Ωστόσο ο ίδιος ο Zipf ασχολήθηκε ιδιαίτερα με το πόσο συχνά εμφανίζονται οι λέξεις μέσα σε ένα κείμενο, και τι κατανομή ακολουθεί η συχνότητα εμφάνισης μιας λέξης.
Στη δεκαετία του 1940 ο George Kingsley Zipf , καθηγητής στο Χάρβαρντ παρατήρησε κάτι αξιοσημείωτο.
Σε μια έρευνα πάνω σε ένα τυχαίο λογοτεχνικό βιβλίο, ερευνητές στο πανεπιστήμιο του Ουισκόνσιν σε διάστημα 14 μηνών συνέταξαν μια λίστα με όλες τις λέξεις του βιβλίου και την διέταξαν κατά φθίνουσα σειρά (από την μεγαλύτερη συχνότητα προς την μικρότερη) με κριτήριο την συχνότητα εμφάνισης κάθε λέξης.
Η δέκατη δημοφιλέστερη λέξη ( εγώ) ήταν περίπου 10 φορές πιο συχνά εμφανιζόμενη από την εκατοστή λέξη (είπε) και περίπου χίλιες φορές πιο συχνά εμφανιζόμενη από την χιλιοστή λέξη (φλογερός).
Ο Zipf μελέτησε περισσότερα κείμενα και κατέληξε ότι το παραπάνω συμπέρασμα ισχύει για κάθε βιβλίο σε όποια γλώσσα και αν έχει γραφεί.
Ο ίδιος δήλωσε ότι «αν οι λέξεις ταξινομηθούν κατά φθίνουσα σειρά του αριθμού εμφάνισής τους σε ένα σχετικά μεγάλο κείμενο, τότε η θέση/σειρά μιας λέξης σε αυτόν τον κατάλογο όταν πολλαπλασιάζεται με τη συχνότητα εμφάνισής της είναι ίση με μια σταθερά».
Έτσι δημιουργήθηκε μια εξίσωση για να περιγράψει αυτή τη σχέση, και η οποία μπορεί να προβλέψει τη συχνότητα με την οποία θα χρησιμοποιηθεί μια λέξη οπουδήποτε.
Η εξίσωση αυτή είναι: “r x f = k” η οποία μας λέει ότι: η συχνότητα της r-οστής πιο συχνά εμφανιζόμενης λέξης είναι αντιστρόφως ανάλογη του r, ή εναλλακτικά το γινόμενο της τάξης, (r), (rank, σειρά μιας λέξης, 1η, 2η κλπ σε συχνότητα εμφάνισης), επί τη συχνότητά της (f) είναι σχεδόν σταθερά (k).
Για παράδειγμα αν μέσα σε ένα αρκετά μεγάλο κείμενο μια λέξη που βρίσκεται στην θέση 1 (π.χ. η λέξη the) εμφανίζεται 1000 φορές, τότε η λέξη της θέσης 2 (π.χ. η λέξη of) θα εμφανίζεται περίπου 500 φορές, η λέξη της θέσης 3 (π.χ. η λέξη and) θα εμφανίζεται περίπου 300 φορές, κτλ….
Το γιατί μπορεί να ισχύει αυτό δεν είναι γνωστό.
Ο ίδιος ο Zipf όμως το είχε αιτιολογήσει σύμφωνα με μια ντετερμινιστική αρχή, που συνδέεται με την αρχή της ελάχιστης δράσης. Στην ουσία η αρχή της ελάχιστης δράσης αρχικά εφαρμόστηκε σε κλασικά μηχανικά συστήματα. Στην συνέχεια όμως παρατηρήθηκε ότι είχε εφαρμογή σε όλους τους μηχανισμούς της φύσης και έτσι χρησιμοποιήθηκε από τη βιολογία, τις ανθρωπιστικές επιστήμες κλπ.
Η αρχή αυτή υποστηρίζει ότι τα ζώα, οι άνθρωποι, ακόμη και οι καλά σχεδιασμένες μηχανές θα επιλέξουν τον δρόμο της μικρότερης «προσπάθειας» προκειμένου να πετύχουν κάποιον στόχο τους. Χαρακτηριστικά ο Richard Feynman είχε πει για την αρχή της ελάχιστης δράσης σε μια από τις διαλέξεις του: “Μια μέρα όταν ήμουν ακόμα μαθητής στο Λύκειο ο καθηγητής μου της Φυσικής – ο κ. Bader – με φώναξε μετά το μάθημα και μου είπε: «Φαίνεται ότι βαριέσαι κατά τη διάρκεια του μαθήματος, γι αυτό θα θελα να σου πω κάτι που το θεωρώ ενδιαφέρον». Αυτό που μου είπε αμέσως μετά το βρήκα απόλυτα συναρπαστικό, τόσο που εξακολουθεί να με συναρπάζει μέχρι και σήμερα. Το θέμα αυτό εμφανίζεται συνέχεια μπροστά μου και δουλεύω πάνω σ’ αυτό διαρκώς.”
Λίγα χρόνια μετά ο μαθηματικός Benoit Mandelbrot μελέτησε τον νόμο του Zipf, και τον εξέλιξε δημιουργώντας τον νόμο Zipf–Mandelbrot. O Mandelbrot υποστήριξε ότι ακόμα και στην περίπτωση που πατήσεις τυχαία πλήκτρα σε ένα πληκτρολόγιο, το αποτέλεσμα που θα βγάλεις θα υπακούσει στον νόμο του Zipf. Όλοι οι χαρακτήρες, από το a μέχρι το z, ακόμα και το spacebar, και όλοι οι συνδυασμοί τους έχουν ένα κανόνα συχνότητας στον οποίο υπακούν.
Δεν υπάρχουν σχόλια :
Δημοσίευση σχολίου