Πέμπτη, 9 Μαρτίου 2017

Αυτοεκπαιδευόμενοι υπολογιστές μέσω μάθησης με ενίσχυση

women in computingΈνα πολύ ενδιαφέρον πείραμα έγινε σε μεγάλο συνέδριο τεχνητής νοημοσύνης στην Βαρκελώνη τον Δεκέμβριο του 2016. Σε μια σχετικά απλή προσομοίωση με υπολογιστή μια ομάδα αυτόνομων αυτοκινήτων εκτελούν απότομες μανούβρες σε ένα δρόμο τεσσάρων λωρίδων. Τα μισά οχήματα προσπαθούν να κινηθούν με ταχύτητα προς τα δεξιά ενώ τα άλλα μισά κάνουν το ίδιο προς τα αριστερά. Kαι ενώ φαινόταν ότι τελικά τα οχήματα θα μπλεχτούν μεταξύ τους τελικά κατάφεραν να αλλάξουν λωρίδες και θέσεις με απόλυτη ακρίβεια.

Το εντυπωσιακό σε αυτό το πείραμα είναι ότι δεν υπήρχε πίσω από την κίνηση των οχημάτων το απαραίτητο λογισμικό που ήλεγχε την κίνηση τους. Δεν ήταν προγραμματισμένα για να κινούνται έτσι αλλά και να βρίσκουν τρόπο να μην βγουν εκτός πορείας ή να συγκρουστούν. Το λογισμικό της προσομοίωσης μέσα από την επανάληψη των κινήσεων έμαθε μόνο του να καθοδηγεί με ασφάλεια τα αυτοκίνητα. Μέχρι τώρα αυτή την ικανότητα οι υπολογιστές την είχαν αναπτύξει μόνο για να παίζουν παιχνίδια με τους ανθρώπους. Όπως φαίνεται τώρα αρχίζουν να αναπτύσσουν ικανότητες αυτό-εκπαίδευσης για πιο σύνθετες διεργασίες. Ο τομέας των αυτόνομων οχημάτων είναι σύμφωνα με τους ειδικούς ο πρώτος στον οποίο πρέπει η τεχνητή νοημοσύνη να εισχωρήσει και σιγά σιγά να διεισδύσει και σε άλλους τομείς της καθημερινότητάς μας.
 
Αυτή η προσέγγιση, γνωστή ως μάθηση με ενίσχυση, βρίσκεται σε μεγάλο βαθμό στον AlphaGo, έναν υπολογιστή που ονομάζεται DeepMind και που αναπτύχθηκε από μια θυγατρική της Google, ο οποίος παίζει το απίστευτα περίπλοκο επιτραπέζιο παιχνίδι Go και μπόρεσε να νικήσει έναν από τους καλύτερους παίκτες του ανθρώπου στον κόσμο σε έναν αγώνα υψηλού προφίλ πέρυσι. Τώρα η ενίσχυση της μάθησης μπορεί σύντομα να υπάρξει με μεγαλύτερη νοημοσύνη σε πράγματα μεγαλύτερης δυσκολίας από ό, τι τα παιχνίδια. Εκτός από τη βελτίωση της αυτο-οδήγησης αυτοκινήτων, η τεχνολογία μπορεί να κάνει ένα ρομπότ να πιάσει αντικείμενα που δεν έχει δει ποτέ πριν, και να καταλάβει τη βέλτιστη διαμόρφωση του εξοπλισμού σε ένα κέντρο δεδομένων.
 
Η ενίσχυση της μάθησης αντιγράφει μια πολύ απλή αρχή από τη φύση. Ο ψυχολόγος Edward Thorndike την έχει τεκμηριώσει περισσότερο από 100 χρόνια πριν. Ο Thorndike τοποθέτησε γάτες μέσα σε κουτιά από τα οποία θα μπορούσαν να ξεφύγουν μόνο με το πάτημα ενός μοχλού. Μετά από ένα σημαντικό χρόνο πειραματισμού και τυχαίας κίνησης τους, τα ζώα κάποτε θα πατήσουν τελικά το μοχλό κατά τύχη. Μετά αφού έμαθαν να συνδέουν αυτή τη συμπεριφορά με το επιθυμητό αποτέλεσμα, αυτές τελικά δραπέτευαν με αυξανόμενη ταχύτητα.