Το Cloudflare κατηγορήθηκε δημοσίως την αμηχανία AI ότι χρησιμοποιεί μυστικούς, αδηφάγους ανιχνευτές ιστού για να παρακάμψουν τους τυπικούς περιορισμούς bot που καθορίζονται από τους ιστότοπους. Σε μια λεπτομερή δημοσίευση στο blog, η CloudFlare ισχυρίστηκε ότι η αμηχανία δεν αγνοεί μόνο τις οδηγίες ρομπότ.txt αλλά και χρησιμοποιώντας εναλλακτικές περιοχές IP και πράκτορες χρήστη για να καλύψουν τη δραστηριότητα της υποδομής του web-scraping.
Το επίκεντρο τουκατηγορίαείναι ότι η αμηχανία παρακάμπτει ένα κοινό πρότυπο ιστού που χρησιμοποιείται για την αποτροπή ανεπιθύμητης ευρετηρίασης ή απόξεσης. Αυτό συμβαίνει όταν ένας ανιχνευτής πρόσβαση σε έναν ιστότοπο χωρίς να αναγνωρίζεται σωστά ή όταν αποφεύγει ενεργά την ανίχνευση, παραπλανώντας τον εαυτό του μέσω παραπλανητικών συμβολοσειρών χρήστη-πράκτορα ή προέρχεται από υποδομή που δεν σχετίζεται με το γνωστό δίκτυο BOT της εταιρείας. Σύμφωνα με το Cloudflare, αυτό είναι ακριβώς αυτό που έχει κάνει η αμηχανία.
Ο Cloudflare σημείωσε ότι οι IPs που εμπλέκονται στη δραστηριότητα δεν ταιριάζουν με τις πληροφορίες του Crawler της Perplexity. Είπε ότι ο δημόσιος ανιχνευτής της Perplexity, που ονομάζεται PerplexityBot, σέβεται τους κανόνες εξαίρεσης. Ωστόσο, η εν λόγω κίνηση προήλθε από εντελώς διαφορετική υποδομή, με γενικούς ή κενούς πράκτορες χρήστη και συνέχισε να ζητά δεδομένα ακόμη και όταν οι ιστότοποι είχαν αποκλείσει ρητά ανιχνευτές. Ο Cloudflare ισχυρίζεται ότι όταν μπλοκάρει αυτά τα bots, η κυκλοφορία θα μεταβεί σε ένα άλλο δίκτυο για να δοκιμάσει ξανά, δείχνοντας τη διάλειμμα της φοροδιαφυγής.
Η αμηχανία ανταποκρίθηκε στους ισχυρισμούς λέγοντας ότι έχει αποκτήσει μόνο πρόσβαση σε δημόσιες ιστοσελίδες και απέδωσε τη δραστηριότητα ανίχνευσης σε έναν πάροχο τρίτου μέρους. Η εταιρεία δεν αρνήθηκε άμεσα τη χρήση αυτών των δεδομένων στα προϊόντα της. Ωστόσο, η Cloudflare ισχυρίστηκε ότι αυτή η απάντηση παραβιάζει το βασικό ζήτημα: η κυκλοφορία εξακολουθεί να χτυπάει τοποθεσίες χωρίς να ακολουθήσει σαφώς τους καταχωρημένους περιορισμούς και εντοπίστηκε πίσω στις επιχειρήσεις Backend της Perplexity.
Δείτε επίσης:Η Apple κατηγορεί το Corellium ότι πωλεί το λογισμικό της σε χάκερ iPhone όπως το NSO και άλλοι
Η ευρύτερη ανησυχία από το CloudFlare είναι ότι ορισμένες εταιρείες AI αγνοούν όλο και περισσότερο τα πρότυπα ιστού, ενώ ταυτόχρονα δημιουργούν εμπορικά προϊόντα πάνω από περιεχόμενο από αποξήρανσης. Η ανάρτηση υπογράμμισε ότι εκατομμύρια ιστοσελίδες που χρησιμοποιούν τις υπηρεσίες του Cloudflare έχουν δημιουργήσει κανόνες για να εμποδίσουν συγκεκριμένους crawlers ή όλα τα αυτοματοποιημένα bots και ότι οι κανόνες αυτοί πρέπει να γίνονται σεβαστοί από οποιονδήποτε ενεργεί με καλή πίστη. Η Cloudflare δήλωσε επίσης ότι εργάζεται για την ενίσχυση των εργαλείων μετριασμού των bot και έχει αρχίσει να εμποδίζει τις τεχνικές αποφυγής πιο επιθετικά.
Η ένταση έρχεται εν μέσω αυξανόμενου ελέγχου για τον τρόπο με τον οποίο οι εταιρείες AI αποκτούν τα δεδομένα κατάρτισης τους. Καθώς ο ανταγωνισμός στο AI εντείνει, περισσότερες εταιρείες συλλαμβάνονται πιέζοντας τα όρια της συλλογής δεοντολογικών δεδομένων. Αυτή η περίπτωση που περιλαμβάνει αμηχανία προσθέτει σε μια ευρύτερη συζήτηση σχετικά με τη διαφάνεια, την άδεια και τον τρόπο με τον οποίο πρέπει να εκπαιδεύονται τα εργαλεία AI.
