Motori di ricerca, motori di ricerca e robot ragno. Il futuro dei motori di ricerca. I motori di ricerca i loro robot e spider I motori di ricerca prima del World Wide Web

Il suo compito è analizzare attentamente il contenuto delle pagine dei siti presentati su Internet e inviare i risultati dell'analisi al motore di ricerca.

Il robot di ricerca aggira le nuove pagine per qualche tempo, ma successivamente vengono indicizzate e, in assenza di sanzioni da parte dei motori di ricerca, possono essere visualizzate nei risultati di ricerca.

Principio operativo

L'azione dei robot di ricerca si basa sullo stesso principio del funzionamento di un normale browser. Visitando questo o quel sito, ignorano parte delle sue pagine o tutte le pagine senza eccezioni. Inviano le informazioni ricevute sul sito all'indice di ricerca. Questa informazione appare in risultati di ricerca corrispondente a una determinata domanda.

A causa del fatto che i robot di ricerca possono visitare solo una parte delle pagine, possono sorgere problemi con l'indicizzazione di siti di grandi dimensioni. Gli stessi esatti problemi possono sorgere a causa della scarsa qualità.

Le interruzioni nel suo lavoro rendono alcune pagine inaccessibili per l'analisi. Un ruolo importante nella valutazione del sito da parte dei robot di ricerca è svolto da un file robots.txt correttamente composto e ben configurato.

La profondità della scansione delle risorse e la frequenza della scansione dei siti da parte dei robot di ricerca dipende da:

Algoritmi dei motori di ricerca.
Frequenza di aggiornamento del sito.
Strutture del sito.

Indice di ricerca

Il database delle informazioni raccolte dai web crawler è chiamato indice di ricerca. Questo database viene utilizzato dai motori di ricerca per generare risultati di ricerca per specifici file .

L'indice non contiene solo informazioni sui siti: i robot di ricerca sono in grado di riconoscere immagini, file multimediali e documenti in vari formati elettronici (.docx, .pdf, ecc.).

Uno dei robot di ricerca più attivi del sistema Yandex è un bot veloce. Analizza costantemente le risorse di notizie e altri siti aggiornati di frequente. , che non è visto dallo swiftbot, non ha senso.

Puoi attirarlo con l'aiuto di strumenti speciali e sono efficaci per siti con vari scopi. Per verificare l'accessibilità dei siti, per analizzare le loro caratteristiche individuali, per indicizzare immagini e documenti nei motori di ricerca, esistono robot separati.

Ciao amici! Oggi imparerai come funzionano i robot di ricerca di Yandex e Google e quale funzione svolgono nella promozione del sito web. Quindi andiamo!

I motori di ricerca eseguono questa azione per trovare dieci progetti WEB su un milione di siti che hanno una risposta pertinente e di alta qualità alla domanda di un utente. Perché solo dieci? Perché consiste di sole dieci posizioni.

Cerca amici robot, webmaster e utenti

Perché è importante visitare il sito tramite i robot di ricerca è già diventato chiaro e perché lo è per l'utente? Esatto, in modo che l'utente possa aprire solo quei siti che rispondono integralmente alla sua richiesta.

Robot di ricerca- uno strumento molto flessibile, è in grado di trovare un sito, anche appena creato, e il proprietario di questo sito non è ancora stato coinvolto. Pertanto, questo bot è stato chiamato ragno, può allungare le zampe e arrivare ovunque sul web virtuale.

È possibile controllare il robot di ricerca nei tuoi interessi

Ci sono momenti in cui alcune pagine non sono incluse nella ricerca. Ciò è dovuto principalmente al fatto che questa pagina non è stata ancora indicizzata da un robot di ricerca. Naturalmente, prima o poi il robot di ricerca noterà questa pagina. Ma ci vuole tempo, e talvolta parecchio tempo. Ma qui puoi aiutare il robot di ricerca a visitare questa pagina più velocemente.

Per fare ciò, puoi posizionare il tuo sito in directory o elenchi speciali, social network. In generale, su tutti i siti in cui vive semplicemente il robot di ricerca. Ad esempio, nei social network c'è un aggiornamento ogni secondo. Prova a rivendicare il tuo sito e il robot di ricerca arriverà sul tuo sito molto più velocemente.

Da questo segue uno, ma la regola principale. Se vuoi che i bot dei motori di ricerca visitino il tuo sito, devono ricevere regolarmente nuovi contenuti. Nel caso in cui notino che il contenuto viene aggiornato, il sito si sta sviluppando, visiteranno il tuo progetto Internet molto più spesso.

Ogni robot di ricerca può ricordare quanto spesso cambiano i tuoi contenuti. Valuta non solo la qualità, ma anche gli intervalli di tempo. E se il materiale sul sito viene aggiornato una volta al mese, arriverà sul sito una volta al mese.

Pertanto, se il sito viene aggiornato una volta alla settimana, il robot di ricerca verrà una volta alla settimana. Se aggiorni il sito ogni giorno, il robot di ricerca visiterà il sito ogni giorno o a giorni alterni. Ci sono siti che vengono indicizzati entro pochi minuti dall'aggiornamento. Questo mezzi di comunicazione sociale, aggregatori di notizie e siti che pubblicano diversi articoli al giorno.

Come dare un compito a un robot e proibirgli qualcosa?

All'inizio abbiamo appreso che i motori di ricerca hanno diversi robot che svolgono compiti diversi. Qualcuno cerca immagini, qualcuno link e così via.

Puoi controllare qualsiasi robot usando un file speciale robots.txt . È da questo file che il robot inizia a familiarizzare con il sito. In questo file è possibile specificare se il robot può indicizzare il sito e, in tal caso, quali sezioni. Tutte queste istruzioni possono essere create per uno o tutti i robot.

Formazione per la promozione del sito web

Ulteriori informazioni sulla saggezza Promozione SEO siti nei motori di ricerca sistemi Google e Yandex, parlo sul mio Skype. Ho portato di più alla presenza tutti i miei progetti WEB e ne ho ottenuto ottimi risultati. Posso insegnarti, se sei interessato!

Come funzionano i motori di ricerca? Una delle grandi cose di Internet è che ci sono centinaia di milioni di risorse web in attesa e pronte per essere presentate a noi. Ma la cosa brutta è che ci sono gli stessi milioni di pagine che, anche se ne avessimo bisogno, non ci appariranno davanti, perché. ci sono semplicemente sconosciuti. Come scoprire cosa e dove si può trovare su Internet? Di solito ci rivolgiamo ai motori di ricerca per questo.

I motori di ricerca su Internet sono siti speciali in rete globale, progettati per aiutare le persone a trovare World Wide Web le informazioni di cui hanno bisogno. Ci sono differenze nel modo in cui i motori di ricerca svolgono le loro funzioni, ma in generale ci sono 3 funzioni di base identiche:

Tutti loro "cercano" in Internet (o in qualche settore di Internet) - in base a determinate parole chiave;
- tutti i motori di ricerca indicizzano le parole che cercano ei luoghi dove le trovano;
- tutti i motori di ricerca consentono agli utenti di ricercare parole o combinazioni di parole chiave basate su pagine web già indicizzate e inserite nei propri database.

I primissimi motori di ricerca indicizzavano fino a diverse centinaia di migliaia di pagine e ricevevano da 1.000 a 2.000 query al giorno. Oggi i principali motori di ricerca hanno indicizzato e indicizzano continuamente centinaia di milioni di pagine, elaborando decine di milioni di richieste al giorno. Di seguito parleremo di come funzionano i motori di ricerca e di come "aggiungono" tutte le informazioni trovate in modo da poter rispondere a qualsiasi domanda che ci interessa.

Diamo un'occhiata al web

Quando le persone parlano di motori di ricerca su Internet, in realtà intendono i motori di ricerca. World Wide Web. Prima che il Web diventasse la parte più visibile di Internet, i motori di ricerca esistevano già per aiutare le persone a trovare informazioni sul Web. Programmi chiamati "gopher" e "Archie" erano in grado di indicizzare file ospitati su diversi server a cui erano collegati Internet Internet e ripetutamente ridotto il tempo dedicato alla ricerca programmi desiderati o documenti. Alla fine degli anni '80 del secolo scorso, il sinonimo di "capacità di lavorare su Internet" era la capacità di utilizzare gopher, Archie, Veronica, ecc. programmi di ricerca. Oggi, la maggior parte degli utenti di Internet limita la propria ricerca a only rete mondiale o www.

piccolo inizio

Prima di risponderti dove trovare il documento o il file desiderato, questo file o documento deve essere già stato trovato a un certo punto. Per trovare informazioni su centinaia di milioni di pagine WEB esistenti, il motore di ricerca utilizza uno speciale programma robotico. Questo programma è anche chiamato spider ("ragno", ragno) e viene utilizzato per costruire un elenco di parole trovate nella pagina. Viene chiamato il processo di costruzione di un tale elenco scansione del web(Scansione Web). Per costruire ulteriormente e acquisire un elenco di parole "utili" (significative), ricerca ragno deve "visualizzare" molte altre pagine.

Come si inizia? ragno(ragno) il tuo viaggio sul web? Di solito il punto di partenza sono i server più grandi del mondo e le pagine web molto popolari. Il ragno inizia il suo viaggio da tale sito, indicizza tutte le parole trovate e continua il suo movimento ulteriormente, seguendo i collegamenti ad altri siti. Così, il robot ragno inizia a coprire tutti i grandi "pezzi" dello spazio web. Google.com è nato come motore di ricerca accademico. In un articolo che descrive come è stato creato questo motore di ricerca, Sergey Brin e Laurence Page (fondatori e proprietari di Google) hanno fornito un esempio della velocità con cui funzionano gli spider di Google. Ce ne sono diversi e di solito la ricerca inizia con l'uso di 3 ragni. Ogni spider mantiene fino a 300 connessioni aperte simultanee alle pagine web. Al picco di carico, utilizzando 4 spider, il sistema Google è in grado di elaborare 100 pagine al secondo, generando un traffico di circa 600 kilobyte/sec.

Per fornire agli spider i dati che devono elaborare, Google disponeva di un server che non faceva altro che "lanciare" gli spider con sempre più URL. Per non dipendere dai fornitori di servizi Internet in termini di server dei nomi di dominio (DNS) che traducono l'url in indirizzo IP, Google ha acquisito un proprio Server DNS, riducendo al minimo tutto il tempo dedicato all'indicizzazione delle pagine.

Quando Google Robot fa visita pagina Html, tiene conto di 2 cose:

Parole (testo) per pagina;
- la loro posizione (in quale parte del corpo della pagina).

Parole situate con sezioni di servizio, ad esempio titolo, sottotitoli, meta tag et al. sono stati contrassegnati come particolarmente importanti per le query di ricerca degli utenti. Lo spider di Google è stato creato per indicizzare ogni parola simile su una pagina, con l'eccezione di interiezioni come "a", "an" e "the.". Altri motori di ricerca hanno un approccio leggermente diverso all'indicizzazione.

Tutti gli approcci e gli algoritmi dei motori di ricerca mirano in ultima analisi a far funzionare i robot ragno in modo più rapido ed efficiente. Ad esempio, alcuni robot di ricerca tengono traccia dell'indicizzazione delle parole nel titolo, nei collegamenti e fino a 100 delle parole utilizzate più di frequente nella pagina e persino in ciascuna delle parole delle prime 20 righe del contenuto testuale della pagina. Questo è l'algoritmo di indicizzazione, in particolare, per Lycos.

Altri motori di ricerca, come AltaVista, vanno nella direzione opposta, indicizzando ogni singola parola su una pagina, comprese "a", "an", "the" e altre parole non importanti.

Meta tags

I meta tag consentono al proprietario di una pagina Web di specificare parole chiave e concetti che definiscono l'essenza del suo contenuto. Questo è uno strumento molto utile, soprattutto quando queste parole chiave possono essere ripetute fino a 2-3 volte nel testo della pagina. In questo caso, i meta tag possono "indirizzare" il robot di ricerca alla giusta scelta di parole chiave per indicizzare la pagina. Esiste la possibilità di "imbrogliare" meta tag in eccesso rispetto a query e concetti di ricerca popolari che non hanno nulla a che fare con il contenuto della pagina stessa. I robot di ricerca possono occuparsi di questo, ad esempio, analizzando la correlazione tra meta tag e contenuto della pagina web, "buttando fuori" quei meta tag (rispettivamente parole chiave) che non corrispondono al contenuto delle pagine.

Tutto questo vale per quei casi in cui il proprietario di una risorsa web desidera davvero essere incluso nei risultati di ricerca per le parole di ricerca desiderate. Ma capita spesso che il proprietario non voglia affatto essere indicizzato dal robot. Ma tali casi non appartengono all'argomento del nostro articolo.

Costruzione dell'indice

Una volta che gli spider hanno terminato il loro compito di trovare nuove pagine web, i motori di ricerca devono collocare tutte le informazioni che trovano in un modo che sia facile da usare in seguito. Ci sono 2 componenti chiave che contano qui:

Informazioni memorizzate con i dati;
- il metodo con cui queste informazioni sono indicizzate.

Nel caso più semplice, un motore di ricerca potrebbe semplicemente inserire una parola e Indirizzo URL Dove si trova. Ma questo renderebbe il motore di ricerca uno strumento molto primitivo, poiché non ci sono informazioni su quale parte del documento si trova questa parola (meta tag o testo normale), se questa parola viene usata una volta o ripetutamente e se è contenuto in un collegamento ad un'altra risorsa importante e correlata. In altre parole, questo metodo non ti consentirà di classificare i siti, non fornirà agli utenti risultati pertinenti, ecc.

Per fornirci dati utili, i motori di ricerca memorizzano più che semplici informazioni da una parola e dal suo URL. Il motore di ricerca può salvare i dati sul numero (frequenza) di menzioni di una parola su una pagina, assegnare un "peso" alla parola, che aiuterà ulteriormente a emettere elenchi di ricerca (risultati) basati sulla classifica del peso per questa parola, tenendo conto della sua posizione (nei link, nei meta tag, nel titolo della pagina) e così via). Ogni motore di ricerca commerciale ha la sua formula per calcolare il "peso" delle parole chiave durante l'indicizzazione. Questo è uno dei motivi per cui i motori di ricerca danno risultati molto diversi per la stessa query di ricerca.

Prossimo punto importante durante l'elaborazione delle informazioni trovate - la sua codifica per ridurre il volume spazio sul disco per salvarlo. Ad esempio, nell'articolo originale di Google, viene descritto che vengono utilizzati 2 byte (8 bit ciascuno) per memorizzare i dati di peso delle parole - questo tiene conto del tipo di parola (lettere maiuscole o maiuscole), della dimensione del lettere stesse (Font-Size) e altre informazioni che aiutano a classificare il sito. Ciascuno di questi "pezzi" di informazioni richiede 2-3 bit di dati in un set completo di 2 byte. Di conseguenza, è possibile memorizzare un'enorme quantità di informazioni in una forma molto compatta. Dopo che le informazioni sono state "compresse", è il momento di iniziare l'indicizzazione.

L'obiettivo dell'indicizzazione è lo stesso: fornire il massimo ricerca rapida le informazioni necessarie. Esistono diversi modi per creare indici, ma il più efficiente è costruire tabelle hash(tabella hash). L'hashing utilizza una formula che assegna un valore numerico a ciascuna parola.

In ogni lingua ci sono lettere che iniziano con molte più parole che con il resto delle lettere dell'alfabeto. Ad esempio, ci sono molte più parole che iniziano con le lettere "M" nella sezione del dizionario inglese rispetto a quelle che iniziano con la lettera "X". Ciò significa che la ricerca di una parola che inizia con la lettera più popolare richiederà più tempo di qualsiasi altra parola. hash(Hashing) equalizza questa differenza e riduce il tempo medio di ricerca e separa anche l'indice stesso dai dati reali. La tabella hash contiene i valori hash insieme a un puntatore ai dati corrispondenti a quel valore. Indicizzazione efficiente + posizionamento efficiente insieme forniscono un'elevata velocità di ricerca, anche se l'utente imposta una query di ricerca molto complessa.

Il futuro dei motori di ricerca

Una ricerca basata su operatori booleani ("e", "o", "non") è una ricerca letterale: il motore di ricerca ottiene le parole di ricerca esattamente come sono state inserite. Ciò può causare un problema quando, ad esempio, la parola immessa ha più significati. "Chiave", ad esempio, potrebbe significare "significa aprire una porta" o potrebbe significare "password" per accedere a un server. Se sei interessato solo a un significato di una parola, ovviamente non avrai bisogno di dati sul suo secondo significato. Puoi, ovviamente, costruire una query letterale che ti permetta di escludere l'output di dati sul significato non necessario della parola, ma sarebbe bello se il motore di ricerca potesse aiutarti.

Un'area di ricerca nei futuri algoritmi dei motori di ricerca è il recupero di informazioni concettuali. Si tratta di algoritmi in cui l'analisi statistica delle pagine contenenti una determinata parola chiave o frase di ricerca viene utilizzata per trovare dati pertinenti. Chiaramente, un tale "motore di ricerca concettuale" avrebbe bisogno di molto più spazio di archiviazione per ogni pagina e più tempo per elaborare ogni richiesta. Molti ricercatori stanno attualmente lavorando su questo problema.

Non viene svolto un lavoro meno intenso nel campo dello sviluppo di algoritmi di ricerca basati su query. linguaggio naturale(interrogazione in linguaggio naturale).

L'idea alla base delle query naturali è che puoi scrivere una query come se stessi chiedendo a un collega seduto di fronte a te. Non devi preoccuparti degli operatori booleani o affrontare il problema di creare una query complessa. Il sito di ricerca in lingua di ricerca naturale più popolare oggi è AskJeeves.com. Converte la query in parole chiave, che poi utilizza durante l'indicizzazione dei siti. Questo approccio funziona solo per query semplici. Il progresso però non si ferma, è possibile che molto presto "parleremo" con i motori di ricerca nel nostro "linguaggio umano".

Le raccolte di link tematici sono elenchi compilati da un gruppo di professionisti o anche da singoli collezionisti. Molto spesso, un argomento altamente specializzato può essere trattato meglio da uno specialista piuttosto che da un gruppo di dipendenti di un ampio catalogo. Ci sono così tante raccolte tematiche sul Web che non ha senso fornire indirizzi specifici.

Selezione del nome di dominio

Catalogare - sistema conveniente cerca, tuttavia, per arrivare al server di Microsoft o IBM, difficilmente ha senso accedere alla directory. Non è difficile indovinare il nome del sito corrispondente: www.microsoft.com , www.ibm.com o www.microsoft.ru , www.ibm.ru - siti degli uffici di rappresentanza russi di queste società.

Allo stesso modo, se un utente ha bisogno di un sito dedicato al meteo mondiale, è logico cercarlo sul server www.weather.com. Nella maggior parte dei casi, la ricerca di un sito con una parola chiave nel titolo è più efficiente rispetto alla ricerca di un documento nel cui testo viene utilizzata questa parola. Se una società (o progetto) commerciale occidentale ha un nome monosillabico e implementa il proprio server sul Web, è molto probabile che il suo nome rientri nel formato www.name.com e per Runet (la parte russa del Web) - www.name.ru, dove nome - il nome dell'azienda o del progetto. L'ipotesi dell'indirizzo può competere con successo con altri metodi di ricerca, perché con un tale motore di ricerca è possibile stabilire una connessione con un server che non è registrato con alcun motore di ricerca. Tuttavia, se non riesci a trovare il nome che stai cercando, dovrai rivolgerti al motore di ricerca.

motori di ricerca

Dimmi cosa cerchi su Internet e ti dirò chi sei

Se il computer fosse un sistema altamente intelligente in grado di spiegare facilmente ciò che stai cercando, allora fornirebbe due o tre documenti, esattamente quelli di cui hai bisogno. Ma, sfortunatamente, non è così e, in risposta a una richiesta, l'utente di solito riceve un lungo elenco di documenti, molti dei quali non hanno nulla a che fare con ciò che ha chiesto. Tali documenti sono chiamati irrilevanti (dall'inglese rilevante - appropriato, pertinente). Pertanto, il documento pertinente è il documento che contiene le informazioni che stai cercando. Ovviamente, la percentuale di documenti pertinenti ricevuti dipende dalla capacità di emettere con competenza una richiesta. La proporzione di documenti rilevanti nell'elenco di tutti i documenti trovati dal motore di ricerca è chiamata accuratezza della ricerca. I documenti irrilevanti sono chiamati rumore. Se tutti i documenti trovati sono pertinenti (nessun rumore), l'accuratezza della ricerca è del 100%. Se vengono trovati tutti i documenti pertinenti, la completezza della ricerca è del 100%.

Pertanto, la qualità della ricerca è determinata da due parametri interdipendenti: l'accuratezza e la completezza della ricerca. Aumentare la completezza della ricerca riduce l'accuratezza e viceversa.

Come funziona un motore di ricerca

Motori di ricerca può essere paragonato a un help desk i cui agenti girano per le aziende raccogliendo informazioni in un database (Figura 4.21). Quando si contatta il servizio, le informazioni vengono emesse da questo database. I dati nel database diventano obsoleti, quindi gli agenti li aggiornano periodicamente. Alcune imprese stesse inviano dati su se stesse e gli agenti non devono venire da loro. In altre parole, sportello di assistenza ha due funzioni: creare e aggiornare costantemente i dati nel database e cercare informazioni nel database su richiesta del cliente.

Riso. 4.21.

Allo stesso modo, motore di ricercaè costituito da due parti: il cosiddetto robot (o spider), che aggira i server Web e forma un database del motore di ricerca.

La base del robot è formata principalmente da lui stesso (il robot stesso trova collegamenti a nuove risorse) e, in misura molto minore, dai proprietari delle risorse che registrano i propri siti nel motore di ricerca. Oltre al robot (agente di rete, spider, worm) che forma il database, esiste un programma che determina la valutazione dei link trovati.

Il principio di funzionamento di un motore di ricerca è che interroga la sua directory interna (database) per le parole chiave che l'utente specifica nel campo di query e produce un elenco di collegamenti ordinati per rilevanza.

Va notato che, durante l'elaborazione di una specifica richiesta dell'utente, il motore di ricerca opera proprio con risorse interne (e non intraprende un viaggio attraverso il Web, come spesso credono gli utenti inesperti), e le risorse interne sono naturalmente limitate. Sebbene il database del motore di ricerca sia costantemente aggiornato, motore di ricerca non è possibile indicizzare tutti i documenti Web: il loro numero è troppo elevato. Pertanto, c'è sempre la possibilità che la risorsa che stai cercando sia semplicemente sconosciuta a un particolare motore di ricerca.

Questa idea è chiaramente illustrata nella Fig. 4.22. L'ellisse 1 limita l'insieme di tutti i documenti Web esistenti in un determinato momento, l'ellisse 2 - tutti i documenti indicizzati da questo motore di ricerca e l'ellisse 3 - i documenti richiesti. Pertanto, utilizzando questo motore di ricerca, puoi trovare solo quella parte dei documenti richiesti che sono indicizzati da esso.

Riso. 4.22.

Il problema dell'insufficiente completezza della ricerca non è solo le limitate risorse interne del motore di ricerca, ma anche il fatto che la velocità del robot è limitata e il numero di nuovi documenti Web è in costante crescita. L'aumento delle risorse interne del motore di ricerca non può risolvere completamente il problema, poiché la velocità di scansione delle risorse da parte del robot è limitata.

Allo stesso tempo, supponilo motore di ricerca contiene una copia delle risorse Internet originali sarebbe sbagliato. Le informazioni complete (documenti di origine) non vengono sempre archiviate, più spesso viene memorizzata solo una parte di esse: il cosiddetto elenco indicizzato, o indice, che è molto più compatto del testo dei documenti e consente di rispondere rapidamente a query di ricerca.

Per costruire un indice, i dati di origine vengono trasformati in modo che il volume del database sia minimo e la ricerca sia molto veloce e dia il massimo informazioni utili. Spiegando cos'è un elenco indicizzato, si può tracciare un parallelo con la sua controparte cartacea: la cosiddetta concordanza, ad es. un dizionario che elenca in ordine alfabetico le parole usate da un determinato scrittore, nonché i riferimenti ad esse e la frequenza del loro uso nelle sue opere.

Ovviamente la concordanza (dizionario) è molto più compatta rispetto ai testi originali delle opere e trovarvi la parola giusta è molto più facile che sfogliare il libro sperando di imbattersi nella parola giusta.

Costruzione dell'indice

Lo schema di costruzione dell'indice è mostrato in fig. 4.23. Gli agenti Web, o robot ragno, "strisciano" sul Web, analizzano il contenuto delle pagine Web e raccolgono informazioni su ciò che è stato trovato su quale pagina.

Riso. 4.23.

Quando si trova la pagina HTML successiva, la maggior parte dei motori di ricerca cattura le parole, le immagini, i collegamenti e altri elementi (in diversi motori di ricerca in modi diversi) contenuti in essa. Inoltre, quando si tracciano le parole su una pagina, non viene registrata solo la loro presenza, ma anche la loro posizione, ad es. dove si trovano queste parole: nel titolo (titolo), sottotitoli ( sottotitoli ), nei meta tag 1 I meta tag sono tag di servizio che consentono agli sviluppatori di inserire informazioni di servizio nelle pagine Web, anche per orientare il motore di ricerca.( meta tag ) o altrove. In questo caso, le parole significative sono solitamente fisse e le congiunzioni e le interiezioni come "a", "ma" e "o" vengono ignorate. I meta tag consentono ai proprietari di pagine di definire le parole chiave e gli argomenti per i quali una pagina è indicizzata. Questo può essere rilevante quando le parole chiave hanno più significati. I meta tag possono guidare il motore di ricerca nella scelta tra diversi significati di una parola fino all'unico corretto. Tuttavia, i meta tag funzionano in modo affidabile solo se compilati da proprietari di siti onesti. I proprietari di siti Web senza scrupoli inseriscono nei loro meta tag le parole più popolari sul Web che non hanno nulla a che fare con l'argomento del sito. Di conseguenza, i visitatori accedono a siti non richiesti, aumentando così il loro posizionamento. Questo è il motivo per cui molti motori di ricerca moderni ignorano i meta tag o li considerano aggiuntivi rispetto al testo della pagina. Ogni robot mantiene il proprio elenco di risorse punite per pubblicità sleale.

Ovviamente, se stai cercando siti su parola chiave"cane", allora il motore di ricerca dovrebbe trovare non solo tutte le pagine in cui è menzionata la parola "cane", ma anche quelle in cui questa parola è correlata all'argomento del sito. Per determinare la misura in cui una determinata parola è rilevante per il profilo di una determinata pagina Web, è necessario valutare la frequenza con cui ricorre sulla pagina, se ci sono collegamenti ad altre pagine per questa parola o meno. In breve, è necessario classificare le parole trovate nella pagina in ordine di importanza. Alle parole viene assegnato un peso a seconda di quante volte e dove ricorrono (nel titolo della pagina, all'inizio o alla fine della pagina, in un collegamento, in un meta tag, ecc.). Ogni motore di ricerca ha il proprio algoritmo di ponderazione: questo è uno dei motivi per cui i motori di ricerca forniscono elenchi di risorse diversi per la stessa parola chiave. Poiché le pagine sono costantemente aggiornate, il processo di indicizzazione deve essere continuo. Gli spiderbot attraversano i collegamenti e creano un file contenente un indice, che può essere piuttosto grande. Per ridurne le dimensioni, ricorrono alla riduzione al minimo della quantità di informazioni e alla compressione del file. Con più robot, un motore di ricerca può elaborare centinaia di pagine al secondo. Oggi potenti motori di ricerca memorizzano centinaia di milioni di pagine e ricevono decine di milioni di query ogni giorno.

Quando si costruisce un indice si risolve anche il problema di ridurre il numero di duplicati, compito non banale, visto che per un corretto confronto bisogna prima determinare la codifica del documento. Un compito ancora più difficile è separare documenti molto simili (chiamati "quasi duplicati"), come quelli in cui differisce solo il titolo e il testo è duplicato. Ci sono molti documenti simili sul Web, ad esempio qualcuno ha cancellato un abstract e lo ha pubblicato sul sito con la sua firma. I moderni motori di ricerca ti consentono di risolvere tali problemi.

robot di ricerca chiamato programma speciale qualsiasi motore di ricerca che ha lo scopo di inserire nel database (indicizzando) i siti trovati su Internet e le loro pagine. Vengono utilizzati anche i nomi: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Principio di funzionamento

Il robot di ricerca è un programma di tipo browser. Esamina costantemente la rete: visita siti indicizzati (a lui già noti), segue i collegamenti da essi e trova nuove risorse. Quando viene trovata una nuova risorsa, il robot della procedura la aggiunge all'indice del motore di ricerca. Il robot di ricerca indicizza anche gli aggiornamenti sui siti, la cui frequenza è fissa. Ad esempio, un sito che viene aggiornato una volta alla settimana sarà visitato da uno spider con questa frequenza e il contenuto dei siti di notizie può essere indicizzato entro pochi minuti dalla pubblicazione. Se nessun collegamento da altre risorse conduce al sito, per attirare i robot di ricerca, la risorsa deve essere aggiunta tramite un modulo speciale (Google Webmaster Center, Yandex Webmaster Panel, ecc.).

Tipi di robot di ricerca

Yandex ragni:

Yandex/1.01.001 I è il principale bot di indicizzazione,
Yandex/1.01.001 (P) - indicizza immagini,
Yandex/1.01.001 (H) - trova i mirror del sito,
Yandex/1.03.003 (D) - determina se la pagina aggiunta dal pannello del webmaster corrisponde ai parametri di indicizzazione,
YaDirectBot/1.0 (I) - indicizza le risorse da rete pubblicitaria Yandex,
Yandex/1.02.000 (F) — indicizza le favicon del sito.

Google Spider:

Googlebot è il robot principale,
Googlebot News: esegue la scansione e indicizza le notizie,
Google Mobile: indicizza siti web per dispositivi mobili,
Immagini di Googlebot: cerca e indicizza le immagini,
Googlebot Video: indicizza i video,
Google AdsBot: controlla la qualità della pagina di destinazione,
Google Mobile AdSense e Google AdSense - indicizza i siti della rete pubblicitaria di Google.

Anche altri motori di ricerca utilizzano diversi tipi di robot funzionalmente simili a quelli elencati.

Materiali tematici: