Che lavoro fanno gli spider dei motori di ricerca? Cos'è un motore di ricerca o come funziona un motore di ricerca. Che cos'è un robot di ricerca

robot di ricerca chiamato programma speciale qualsiasi motore di ricerca che ha lo scopo di inserire nel database (indicizzando) i siti trovati su Internet e le loro pagine. Vengono utilizzati anche i nomi: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Principio di funzionamento

Il robot di ricerca è un programma di tipo browser. Esamina costantemente la rete: visita siti indicizzati (a lui già noti), segue i collegamenti da essi e trova nuove risorse. Quando viene trovata una nuova risorsa, il robot della procedura la aggiunge all'indice del motore di ricerca. Il robot di ricerca indicizza anche gli aggiornamenti sui siti, la cui frequenza è fissa. Ad esempio, un sito che viene aggiornato una volta alla settimana sarà visitato da uno spider con questa frequenza e il contenuto dei siti di notizie può essere indicizzato entro pochi minuti dalla pubblicazione. Se nessun collegamento da altre risorse conduce al sito, per attirare i robot di ricerca, la risorsa deve essere aggiunta tramite un modulo speciale (Google Webmaster Center, Yandex Webmaster Panel, ecc.).

Tipi di robot di ricerca

Yandex ragni:

Yandex/1.01.001 I è il principale bot di indicizzazione,
Yandex/1.01.001 (P) - indicizza immagini,
Yandex/1.01.001 (H) - trova i mirror del sito,
Yandex/1.03.003 (D) - determina se la pagina aggiunta dal pannello del webmaster corrisponde ai parametri di indicizzazione,
YaDirectBot/1.0 (I) - indicizza le risorse da rete pubblicitaria Yandex,
Yandex/1.02.000 (F) — indicizza le favicon del sito.

Google Spider:

Googlebot è il robot principale,
Googlebot News: esegue la scansione e indicizza le notizie,
Google Mobile: indicizza siti web per dispositivi mobili,
Immagini di Googlebot: cerca e indicizza le immagini,
Googlebot Video: indicizza i video,
Google AdsBot: controlla la qualità della pagina di destinazione,
Google Mobile AdSense e Google AdSense - indicizza i siti della rete pubblicitaria di Google.

Anche altri motori di ricerca utilizzano diversi tipi di robot funzionalmente simili a quelli elencati.

Il suo compito è analizzare attentamente il contenuto delle pagine dei siti presentati su Internet e inviare i risultati dell'analisi al motore di ricerca.

Il robot di ricerca aggira le nuove pagine per qualche tempo, ma successivamente vengono indicizzate e, in assenza di sanzioni da parte dei motori di ricerca, possono essere visualizzate nei risultati di ricerca.

Principio operativo

L'azione dei robot di ricerca si basa sullo stesso principio del funzionamento di un normale browser. Visitando questo o quel sito, ignorano parte delle sue pagine o tutte le pagine senza eccezioni. Inviano le informazioni ricevute sul sito all'indice di ricerca. Questa informazione appare in risultati di ricerca corrispondente a una determinata domanda.

A causa del fatto che i robot di ricerca possono visitare solo una parte delle pagine, possono sorgere problemi con l'indicizzazione di siti di grandi dimensioni. Gli stessi esatti problemi possono sorgere a causa della scarsa qualità.

Le interruzioni nel suo lavoro rendono alcune pagine inaccessibili per l'analisi. Un ruolo importante nella valutazione del sito da parte dei robot di ricerca è svolto da un file robots.txt correttamente composto e ben configurato.

La profondità della scansione delle risorse e la frequenza della scansione dei siti da parte dei robot di ricerca dipende da:

Algoritmi dei motori di ricerca.
Frequenza di aggiornamento del sito.
Strutture del sito.

Indice di ricerca

Il database delle informazioni raccolte dai web crawler è chiamato indice di ricerca. Questo database viene utilizzato dai motori di ricerca per generare risultati di ricerca per specifici file .

L'indice non contiene solo informazioni sui siti: i robot di ricerca sono in grado di riconoscere immagini, file multimediali e documenti in vari formati elettronici (.docx, .pdf, ecc.).

Uno dei robot di ricerca più attivi del sistema Yandex è un bot veloce. Analizza costantemente le risorse di notizie e altri siti aggiornati di frequente. , che non è visto dallo swiftbot, non ha senso.

Puoi attirarlo con l'aiuto di strumenti speciali e sono efficaci per siti con vari scopi. Per verificare l'accessibilità dei siti, per analizzare le loro caratteristiche individuali, per indicizzare immagini e documenti nei motori di ricerca, esistono robot separati.

Amici, vi saluto ancora! Ora analizzeremo cosa sono i robot di ricerca e parleremo in dettaglio del robot di ricerca di Google e di come diventarne amico.

Per prima cosa devi capire cosa sono in generale i robot di ricerca, sono anche chiamati spider. Che lavoro fanno gli spider dei motori di ricerca?

Questi sono programmi che controllano i siti web. Esaminano tutti i post e le pagine del tuo blog, raccolgono informazioni, che poi trasferiscono al database del motore di ricerca per cui lavorano.

Non è necessario conoscere l'intero elenco dei robot di ricerca, la cosa più importante è sapere che Google ora ha due ragni principali, che si chiamano "panda" e "pinguino". Stanno combattendo con contenuti di bassa qualità e collegamenti spazzatura e devi sapere come respingere i loro attacchi.

Il robot di ricerca google panda è stato creato per promuovere solo materiale di alta qualità nella ricerca. Tutti i siti con contenuti di bassa qualità vengono abbassati nei risultati di ricerca.

La prima volta che questo ragno è apparso nel 2011. Prima della sua comparsa, era possibile promuovere qualsiasi sito pubblicando una grande quantità di testo negli articoli e utilizzando un'enorme quantità di parole chiave. Insieme, queste due tecniche non hanno portato in cima ai risultati di ricerca contenuti di qualità, e i siti validi sono diminuiti nei risultati di ricerca.

"Panda" ha subito messo le cose in ordine controllando tutti i siti e mettendo tutti al posto giusto. Anche se lotta con contenuti di bassa qualità, ora è possibile promuovere anche piccoli siti con articoli di qualità. Sebbene prima fosse inutile promuovere tali siti, non potevano competere con i giganti che hanno una grande quantità di contenuti.

Ora scopriremo come evitare le sanzioni "panda". Bisogna prima capire cosa non le piace. Ho già scritto sopra che sta lottando con contenuti cattivi, ma che tipo di testo le fa male, scopriamolo per non pubblicarlo sul suo sito.

Il robot di ricerca di Google si sforza di avere solo materiali di qualità per i richiedenti. Se hai articoli in cui ci sono poche informazioni e non hanno un aspetto attraente, riscrivi urgentemente questi testi in modo che il "panda" non ti raggiunga.

I contenuti di qualità possono essere sia grandi che piccoli, ma se il ragno vede un lungo articolo con molte informazioni, ne trarrà maggiori benefici il lettore.

Quindi va notato la duplicazione, in altre parole il plagio. Se pensi di riscrivere gli articoli di altre persone per il tuo blog, puoi immediatamente porre fine al tuo sito. La copia è severamente punita applicando un filtro e il plagio è controllato molto facile, ho scritto un articolo sull'argomento come verificare l'unicità dei testi.

La prossima cosa da notare è l'eccessiva saturazione del testo con parole chiave. Chi pensa che scriverà un articolo con le stesse parole chiave e prenderà il primo posto nei risultati di ricerca si sbaglia di grosso. Ho un articolo su come controllare la pertinenza delle pagine, assicurati di leggere.

E cos'altro può attrarre un "panda" per te sono vecchi articoli che sono moralmente obsoleti e non portano traffico al sito. Devono essere aggiornati.

C'è anche un robot di ricerca su Google "pinguino". Questo ragno combatte lo spam e i link spazzatura sul tuo sito. Calcola anche i collegamenti acquistati da altre risorse. Pertanto, per non aver paura di questo robot di ricerca, non dovresti acquistare link, ma pubblicare contenuti di alta qualità in modo che le persone si colleghino a te stesse.

Ora formuliamo cosa deve essere fatto per rendere il sito perfetto attraverso gli occhi di un robot di ricerca:

Per realizzare contenuti di qualità, studia bene l'argomento prima di scrivere un articolo. Quindi devi capire che le persone sono davvero interessate a questo argomento.

Usa esempi e immagini specifici per rendere l'articolo vivace e interessante. Suddividi il testo in piccoli paragrafi per facilitarne la lettura.Ad esempio, se apri una pagina con barzellette su un giornale, quale leggerai per prima? Naturalmente ogni persona legge prima i testi brevi, poi quelli più lunghi e, ultimo ma non meno importante, i lunghi calzari.

Il nitpick preferito di Panda non è la pertinenza di un articolo che contiene informazioni obsolete. Resta sintonizzato per gli aggiornamenti e modifica i testi.

Guarda la densità delle parole chiave, ho scritto sopra come determinare questa densità, nel servizio di cui ho parlato riceverai il numero esatto di chiavi richieste.

Non plagiare, tutti sanno che non puoi rubare le cose o il testo di altre persone: è la stessa cosa. Sarai responsabile del furto andando sotto il filtro.

Scrivi testi per almeno duemila parole, quindi un articolo del genere sembrerà informativo attraverso gli occhi dei robot dei motori di ricerca.

Non andare fuori tema sul tuo blog. Se gestisci un blog su come fare soldi su Internet, non è necessario stampare articoli sulle armi ad aria compressa. Questo potrebbe abbassare la valutazione della tua risorsa.

Progettare articoli in modo bello, dividerli in paragrafi e aggiungere immagini per renderlo piacevole da leggere e non voler abbandonare rapidamente il sito.

Quando acquisti link, inseriscili negli articoli più interessanti e utili che le persone leggeranno effettivamente.

Bene, ora sai che tipo di lavoro fanno i robot dei motori di ricerca e puoi essere loro amico. E, cosa più importante, il robot di ricerca di Google e "panda" e "pinguino" sono stati studiati in dettaglio da te.

I robot dei motori di ricerca, a volte chiamati "spider" o "crawler" (crawler) sono moduli software che cercano pagine web. Come funzionano? Cosa stanno realmente facendo? Perché sono importanti?

Considerando tutto il rumore intorno Ottimizzazione del motore di ricerca e i database degli indici dei motori di ricerca, probabilmente pensi che i robot debbano essere esseri grandi e potenti. Non vero. I robot dei motori di ricerca hanno solo funzionalità di base simili a quelle dei primi browser in termini di informazioni che possono riconoscere su un sito. Come i primi browser, i robot semplicemente non possono fare certe cose. I robot non comprendono frame, animazioni Flash, immagini o JavaScript. Non possono entrare in sezioni protette da password e non possono cliccare su tutti i pulsanti presenti nel sito. Possono "tacere" nel processo di indicizzazione dinamica URL e funzionano molto lentamente, fino al punto di fermarsi e impotenti sulla navigazione JavaScript.

Come funzionano i robot dei motori di ricerca?

I web crawler dovrebbero essere pensati come programmi automatizzati di data mining che navigano sul web alla ricerca di informazioni e collegamenti a informazioni.

Quando vai alla pagina "Invia un URL", registri un'altra pagina web nel motore di ricerca, un nuovo URL viene aggiunto alla coda per la visualizzazione dei siti dal robot. Anche se non registri una pagina, molti robot troveranno il tuo sito perché ci sono collegamenti da altri siti che si collegano al tuo. Questo è uno dei motivi per cui è importante creare link popularity e posizionare link su altre risorse tematiche.

Quando arrivano sul tuo sito, i robot controllano prima se c'è un file robots.txt. Questo file indica ai robot quali sezioni del tuo sito non devono essere indicizzate. Di solito queste possono essere directory contenenti file a cui il robot non è interessato o di cui non dovrebbe essere a conoscenza.

I robot memorizzano e raccolgono collegamenti da ogni pagina che visitano e successivamente seguono tali collegamenti ad altre pagine. Tutto rete mondiale costruito dai link. L'idea iniziale di creare la rete Internet era che sarebbe stato possibile seguire i collegamenti da un luogo all'altro. Ecco come si muovono i robot.

Il "spiritoso" dell'indicizzazione delle pagine in tempo reale dipende dagli ingegneri dei motori di ricerca che hanno inventato i metodi utilizzati per valutare le informazioni recuperate dai crawler dei motori di ricerca. Una volta incorporate nel database di un motore di ricerca, le informazioni sono disponibili per gli utenti che effettuano ricerche. Quando un utente di un motore di ricerca digita query di ricerca, viene eseguita una serie di rapidi calcoli per garantire che venga restituito l'insieme corretto di siti per la risposta più pertinente.

Puoi visualizzare quali pagine del tuo sito sono già state visitate dal robot di ricerca, guidato dai file di log del server, oppure i risultati dell'elaborazione statistica del file di log. Identificando i robot, puoi vedere quando hanno visitato il tuo sito, quali pagine e con quale frequenza. Alcuni robot sono facilmente identificabili dai loro nomi, come "Googlebot" di Google. Altri sono più nascosti, come "Slurp" di Inktomi. Altri robot possono essere trovati anche nei log ed è possibile che tu non sia in grado di identificarli immediatamente; alcuni di essi potrebbero persino essere browser controllati dall'uomo.

Oltre a identificare crawler univoci e contare il numero di visite che hanno, le statistiche possono anche mostrarti crawler aggressivi, che consumano larghezza di banda o crawler che non desideri visitare il tuo sito.

Come leggono le pagine del tuo sito web?

Quando un crawler visita una pagina, scansiona il suo testo visibile, il contenuto di vari tag in codice sorgente la tua pagina (tag del titolo, meta tag, ecc.), così come i collegamenti ipertestuali sulla pagina. Secondo i link, motore di ricerca decide di cosa tratta la pagina. Ci sono molti fattori utilizzati per calcolare i punti chiave di una pagina che "gioca un ruolo". Ogni motore di ricerca ha il proprio algoritmo per la valutazione e l'elaborazione delle informazioni. A seconda di come è configurato il robot, le informazioni vengono indicizzate e quindi consegnate al database del motore di ricerca.

Successivamente, le informazioni fornite ai database dell'indice del motore di ricerca diventano parte del motore di ricerca e del processo di classificazione del database. Quando un visitatore effettua una query, il motore di ricerca esamina l'intero database per restituire un elenco finale pertinente alla query di ricerca.

I database dei motori di ricerca vengono accuratamente elaborati e allineati. Se sei già nel database, i robot ti visiteranno periodicamente per raccogliere eventuali modifiche alle pagine e assicurarsi che abbiano le informazioni più recenti. Il numero di visite dipende dalle impostazioni del motore di ricerca, che possono variare a seconda della sua tipologia e finalità.

A volte i robot di ricerca non sono in grado di indicizzare un sito web. Se il tuo sito si è arrestato in modo anomalo o un numero elevato di visitatori sta visitando il sito, il robot potrebbe non riuscire a indicizzarlo. Quando ciò accade, il sito non può essere reindicizzato, a seconda della frequenza con cui il robot lo visita. Nella maggior parte dei casi, i robot che non sono riusciti a raggiungere le tue pagine proveranno più tardi, nella speranza che il tuo sito sia presto disponibile.

Molti crawler non possono essere identificati quando si visualizzano i log. Potrebbero visitarti, ma i registri dicono che qualcuno sta usando il browser Microsoft, ecc. Alcuni robot si identificano utilizzando il nome di un motore di ricerca (googlebot) o un suo clone (Scooter = AltaVista).

A seconda di come è configurato il robot, le informazioni vengono indicizzate e quindi consegnate ai database dei motori di ricerca.

I database dei motori di ricerca sono soggetti a modifiche in vari momenti. Anche le directory che hanno risultati di ricerca secondari utilizzano i dati dei robot come contenuto del loro sito web.

In realtà, i robot non vengono utilizzati dai motori di ricerca solo per quanto sopra. Esistono robot che controllano i database per nuovi contenuti, visitano i vecchi contenuti dei database, controllano se i collegamenti sono cambiati, scaricano interi siti per la navigazione e così via.

Per questo leggere i file di log e tenere traccia dei risultati del motore di ricerca ti aiuta a tenere d'occhio l'indicizzazione dei tuoi progetti.

I robot spider dei motori di ricerca sono bot di Internet il cui compito è quello di navigare sistematicamente nelle pagine del mondo ampia rete per fornire l'indicizzazione web. Tradizionalmente, la scansione dello spazio WWW viene eseguita per aggiornare le informazioni sui contenuti pubblicati sulla rete al fine di fornire agli utenti dati aggiornati sul contenuto di una particolare risorsa. I tipi di robot di ricerca e le loro funzionalità saranno discussi in questo articolo.

Gli spider di ricerca possono anche essere chiamati in modo diverso: robot, web spider, crawler. Tuttavia, a prescindere dal nome, sono tutti impegnati nello studio costante e continuo dei contenuti dello spazio virtuale. Il robot conserva un elenco di URL, i cui documenti vengono scaricati regolarmente. Se lo spider trova un nuovo collegamento durante il processo di indicizzazione, viene aggiunto a questo elenco.

Pertanto, le azioni di un crawler possono essere paragonate a quelle di una persona comune dietro un browser. L'unica differenza è che apriamo solo i collegamenti che sono interessanti per noi e il robot - tutto ciò su cui ha informazioni. Inoltre, il robot, dopo aver letto il contenuto della pagina indicizzata, trasmette i dati su di essa in una forma speciale ai server del motore di ricerca per l'archiviazione fino a quando l'utente non lo richiede.

Allo stesso tempo, ogni robot svolge il proprio compito specifico: alcuni indicizzano il contenuto del testo, alcuni indicizzano la grafica, altri salvano il contenuto nell'archivio, ecc.

Il compito principale dei motori di ricerca- la creazione di un algoritmo che ti consentirà di ottenere informazioni in modo rapido e completo, perché anche i giganti della ricerca non hanno la capacità di fornire un processo di scansione completo. Pertanto, ogni azienda offre ai robot formule matematiche uniche, in base alle quali il bot seleziona una pagina da visitare nel passaggio successivo. Questo, unito agli algoritmi di ranking, è uno dei criteri più importanti in base ai quali gli utenti scelgono un motore di ricerca: dove le informazioni sui siti sono più complete, fresche e utili.

Un robot del motore di ricerca potrebbe non sapere del tuo sito se non ci sono collegamenti ad esso (il che è forse raro: oggi, dopo aver registrato un nome di dominio, se ne trovano menzioni sulla rete). Se non ci sono collegamenti, devi comunicarlo al motore di ricerca. Per questo, di solito viene utilizzato conti personali» webmaster.

Qual è il compito principale dei robot di ricerca

Quanto vorremmo, ma il compito principale del robot di ricerca non è affatto quello di raccontare al mondo l'esistenza del nostro sito. È difficile formularlo, ma tuttavia, procedendo dal fatto che motori di ricerca funzionano solo grazie ai propri clienti, cioè utenti, il robot deve fornire una ricerca rapida e l'indicizzazione dei dati immessi in rete. Solo questo consente al PS di soddisfare il bisogno del pubblico di risultati di ricerca pertinenti e pertinenti.

Ovviamente, i robot non possono indicizzare il 100% dei siti web. Secondo la ricerca, il numero di pagine caricate dai leader di ricerca non supera il 70% del numero totale di URL inseriti su Internet. Tuttavia, la misura in cui la tua risorsa viene studiata dal bot influirà anche sul numero di utenti che hanno fatto clic sulle query dalla ricerca. Pertanto, gli ottimizzatori soffrono nel tentativo di "nutrire" il robot per informarlo dei cambiamenti il più rapidamente possibile.

In Runet, Yandex solo nel 2016 è passato alla seconda riga in termini di copertura mensile del pubblico, perdendo contro Google. Pertanto, non sorprende che lui il numero più grande ragni che esplorano lo spazio tra i PS domestici. Inutile elencarli tutti: puoi vederlo nella sezione "Guida per i webmaster" > Gestione di un robot di ricerca > Come verificare che il robot appartenga a Yandex.

Tutti i crawler dei motori di ricerca hanno uno user-agent strettamente regolamentato. Tra quelli che un site builder dovrà sicuramente incontrare:

Mozilla/5.0 (compatibile; YandexBot/3.0; +http://yandex.com/bots) - bot di indicizzazione principale;
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 come Mac OS X) AppleWebKit/600.1.4 (KHTML, come Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatibile; YandexBot/3.0; +http://yandex .com/bots) - spider di indicizzazione;
Mozilla/5.0 (compatibile; YandexImages/3.0; +http://yandex.com/bots) - Yandex.Images bot;
Mozilla/5.0 (compatibile; YandexMedia/3.0; +http://yandex.com/bots) - indicizza i materiali multimediali;
Mozilla/5.0 (compatibile; YandexFavicons/1.0; +http://yandex.com/bots) - indicizza le icone del sito.

Per attirare gli spider Yandex sul tuo sito, si consiglia di eseguirne diversi azioni semplici:

configurare correttamente robots.txt;
creare un feed RSS;
posizionare una mappa del sito con un elenco completo delle pagine indicizzate;
creare una pagina (o pagine) che conterrà collegamenti a tutti i documenti di risorsa;
configurare gli stati HTTP;
garantire attività sociale dopo la pubblicazione dei materiali (e non solo commenti, ma condivisione del documento);
posizionamento intensivo di nuovi testi unici.

L'ultimo argomento è supportato dalla capacità dei bot di ricordare la velocità di aggiornamento dei contenuti e di arrivare al sito con una frequenza rilevata di aggiunta di nuovi materiali.

Se desideri impedire ai crawler Yandex di accedere alle pagine (ad esempio, sezioni tecniche), devi configurare il file robots.txt. Gli spider PS sono in grado di comprendere lo standard di esclusione dei bot, quindi di solito non ci sono difficoltà nella creazione di un file.

Agente utente: Yandex

non consentire: /

impedirà al PS di indicizzare l'intero sito.

Inoltre, i robot Yandex possono tenere conto dei consigli specificati nei meta tag. Esempio: Vieterà la dimostrazione nell'emissione di un collegamento a una copia del documento dall'archivio. E aggiungendo il tag al codice della pagina lo indicherà questo documento non ha bisogno di essere indicizzato.

Un elenco completo di valori validi è disponibile nella sezione "Utilizzo di elementi HTML" della Guida del webmaster.

Robot di ricerca di Google

Il principale meccanismo di indicizzazione dei contenuti WWW di Google si chiama Googlebot. Il suo motore è impostato per scansionare miliardi di pagine al giorno per trovare documenti nuovi o modificati. Allo stesso tempo, il bot stesso determina quali pagine scansionare e quali ignorare.

Per questo crawler è importante che il sito disponga di un file Sitemap fornito dal proprietario della risorsa. La rete di computer che fornisce il suo funzionamento è così potente che il bot può effettuare richieste alle pagine del tuo sito ogni paio di secondi. E il bot è configurato in modo tale da analizzare più pagine in una volta sola, in modo da non caricare il server. Se il tuo sito sta rallentando a causa delle frequenti richieste di spider, puoi modificare la velocità di scansione configurandola in Search Console. Allo stesso tempo, purtroppo, è impossibile aumentare la velocità di scansione.

Al bot di Google può essere chiesto di ripetere la scansione del sito. Per fare ciò, devi aprire la Search Console e trovare la funzione Aggiungi all'indice, disponibile per gli utenti dello strumento Sfoglia come Googlebot. Dopo la scansione, verrà visualizzato il pulsante Aggiungi all'indice. Allo stesso tempo, Google non garantisce l'indicizzazione di tutte le modifiche, poiché il processo è associato al lavoro di "algoritmi complessi".

Strumenti utili

È abbastanza difficile elencare tutti gli strumenti che aiutano gli ottimizzatori a lavorare con i robot, poiché ce ne sono molti. Oltre a "Visualizza come Googlebot" sopra menzionato, vale la pena notare gli analizzatori di file robots.txt di Google e Yandex, gli analizzatori di file Sitemap e il servizio Server Response Check del PS russo. Grazie alle loro capacità, avrai un'idea di come appare il tuo sito agli occhi di uno spider, il che ti aiuterà a evitare errori e garantirà la scansione più veloce del sito.

Materiali tematici: