keresőrobot hívott speciális program minden olyan keresőmotor, amely az interneten talált oldalak és oldalaik adatbázisba való bevitelére (indexelésére) van kialakítva. A nevek is használatosak: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.
A keresőrobot egy böngésző típusú program. Folyamatosan pásztázza a hálózatot: indexelt (számára már ismert) oldalakat keres fel, követi az azokon található linkeket és új forrásokat talál. Ha új erőforrást talál, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a közzétételt követően perceken belül indexelhető. Ha más forrásokból nem vezet hivatkozás a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon keresztül kell hozzáadni (Google Webmesterközpont, Yandex Webmester Panel stb.).
Yandex pókok:
Google Spiders:
Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.
Feladata, hogy gondosan elemezze az interneten bemutatott webhelyek oldalainak tartalmát, és elküldje az elemzés eredményeit a keresőmotornak.
A keresőrobot egy ideig megkerüli az új oldalakat, de később azokat indexeli, és a keresőmotorok szankcióinak hiányában megjelenítheti a keresési eredmények között.
A keresőrobotok működése ugyanazon az elven alapul, mint egy közönséges böngésző működése. Egy adott webhely felkeresésekor kivétel nélkül megkerülik annak oldalainak egy részét, vagy az összes oldalt. A kapott információkat a webhelyről elküldik a keresési indexnek. Ez az információ itt jelenik meg Keresési eredmények egy adott kérésnek felel meg.
Tekintettel arra, hogy a keresőrobotok csak az oldalak egy részét tudják felkeresni, problémák adódhatnak a nagy oldalak indexelésével. Ugyanezek a problémák merülhetnek fel a rossz minőség miatt.
Munkája megszakítása egyes oldalakat elérhetetlenné tesz az elemzés számára. Az oldal keresőrobotok általi értékelésében fontos szerepet játszik a megfelelően összeállított és jól konfigurált robots.txt fájl.
Az erőforrás-ellenőrzés mélysége és a webhelyek keresőrobotok általi feltérképezésének gyakorisága a következőktől függ:
A webrobotok által gyűjtött információk adatbázisát keresési indexnek nevezik. Ezt az adatbázist a keresőmotorok használják bizonyos keresési eredmények generálására.
Az index nem csak az oldalakkal kapcsolatos információkat tartalmaz: a keresőrobotok képesek felismerni képeket, multimédiás fájlokat és különféle elektronikus formátumú dokumentumokat (.docx, .pdf stb.).
A Yandex rendszer egyik legaktívabb keresőrobotja egy gyors bot. Folyamatosan vizsgálja a hírforrásokat és más gyakran frissített webhelyeket. , amit a swiftbot nem lát, nincs értelme.
Speciális eszközök segítségével vonzhatja be, és különféle célú webhelyeken hatékonyak. Külön robotok állnak rendelkezésre az oldalak hozzáférhetőségének ellenőrzésére, egyedi jellemzőik elemzésére, a képek és dokumentumok keresőmotorokban való indexelésére.
Barátaim, ismét üdvözöllek benneteket! Most elemezzük, mik a keresőrobotok, és részletesen beszélünk a Google keresőrobotjáról, és arról, hogyan lehet velük barátkozni.
Először is meg kell értened, mik a keresőrobotok általában, pókoknak is nevezik őket. Milyen munkát végeznek a keresőpók?
Ezek olyan programok, amelyek ellenőrzik a webhelyeket. Átnézik a blogod összes bejegyzését és oldalát, információkat gyűjtenek, amelyeket aztán átvisznek annak a keresőnek az adatbázisába, amelynek dolgoznak.
Nem kell ismernie a keresőrobotok teljes listáját, a legfontosabb tudnivaló, hogy a Google-nak most két fő pókja van, ezek a „panda” és a „pingvin”. Gyenge minőségű tartalommal és ócska linkekkel harcolnak, és tudnia kell, hogyan kell visszaverni a támadásaikat.
A google panda keresőrobotot azért hozták létre, hogy csak a jó minőségű anyagokat népszerűsítse a keresésben. Az összes rossz minőségű tartalommal rendelkező webhely lejjebb kerül a keresési eredmények között.
Ez a pók először 2011-ben jelent meg. Megjelenése előtt bármely webhelyet népszerűsíteni lehetett nagy mennyiségű szöveg cikkekben való közzétételével és hatalmas mennyiségű kulcsszavakat. Ez a két technika együtt nem került a keresési eredmények élére minőségi tartalom, és a jó oldalak lekerültek a keresési eredmények között.
A "Panda" azonnal rendet rakott az összes webhely ellenőrzésével, és mindenkit a megfelelő helyére helyezett. Bár küzd az alacsony minőségű tartalommal, most még a minőségi cikkeket tartalmazó kis webhelyek is népszerűsíthetők. Bár korábban hiábavaló volt ilyen oldalakat reklámozni, nem tudták felvenni a versenyt a nagy mennyiségű tartalommal rendelkező óriásokkal.
Most kitaláljuk, hogyan kerülhetjük el a „panda” szankciókat. Először meg kell értenünk, mit nem szeret. Fentebb már írtam, hogy rossz tartalommal küszködik, de hogy milyen szöveg rossz neki, azt találjuk ki, hogy ezt ne tegyük közzé az oldalán.
A google keresőrobot arra törekszik, hogy csak minőségi anyagok jelentkezők számára. Ha vannak olyan cikkeid, amelyekben kevés az információ, és megjelenésükben nem vonzóak, akkor sürgősen írd át ezeket a szövegeket, hogy a "panda" ne jusson el hozzád.
A minőségi tartalom lehet kicsi és nagy is, de ha a pók egy hosszú cikket lát, sok információval, akkor az inkább az olvasó hasznára válik.
Aztán meg kell jegyezni a duplikációt, más szóval a plágiumot. Ha úgy gondolja, hogy mások cikkeit átírja a blogjára, azonnal véget vethet webhelyének. A másolást szigorúan szűrő alkalmazásával büntetik, ill a plágiumot ellenőrzik nagyon egyszerű, írtam egy cikket a témában hogyan lehet ellenőrizni a szövegek egyediségét.
A következő észrevehető dolog a szöveg kulcsszavakkal való túltelítettsége. Aki azt hiszi, hogy ugyanazokból a kulcsszavakból fog cikket írni, és ezzel az első helyet foglalja el a keresési eredmények között, az nagyon téved. Van egy cikkem az oldalak relevanciájának ellenőrzéséről, feltétlenül olvassa el.
És ami még vonzhat egy „pandát”, az a régi cikkek, amelyek erkölcsileg elavultak, és nem hoznak forgalmat az oldalra. Frissíteni kell őket.
Van még egy google keresőrobot "pingvin". Ez a pók felveszi a harcot a webhelyén található spamekkel és kéretlen hivatkozásokkal. Ezenkívül kiszámítja a vásárolt hivatkozásokat más forrásokból. Ezért, hogy ne féljen ettől a keresőrobottól, ne linkeket vásároljon, hanem jó minőségű tartalmat tegyen közzé, hogy az emberek maguk linkeljék Önt.
Most pedig fogalmazzuk meg, mit kell tenni ahhoz, hogy az oldal tökéletes legyen a keresőrobot szemével:
Nos, most már tudja, milyen munkát végeznek a keresőrobotok, és barátkozhat velük. És ami a legfontosabb, a google keresőrobotot és a "pandát" és a "pingvint" részletesen tanulmányoztad.
A keresőrobotok, más néven „pókok” vagy „bejárók” (robotok) olyan szoftvermodulok, amelyek weboldalakat keresnek. Hogyan működnek? Mit csinálnak valójában? Miért fontosak?
Figyelembe véve a környező zajt Keresőoptimalizációés a keresőmotor-index adatbázisok, valószínűleg úgy gondolja, hogy a robotoknak nagyszerű és hatalmas lényeknek kell lenniük. Nem igaz. A keresőrobotok csak alapvető funkciókkal rendelkeznek, amelyek hasonlítanak a korai böngészőkhöz, abból a szempontból, hogy milyen információkat tudnak felismerni egy webhelyen. A korai böngészőkhöz hasonlóan a robotok egyszerűen nem tudnak bizonyos dolgokat elvégezni. A robotok nem értik a kereteket, a Flash-animációkat, a képeket vagy a JavaScriptet. Nem léphetnek be jelszóval védett szakaszokba, és nem kattinthatnak az oldalon található összes gombra. A dinamikus indexelés folyamatában "elhallgathatnak". URL-ekés nagyon lassan dolgoznak, egészen addig a pontig, amíg meg nem áll a JavaScript-navigáció.
A webrobotokat automatizált adatbányászati programoknak kell tekinteni, amelyek információkat és információkra mutató hivatkozásokat keresve szörföznek a weben.
Amikor az „URL beküldése” oldalra lép, egy másik weboldalt regisztrál a keresőben, és egy új URL-t ad hozzá a sorhoz, hogy a robot megtekinthesse a webhelyeket. Még ha nem is regisztrál egy oldalt, sok robot meg fogja találni az Ön webhelyét, mert vannak más oldalak linkjei, amelyek a tiédre mutatnak. Ez az egyik oka annak, hogy miért fontos a linkek népszerűsítése és a hivatkozások elhelyezése más tematikus forrásokon.
Amikor felkeresik webhelyét, a robotok először ellenőrzik, hogy van-e robots.txt fájl. Ez a fájl közli a robotokkal, hogy webhelyének mely részeit ne indexeljék. Általában ezek olyan könyvtárak lehetnek, amelyek olyan fájlokat tartalmaznak, amelyek a robotot nem érdeklik, vagy amelyekről nem szabad tudnia.
A robotok minden általuk meglátogatott oldalról tárolnak és gyűjtenek linkeket, majd később követik ezeket a hivatkozásokat más oldalakra. Minden világméretű hálózat linkekből épül fel. Az internetes hálózat létrehozásának kezdeti ötlete az volt, hogy lehetővé válik a hivatkozások követése egyik helyről a másikra. Így mozognak a robotok.
A valós idejű oldalindexelés „szellemessége” a keresőmérnököktől függ, akik kitalálták a keresőrobotok által lekért információk értékelésére használt módszereket. Miután beágyazott egy keresőmotor adatbázisába, az információ elérhetővé válik a keresést végző felhasználók számára. Amikor a keresőmotor felhasználója beírja keresési lekérdezés, egy sor gyors számítást végzünk annak biztosítására, hogy a legrelevánsabb válaszhoz a megfelelő webhelykészlet kerüljön visszaadásra.
Megtekintheti, hogy webhelyének mely oldalait kereste fel már a keresőrobot, a szerver naplófájljai, illetve a naplófájl statisztikai feldolgozásának eredményei alapján. A robotok azonosításával láthatja, hogy mikor, mely oldalakat és milyen gyakran látogatták meg a webhelyén. Néhány robot könnyen azonosítható a nevük alapján, például a Google „Googlebotja”. Mások rejtettebbek, mint például Inktomi "Slurp". Más robotok is megtalálhatók a naplókban, és előfordulhat, hogy nem fogja tudni azonnal azonosítani őket; némelyikük akár ember által vezérelt böngésző is lehet.
Az egyedi bejárók azonosításán és látogatásaik számának számlálásán túl a statisztikák azt is kimutathatják, hogy agresszív, sávszélességet fogyasztó bejárók vagy bejárók, akiket nem szeretne felkeresni a webhelyén.
Amikor egy bejáró meglátogat egy oldalt, átvizsgálja annak látható szövegét, a különböző címkék tartalmát forráskód oldala (címcímke, metacímkék stb.), valamint az oldalon található hiperhivatkozások. A linkek szerint keresőmotor eldönti, hogy miről szól az oldal. Számos tényezőt használnak az oldal „szerepet játszó” kulcspontjainak kiszámításához. Minden keresőmotornak saját algoritmusa van az információk kiértékelésére és feldolgozására. A robot konfigurációjától függően az információ indexelve, majd a keresőmotor adatbázisába kerül.
Ezt követően a keresőmotor-index adatbázisokba eljuttatott információk a keresőmotor és az adatbázis-rangsorolási folyamat részévé válnak. Amikor egy látogató lekérdez, a keresőmotor végigmegy a teljes adatbázison, hogy visszaadja a keresési lekérdezés szempontjából releváns végső listát.
A keresőmotorok adatbázisait gondosan feldolgozzák és összehangolják. Ha már benne van az adatbázisban, a robotok rendszeresen felkeresik Önt, hogy összegyűjtsék az oldalak változásait, és megbizonyosodjanak arról, hogy a legfrissebb információkkal rendelkeznek. A látogatások száma a keresőmotor beállításaitól függ, amelyek típusától és céljától függően változhatnak.
Néha a keresőrobotok nem képesek indexelni egy webhelyet. Ha webhelye összeomlott, vagy nagyszámú látogató keresi fel a webhelyet, akkor előfordulhat, hogy a robot tehetetlen az indexelésben. Ha ez megtörténik, a webhely nem indexelhető újra, attól függően, hogy a robot milyen gyakran látogatja meg. A legtöbb esetben azok a robotok, amelyek nem tudták elérni az oldalakat, később próbálkoznak, abban a reményben, hogy webhelye hamarosan elérhető lesz.
A naplók megtekintésekor sok bejáró nem azonosítható. Lehet, hogy meglátogatják Önt, de a naplók szerint valaki a Microsoft böngészőt használja stb. Egyes robotok egy keresőmotor (googlebot) vagy annak klónja (Scooter = AltaVista) nevével azonosítják magukat.
Attól függően, hogy a robot hogyan van konfigurálva, az információkat indexeli, majd eljuttatja a keresőmotorok adatbázisaihoz.
A keresőmotorok adatbázisai különböző időpontokban módosulhatnak. Még a másodlagos keresési eredményekkel rendelkező könyvtárak is robotadatokat használnak webhelyük tartalmaként.
Valójában a keresőmotorok nem csak a fentiekre használják a robotokat. Vannak olyan robotok, amelyek ellenőrzik az adatbázisok új tartalmát, meglátogatják a régi adatbázis-tartalmakat, ellenőrzik, hogy a hivatkozások megváltoztak-e, teljes webhelyeket töltenek le böngészés céljából, és így tovább.
Emiatt a naplófájlok olvasása és a keresőmotor eredményeinek nyomon követése segít a projektek indexelésének figyelemmel kísérésében.
A keresőpók robotok olyan internetes robotok, amelyeknek az a feladata, hogy szisztematikusan böngésszenek a világ oldalain széles háló webindexelés biztosítására. Hagyományosan a WWW-tér átvizsgálását azért végzik, hogy frissítsék a hálózaton közzétett tartalommal kapcsolatos információkat, hogy a felhasználók naprakész adatokat kapjanak egy adott erőforrás tartalmáról. A keresőrobotok típusairól és azok jellemzőiről ebben a cikkben lesz szó.
A keresőpókokat másként is nevezhetjük: robotok, webpókok, bejárók. Névtől függetlenül azonban mindannyian a virtuális tér tartalmának folyamatos és folyamatos tanulmányozásával foglalkoznak. A robot listát vezet az URL-ekről, amelyekről rendszeresen letölti a dokumentumokat. Ha a pók új hivatkozást talál az indexelési folyamat során, akkor hozzáadódik ehhez a listához.
Így egy bejáró tevékenysége egy böngésző mögötti hétköznapi emberhez hasonlítható. Az egyetlen különbség az, hogy csak a számunkra érdekes linkeket nyitjuk meg, és a robotot – mindazt, amiről információval rendelkezik. Ezenkívül a robot, miután elolvasta az indexelt oldal tartalmát, speciális formában továbbítja az adatokat a kereső szervereinek tárolásra, amíg a felhasználó kéri.
Ugyanakkor minden robot elvégzi a saját konkrét feladatát: van, aki a szöveges tartalmat indexeli, van, aki a grafikát indexeli, míg mások az archívumba mentik a tartalmat stb.
A keresőmotorok fő feladata- olyan algoritmus létrehozása, amely lehetővé teszi a gyors és legteljesebb információk megszerzését, mivel még a keresés óriásai sem képesek átfogó szkennelési folyamatot biztosítani. Ezért minden vállalat egyedi matematikai képleteket kínál a robotoknak, amelyeknek engedelmeskedve a bot kiválasztja a következő lépésben meglátogatandó oldalt. Ez a rangsoroló algoritmusokkal párosulva az egyik legfontosabb kritérium, amely alapján a felhasználók keresőt választanak: hol teljesebbek, frissebbek és hasznosabbak az oldalakkal kapcsolatos információk.
Előfordulhat, hogy egy keresőrobot nem tud az Ön webhelyéről, ha nincs rá hivatkozás (ami talán ritka – ma már domain név regisztrálása után említést tesznek róla a hálózaton). Ha nincsenek linkek, akkor erről szólnia kell a keresőnek. Erre általában azt használják személyes számlák» webmesterek.
Bármennyire is szeretnénk, de a keresőrobot fő feladata egyáltalán nem az, hogy elmesélje a világnak oldalunk létezését. Nehéz megfogalmazni, de mégis abból kiindulva, hogy kereső motorok csak az ügyfeleiknek, azaz a felhasználóknak köszönhetően működnek, a robotnak biztosítania kell a hálózaton közzétett adatok gyors keresését és indexelését. Csak ez teszi lehetővé a PS számára, hogy kielégítse a közönség releváns és releváns keresési eredmények iránti igényét.
Természetesen a robotok nem tudják a webhelyek 100%-át indexelni. A kutatások szerint a keresővezetők által betöltött oldalak száma nem haladja meg az interneten elhelyezett összes URL 70%-át. Azonban az, hogy a bot milyen mértékben tanulmányozza az Ön erőforrását, befolyásolja azon felhasználók számát is, akik a keresésből származó lekérdezésekre kattintottak. Ezért az optimalizálók szenvednek attól, hogy megpróbálják „etetni” a robotot, hogy a lehető leggyorsabban megismertessék a változásokkal.
A Runetben a Yandex csak 2016-ban lépett fel a második sorba a havi közönséglefedettség tekintetében, és veszített a Google-lal szemben. Ezért nem meglepő, hogy ő a legnagyobb számbanűrkutató pókok a hazai PS-ek között. Felesleges mindet felsorolni: megtekintheti a "Webmester súgó" szakaszban > Keresőrobot kezelése > Hogyan ellenőrizhető, hogy a robot a Yandexhez tartozik-e.
Minden keresőrobotnak van szigorúan szabályozott felhasználói ügynöke. Azok között, amelyekkel egy webhelykészítőnek feltétlenül meg kell felelnie:
A Yandex pókok webhelyére vonzásához ajánlatos többször is végrehajtani egyszerű műveletek:
Az utolsó érvet alátámasztja a robotok azon képessége, hogy emlékezzenek a tartalomfrissítés sebességére, és az új anyagok hozzáadásának észlelt gyakoriságával érkezzenek az oldalra.
Ha meg szeretné akadályozni, hogy a Yandex bejárók hozzáférjenek az oldalakhoz (például a műszaki szakaszokhoz), konfigurálnia kell a robots.txt fájlt. A PS-pókok képesek megérteni a botkizárási szabványt, így általában nem okoz nehézséget a fájl létrehozása.
Felhasználói ügynök: Yandex
letilt: /
megakadályozza, hogy a PS indexelje a teljes webhelyet.
Ezenkívül a Yandex robotok figyelembe vehetik a metacímkékben megadott ajánlásokat. Példa: megtiltja a demonstrációt az archívumból származó dokumentum másolatára mutató hivatkozás kiadásában. És a címke hozzáadása az oldal kódjához jelezni fogja ez a dokumentum nem kell indexelni.
Az érvényes értékek teljes listája a Webmester Súgó „HTML-elemek használata” szakaszában található.
A Google fő WWW-tartalomindexelési mechanizmusa a Googlebot. Motorja úgy van beállítva, hogy naponta több milliárd oldalt szkenneljen be, hogy új vagy módosított dokumentumokat találjon. Ugyanakkor a bot maga határozza meg, hogy mely oldalakat kell feltérképezni és melyeket figyelmen kívül hagyni.
Ennél a bejárónál fontos, hogy a webhely rendelkezzen az erőforrás tulajdonosa által biztosított webhelytérkép-fájllal. A működését biztosító számítógéphálózat olyan erős, hogy a bot néhány másodpercenként kéréseket tud küldeni az Ön webhelyének oldalaira. A bot pedig úgy van beállítva, hogy egy menetben több oldalt elemezzen, hogy ne okozzon terhelést a szerveren. Ha webhelye lelassul a gyakori pókkérések miatt, módosíthatja a feltérképezési sebességet a Search Console-ban történő konfigurálással. Ugyanakkor sajnos nem lehet növelni a szkennelési sebességet.
A Google robotot fel lehet kérni a webhely újbóli feltérképezésére. Ehhez meg kell nyitnia a Search Console-t, és meg kell találnia a Hozzáadás az indexhez funkciót, amely a Tallózás Googlebotként eszköz felhasználói számára elérhető. A beolvasás után megjelenik a Hozzáadás az indexhez gomb. Ugyanakkor a Google nem garantálja az összes változás indexelését, mivel a folyamat „összetett algoritmusok” munkájához kapcsolódik.
Elég nehéz felsorolni az összes olyan eszközt, amely segíti az optimalizálókat a robotokkal való munkában, mivel rengeteg van belőlük. A fent említett „View as Googlebot” mellett érdemes megemlíteni a Google és a Yandex robots.txt fájlelemzőit, a Sitemap fájlelemzőket és az orosz PS Server Response Check szolgáltatását. Lehetőségeiknek köszönhetően elképzelése lesz arról, hogyan néz ki webhelye egy pók szemében, ami segít elkerülni a hibákat és biztosítja a webhely leggyorsabb feltérképezését.