Keresőmotorok, keresőmotorok és pókrobotok. A keresőmotorok jövője. Keresőmotorok robotjaik és pókjaik Keresőmotorok a világháló előtt

Feladata, hogy gondosan elemezze az interneten bemutatott webhelyek oldalainak tartalmát, és elküldje az elemzés eredményeit a keresőnek.

A keresőrobot egy ideig megkerüli az új oldalakat, de később azokat indexeli, és a keresőmotorok szankcióinak hiányában megjelenítheti a keresési eredmények között.

Működési elve

A keresőrobotok működése ugyanazon az elven alapul, mint egy közönséges böngésző működése. Egy adott webhely felkeresésekor kivétel nélkül megkerülik annak oldalainak egy részét, vagy az összes oldalt. A kapott információkat a webhelyről elküldik a keresési indexnek. Ez az információ itt jelenik meg Keresési eredmények egy adott lekérdezésnek felel meg.

Tekintettel arra, hogy a keresőrobotok csak az oldalak egy részét tudják felkeresni, problémák adódhatnak a nagy oldalak indexelésével. Ugyanezek a problémák merülhetnek fel a rossz minőség miatt.

Munkája megszakítása egyes oldalakat elérhetetlenné tesz az elemzés számára. Az oldal keresőrobotok általi értékelésében fontos szerepet játszik a megfelelően összeállított és jól konfigurált robots.txt fájl.

Az erőforrás-ellenőrzés mélysége és a webhelyek keresőrobotok általi feltérképezésének gyakorisága a következőktől függ:

Keresőmotor-algoritmusok.
A webhely frissítési gyakorisága.
A helyszín szerkezetei.

Index keresése

A webrobotok által gyűjtött információk adatbázisát keresési indexnek nevezik. Ezt az adatbázist a keresőmotorok használják bizonyos keresési eredmények generálására.

Az index nem csak az oldalakkal kapcsolatos információkat tartalmaz: a keresőrobotok képesek felismerni képeket, multimédiás fájlokat és különféle elektronikus formátumú dokumentumokat (.docx, .pdf stb.).

A Yandex rendszer egyik legaktívabb keresőrobotja egy gyors bot. Folyamatosan vizsgálja a hírforrásokat és más gyakran frissített webhelyeket. , amit a swiftbot nem lát, nincs értelme.

Speciális eszközök segítségével vonzhatja be, és különféle célú webhelyeken hatékonyak. Külön robotok állnak rendelkezésre az oldalak hozzáférhetőségének ellenőrzésére, egyedi jellemzőik elemzésére, a képek és dokumentumok keresőmotorokban való indexelésére.

Hello barátok! Ma megtudhatja, hogyan működnek a Yandex és a Google keresőrobotjai, és milyen funkciót töltenek be a webhelyek népszerűsítésében. Akkor gyerünk!

A keresőmotorok ezt a műveletet annak érdekében hajtják végre, hogy az egymillió webhely közül tíz olyan WEB-projektet találjanak, amelyek jó minőségű és releváns választ adnak a felhasználói lekérdezésekre. Miért csak tíz? Mert csak tíz pozícióból áll.

Keressen robotok barátait, webmestereket és felhasználókat

Az már világossá vált, hogy miért fontos a keresőrobotok felkeresni az oldalt, és miért a felhasználónak? Ez így van, annak érdekében, hogy a felhasználó csak azokat a webhelyeket nyissa meg, amelyek teljes mértékben válaszolnak a kérésére.

Kereső robot- egy nagyon rugalmas eszköz, képes megtalálni a webhelyet, még azt is, amelyik most készült, és ennek az oldalnak a tulajdonosa még nem vett részt a . Ezért ezt a botot póknak hívták, képes kinyújtani a mancsait és bárhová eljutni a virtuális weben.

Lehetséges-e az Ön érdekeinek megfelelően irányítani a keresőrobotot

Vannak esetek, amikor egyes oldalak nem szerepelnek a keresésben. Ez elsősorban annak tudható be, hogy ezt az oldalt még nem indexelte keresőrobot. Persze előbb-utóbb a keresőrobot észreveszi ezt az oldalt. De ehhez idő kell, és néha elég sok idő. De itt segíthet a keresőrobotnak, hogy gyorsabban meglátogassa ezt az oldalt.

Ehhez elhelyezheti webhelyét speciális könyvtárakba vagy listákba, közösségi hálózatokba. Általában minden olyan webhelyen, ahol a keresőrobot egyszerűen él. Például a közösségi hálózatokban másodpercenként frissítés történik. Próbálja meg megszerezni webhelyét, és a keresőrobot sokkal gyorsabban megérkezik webhelyére.

Ebből következik egy, de a fő szabály. Ha azt szeretné, hogy keresőrobotok látogassák meg webhelyét, rendszeresen új tartalommal kell ellátniuk őket. Abban az esetben, ha észreveszik, hogy a tartalom frissül, az oldal fejlődik, sokkal gyakrabban látogatják meg internetes projektjét.

Minden keresőrobot képes megjegyezni, hogy milyen gyakran változik a tartalom. Nemcsak a minőséget, hanem az időintervallumokat is értékeli. És ha az oldalon lévő anyagot havonta egyszer frissítik, akkor havonta egyszer érkezik az oldalra.

Így ha hetente egyszer frissül az oldal, akkor hetente egyszer jön a keresőrobot. Ha minden nap frissíti az oldalt, akkor a keresőrobot minden nap vagy minden második nap felkeresi az oldalt. Vannak olyan webhelyek, amelyeket a frissítés után néhány percen belül indexelnek. Ez közösségi média, hírgyűjtők és olyan webhelyek, amelyek naponta több cikket tesznek közzé.

Hogyan lehet feladatot adni egy robotnak, és megtiltani neki valamit?

A legelején megtudtuk, hogy a keresőmotorokban több robot is van, amelyek különböző feladatokat látnak el. Valaki képeket, valaki linkeket és így tovább.

Egy speciális fájl segítségével bármilyen robotot irányíthat robots.txt . Ebből a fájlból kezdi el a robot megismerkedni az oldallal. Ebben a fájlban megadhatja, hogy a robot indexelhesse-e a webhelyet, ha igen, mely szakaszokat. Mindezek az utasítások egy vagy az összes robothoz létrehozhatók.

Weboldal promóciós képzés

Tudjon meg többet a Wisdomról SEO promóció webhelyek a keresőmotorokban Google rendszerekés a Yandex, beszélek a Skype-omon. Az összes WEB projektemet több látogatóra hoztam, és ezzel kiváló eredményeket értem el. Megtanítalak, ha érdekel!

Hogyan működnek a keresőmotorok? Az internet egyik nagyszerű tulajdonsága, hogy több száz millió webes erőforrás vár, és készen áll arra, hogy bemutassák nekünk. De az a rossz, hogy ugyanazok a milliók az oldalak, amelyek még ha szükségünk is lenne rájuk, nem fognak megjelenni előttünk, mert. egyszerűen ismeretlenek számunkra. Hogyan lehet megtudni, hogy mi és hol található az interneten? Általában keresőmotorokhoz fordulunk ehhez.

Az internetes keresők speciális oldalak globális hálózat, amelyek célja, hogy segítsenek az embereknek megtalálni világháló a szükséges információkat. Vannak különbségek a keresőmotorok funkcióinak ellátásában, de általában három alapvető és azonos funkció van:

Mindegyik "keres" az interneten (vagy az internet valamely szektorában) - megadott kulcsszavak alapján;
- minden keresőmotor indexeli a keresett szavakat és azokat a helyeket, ahol megtalálja őket;
- minden keresőmotor lehetővé teszi a felhasználók számára, hogy a már indexelt és az adatbázisukban szereplő weboldalak alapján keressenek szavakat vagy kulcsszavak kombinációit.

A legelső keresőmotorok akár több százezer oldalt is indexeltek, és naponta 1000-2000 lekérdezést kaptak. Napjainkban a legnépszerűbb keresőmotorok több száz millió oldalt indexeltek és folyamatosan indexelnek, és naponta több tízmillió kérést dolgoznak fel. Az alábbiakban arról lesz szó, hogyan működnek a keresőmotorok, és hogyan "adják hozzá" az összes talált információt, hogy meg tudjanak válaszolni minden minket érdeklő kérdést.

Nézzük a webet

Amikor az emberek internetes keresőmotorokról beszélnek, akkor valójában keresőmotorokra gondolnak. világháló. Mielőtt a web az internet leglátványosabb része lett volna, már léteztek keresőmotorok, amelyek segítségével az emberek információkat találhatnak a weben. A "gopher" és "Archie" nevű programok képesek voltak indexelni a különböző szervereken tárolt fájlokat Internet Internetés többször is csökkentette a keresésre fordított időt kívánt programokat vagy dokumentumokat. A múlt század 80-as éveinek végén az "internetes munkaképesség" szinonimája a gopher, Archie, Veronica stb. használatának képessége volt. kereső programok. Manapság a legtöbb internetfelhasználó csak erre korlátozza a keresést világméretű hálózat, vagy www.

kicsi kezdés

Mielőtt megválaszolná, hol található a kívánt dokumentum vagy fájl, ezt a fájlt vagy dokumentumot valamikor már megtalálták. A több százmillió létező WEB-oldal információinak megtalálásához a kereső egy speciális robotprogramot használ. Ezt a programot póknak ("pók", pók) is hívják, és az oldalon található szavak listájának összeállítására szolgál. Az ilyen lista készítésének folyamatát ún webtérképezés(Webbejárás). A "hasznos" (értelmes) szólista további felépítéséhez és rögzítéséhez, kereső pók sok más oldalt is meg kell "néznie".

Hogy kezdi valaki? pók(pók) az internetes utazásod? Általában a világ legnagyobb szerverei és nagyon népszerű weboldalai a kiindulópont. A pók egy ilyen oldalról indul útjára, indexeli az összes talált szót, és más oldalakra mutató hivatkozásokat követve folytatja a mozgását. Így a pókrobot elkezdi lefedni a hálótér összes nagy "darabját". A Google.com tudományos keresőmotorként indult. Sergey Brin és Laurence Page (a Google alapítói és tulajdonosai) egy cikkben, amely leírja a keresőmotor létrehozását, példát mutatott a Google pókok működésére. Több ilyen van, és általában a keresés 3 pók használatával kezdődik. Mindegyik pók akár 300 egyidejű nyitott kapcsolatot tart fenn a weboldalakkal. Csúcsterheléskor, 4 pókot használva, a Google rendszere másodpercenként 100 oldal feldolgozására képes, mintegy 600 kilobájt/mp forgalmat generálva.

Ahhoz, hogy a pókokat ellássa a feldolgozandó adatokkal, a Google-nak korábban volt egy szervere, amely nem csinált mást, mint "dobálta" a pókokat egyre több URL-lel. Annak érdekében, hogy az URL-t IP-címre fordító domain névszerverek (DNS) tekintetében ne függjenek az internetszolgáltatóktól, a Google megszerezte a saját DNS szerver, minimálisra csökkentve az oldalak indexelésére fordított összes időt.

Amikor a Google Robot meglátogatja HTML oldal 2 dolgot vesz figyelembe:

Szavak (szöveg) oldalanként;
- helyük (az oldal törzsének melyik részén).

A -val elhelyezkedő szavak szervizszakaszok, mint például cím, feliratok, metacímkékés társai különösen fontosként jelölték meg a felhasználói keresési lekérdezésekhez. A Google pók úgy készült, hogy indexeljen egy oldalon minden hasonló szót, kivéve az olyan közbeszólásokat, mint az „a”, „an” és „the.”. Más keresőmotorok kissé eltérő módon közelítik meg az indexelést.

A keresőmotorok minden megközelítése és algoritmusa végső soron arra irányul, hogy a pókrobotok gyorsabban és hatékonyabban működjenek. Egyes keresőrobotok például nyomon követik a címben, a linkekben található szavak és az oldal legfeljebb 100 leggyakrabban használt szava, sőt az oldal szöveges tartalmának első 20 sorában szereplő szavak indexelésekor is. Ez az indexelési algoritmus, különösen a Lycos esetében.

Más keresőmotorok, mint például az AltaVista, a másik irányba mennek, és minden egyes szót indexelnek az oldalon, beleértve az "a", "an", "a" és más nem fontos szavakat.

Meta Tags

A metacímkék segítségével a weboldal tulajdonosa kulcsszavakat és fogalmakat adhat meg, amelyek meghatározzák a weboldal tartalmának lényegét. Ez egy nagyon hasznos eszköz, különösen akkor, ha ezek a kulcsszavak akár 2-3 alkalommal is megismétlődhetnek az oldal szövegében. Ebben az esetben a metacímkék „irányíthatják” a keresőrobotot a megfelelő kulcsszavakra az oldal indexeléséhez. Lehetőség van a metacímkék „csalására” a népszerű keresési lekérdezéseken és fogalmakon túl, amelyeknek semmi közük az oldal tartalmához. A keresőrobotok ezt például úgy tudják kezelni, hogy a meta tagek és a weboldal tartalmának összefüggését elemezve „kidobják” azokat a meta tageket (illetve kulcsszavakat), amelyek nem egyeznek az oldalak tartalmával.

Mindez azokra az esetekre vonatkozik, amikor egy webes erőforrás tulajdonosa valóban szeretne szerepelni a kívánt keresési szavak keresési eredményei között. De gyakran előfordul, hogy a tulajdonos egyáltalán nem akarja, hogy a robot indexelje. De az ilyen esetek nem tartoznak cikkünk témájához.

Index épület

Miután a pókok befejezték az új weboldalak keresését, a keresőmotoroknak minden talált információt úgy kell elhelyezniük, hogy később könnyen használható legyen. 2 kulcsfontosságú összetevő van itt:

Adatokkal együtt tárolt információ;
- az információ indexelésének módja.

A legegyszerűbb esetben egy keresőmotor egyszerűen elhelyezhet egy szót és URL-cím hol található. Ez azonban nagyon primitív eszközzé tenné a keresőt, mivel nincs információ arról, hogy a dokumentum melyik részében található ez a szó (meta tag, vagy egyszerű szövegben), hogy ezt a szót egyszer vagy többször használják-e, és hogy egy másik fontos és kapcsolódó forrásra mutató hivatkozásban található. Más szóval, ez a módszer nem teszi lehetővé a webhelyek rangsorolását, nem biztosít releváns eredményeket a felhasználóknak stb.

Annak érdekében, hogy hasznos adatokat lássunk el, a keresőmotorok nem csupán információt tárolnak egy szóról és annak URL-címéről. A keresőmotor adatokat menthet az oldalon egy szó említésének számáról (gyakoriságáról), "súlyt" rendelhet a szóhoz, ami tovább segíti a keresési listák (eredmények) kiadását a szó súlyozása alapján, figyelembe véve annak helyét (hivatkozásokban, meta tagokban, oldalcímekben). és így tovább.). Minden kereskedelmi keresőmotornak megvan a maga képlete a kulcsszavak "súlyának" kiszámításához indexeléskor. Ez az egyik oka annak, hogy a keresőmotorok nagyon eltérő eredményeket adnak ugyanarra a keresési lekérdezésre.

Következő fontos pont a talált információ feldolgozása során - annak kódolása a hangerő csökkentése érdekében lemez terület hogy megmentse. Például az eredeti Google cikkben le van írva, hogy 2 bájtot (mindegyik 8 bit) használnak a szavak súlyadatainak tárolására – ez figyelembe veszi a szó típusát (nagy- vagy nagybetűk), a szó méretét. maguk a betűk (Font-Size), és egyéb információk, amelyek segítik a webhely rangsorolását. Minden ilyen információ "darab" 2-3 bitnyi adatot igényel egy teljes 2 bájtos készletben. Ennek eredményeként hatalmas mennyiségű információ tárolható nagyon kompakt formában. Az információ "tömörítése" után ideje elkezdeni az indexelést.

Az indexelés célja ugyanaz: a maximumot nyújtani gyors keresés a szükséges információkat. Számos módja van az indexek létrehozásának, de a leghatékonyabb az indexek létrehozása hash táblázatok(hash táblázat). A kivonatolás olyan képletet használ, amely minden szóhoz számértéket rendel.

Minden nyelven vannak olyan betűk, amelyek sokkal több szóval kezdődnek, mint az ábécé többi betűjével. Például az angol szótárban lényegesen több "M" betűvel kezdődő szó található, mint az "X" betűvel kezdődő. Ez azt jelenti, hogy a legnépszerűbb betűvel kezdődő szó keresése tovább tart, mint bármely más szó. kivonatolás A (kivonatolás) kiegyenlíti ezt a különbséget és csökkenti az átlagos keresési időt, valamint magát az indexet is elválasztja a valós adatoktól. A hash táblázat tartalmazza a hash értékeket, valamint egy mutatót az adott értéknek megfelelő adatokra. A hatékony indexelés + hatékony elhelyezés együtt nagy keresési sebességet biztosít, még akkor is, ha a felhasználó nagyon összetett keresési lekérdezést ad meg.

A keresőmotorok jövője

A logikai operátorokon ("és", "vagy", "nem") alapuló keresés szó szerinti keresés – a keresőmotor pontosan úgy kapja meg a keresett szavakat, ahogyan beírják. Ez problémát okozhat, ha például a beírt szónak több jelentése van. A „kulcs” például azt jelenti, hogy „ajtónyitást jelent”, vagy „jelszót” jelenthet a szerverre való belépéshez. Ha egy szónak csak egy jelentése érdekli, akkor nyilvánvalóan nincs szüksége adatra a második jelentésére vonatkozóan. Természetesen létrehozhat egy szó szerinti lekérdezést, amely lehetővé teszi, hogy kizárja a szó felesleges jelentésére vonatkozó adatok kimenetét, de jó lenne, ha a keresőmotor segítene.

A jövőbeli keresőmotor-algoritmusok egyik kutatási területe a fogalmi információkeresés. Ezek olyan algoritmusok, ahol az adott keresési kulcsszót vagy kifejezést tartalmazó oldalak statisztikai elemzését használják a releváns adatok megtalálásához. Nyilvánvaló, hogy egy ilyen "koncepcionális keresőmotornak" sokkal több tárhelyre lenne szüksége minden oldalhoz, és több időre lenne szüksége az egyes kérések feldolgozásához. Jelenleg sok kutató dolgozik ezen a problémán.

Nem kevésbé intenzív munka folyik a lekérdezéseken alapuló keresési algoritmusok fejlesztése terén. természetes nyelv(Természetes nyelvű lekérdezés).

A természetes lekérdezések mögött az az elképzelés áll, hogy úgy írhat le egy lekérdezést, mintha egy vele szemben ülő kollégát kérdezne. Nem kell aggódnia a logikai operátorok miatt, és nem kell átmennie az összetett lekérdezés felépítésének nehézségén. A legnépszerűbb természetes kereső nyelvű keresőoldal ma az AskJeeves.com. A lekérdezést kulcsszavakká alakítja, amelyeket aztán a webhelyek indexelésekor használ fel. Ez a megközelítés csak egyszerű lekérdezések esetén működik. A fejlődés azonban nem áll meg, elképzelhető, hogy nagyon hamarosan a saját, "emberi nyelvünkön" fogunk "beszélgetni" a keresőkkel.

A tematikus linkgyűjtemények olyan listák, amelyeket egy szakmai csoport vagy akár egyéni gyűjtők állítottak össze. Nagyon gyakran egy nagyon speciális témát jobban meg tud tárgyalni egy szakember, mint egy nagy katalógus alkalmazottainak csoportja. Olyan sok tematikus gyűjtemény található a weben, hogy nincs értelme konkrét címeket megadni.

Domain név kiválasztása

Katalógus - kényelmes rendszer keresés, azonban a Microsoft vagy az IBM szerverére való eljutáshoz aligha van értelme a címtárat elérni. Nem nehéz kitalálni a megfelelő webhely nevét: www.microsoft.com , www.ibm.com vagy www.microsoft.ru , www.ibm.ru - e cégek oroszországi képviseleteinek webhelyei.

Hasonlóképpen, ha a felhasználónak a világ időjárásával foglalkozó webhelyre van szüksége, logikus, hogy a www.weather.com szerveren keresse. A legtöbb esetben egy webhely keresése kulcsszóval a címben hatékonyabb, mint egy olyan dokumentum keresése, amelynek szövegében ez a szó szerepel. Ha egy nyugati kereskedelmi vállalat (vagy projekt) egyszótagú névvel rendelkezik, és saját szervert valósít meg a weben, akkor a neve nagy valószínűséggel illeszkedik a www.name.com formátumba, és a Runethez (a web orosz része) - www.name.ru, ahol név - a cég vagy projekt neve. A címtippelés sikeresen versenyezhet más keresési módszerekkel, mert egy ilyen keresővel olyan szerverrel tud kapcsolatot létesíteni, amely nincs regisztrálva egyetlen keresőmotornál sem. Ha azonban nem találja a keresett nevet, akkor a keresőhöz kell fordulnia.

kereső motorok

Mondja el, mit keres az interneten, és megmondom, ki vagy

Ha a számítógép egy rendkívül intelligens rendszer lenne, amely könnyen elmagyarázná, mit keres, akkor két vagy három dokumentumot adna ki – pontosan azokat, amelyekre szüksége van. De sajnos ez nem így van, és egy kérésre a felhasználó általában hosszú listát kap dokumentumokról, amelyek közül soknak semmi köze ahhoz, amit kérdezett. Az ilyen dokumentumokat irrelevánsnak nevezzük (az angol releváns - megfelelő, releváns). Így a releváns dokumentum az a dokumentum, amely a keresett információt tartalmazza. Nyilvánvaló, hogy a beérkezett releváns dokumentumok százalékos aránya a kérelem kompetens kiállításának képességétől függ. A kereső által talált dokumentumok listájában a releváns dokumentumok arányát keresési pontosságnak nevezzük. Az irreleváns dokumentumokat zajnak nevezzük. Ha minden talált dokumentum releváns (nincs zaj), akkor a keresési pontosság 100%. Ha minden releváns dokumentum megtalálható, akkor a keresés teljessége 100%.

Így a keresés minőségét két egymásra épülő paraméter határozza meg: a keresés pontossága és teljessége. A keresés teljességének növelése csökkenti a pontosságot, és fordítva.

Hogyan működik a kereső

Kereső motorokösszehasonlítható egy help desk-kel, amelynek ügynökei egy adatbázisban információkat gyűjtve járják körbe a vállalkozásokat (4.21. ábra). A szolgáltatással való kapcsolatfelvételkor ebből az adatbázisból adnak ki információkat. Az adatbázisban lévő adatok elavulnak, ezért az ügynökök rendszeresen frissítik azokat. Egyes vállalkozások maguk küldenek adatokat magukról, és az ügynököknek nem kell hozzájuk jönniük. Más szavakkal, ügyfélszolgálat két funkciója van: adatok létrehozása és folyamatos frissítése az adatbázisban, valamint információk keresése az adatbázisban az ügyfél kérésére.

Rizs. 4.21.

Hasonlóképpen, keresőmotor két részből áll: az úgynevezett robotból (vagy pókból), amely megkerüli a webszervereket és kereső adatbázist alkot.

A robot alapját főként saját maga alkotja (a robot maga talál linkeket az új erőforrásokhoz), és jóval kisebb mértékben - az erőforrások tulajdonosai, akik regisztrálják webhelyeiket a keresőben. Az adatbázist alkotó robot (hálózati ügynök, pók, féreg) mellett van egy program, amely meghatározza a talált hivatkozások minősítését.

A keresőmotor működési elve az, hogy belső könyvtárában (adatbázisában) lekérdezi azokat a kulcsszavakat, amelyeket a felhasználó a lekérdező mezőben ad meg, és elkészíti a hivatkozások listáját, relevancia szerint rangsorolva.

Megjegyzendő, hogy egy adott felhasználói kérés feldolgozásakor a kereső pontosan belső erőforrásokkal működik (és nem indul útnak a weben, ahogy azt a tapasztalatlan felhasználók gyakran hiszik), és a belső erőforrások természetesen korlátozottak. Bár a kereső adatbázisa folyamatosan frissül, keresőmotor nem tud indexelni minden webdokumentumot: túl nagy a számuk. Ezért mindig fennáll annak a lehetősége, hogy a keresett erőforrás egyszerűen ismeretlen egy adott keresőmotor számára.

Ezt az elképzelést jól szemlélteti a ábra. 4.22. Az 1. ellipszis korlátozza az adott időpontban létező összes webdokumentum készletét, a 2. ellipszis – az összes olyan dokumentum, amelyet ez a keresőmotor indexel, a 3. ellipszis pedig – a szükséges dokumentumokat. Így ezzel a keresőmotorral a szükséges dokumentumoknak csak azt a részét találhatja meg, amelyet indexel.

Rizs. 4.22.

A keresés elégtelen teljességének problémája nemcsak a keresőmotor belső erőforrásainak szűkössége, hanem az is, hogy a robot sebessége korlátozott, az új webes dokumentumok száma pedig folyamatosan növekszik. A keresőmotor belső erőforrásainak növelése nem tudja teljesen megoldani a problémát, mivel a robot erőforrások feltérképezési sebessége véges.

Ugyanakkor feltételezze azt keresőmotor az eredeti internetes források másolatát tartalmazza. A teljes információt (forrásdokumentumot) semmiképpen sem tároljuk mindig, gyakrabban csak egy részét tároljuk - az úgynevezett indexelt listát vagy indexet, amely sokkal tömörebb, mint a dokumentumok szövege, és lehetővé teszi a gyors reagálást keresési lekérdezések.

Az index felépítéséhez a forrásadatokat úgy alakítják át, hogy az adatbázis mennyisége minimális legyen, a keresés pedig nagyon gyors és a maximumot adja hasznos információ. Ha elmagyarázzuk, hogy mi az indexelt lista, akkor párhuzamot vonhatunk a papír megfelelőjével - az úgynevezett konkordanciával, i.e. szótár, amely ábécé sorrendben felsorolja az adott író által használt szavakat, valamint az ezekre való hivatkozásokat és használatuk gyakoriságát műveiben.

Nyilvánvalóan a konkordancia (szótár) sokkal tömörebb, mint a művek eredeti szövegei, és sokkal könnyebb megtalálni benne a megfelelő szót, mint a könyvet lapozgatni abban a reményben, hogy a megfelelő szóra bukkanunk.

Index épület

Az index felépítési sémája az ábrán látható. 4.23. A webügynökök vagy pókrobotok "feltérképezik" a weben, elemzik a weboldalak tartalmát, és információkat gyűjtenek arról, hogy melyik oldalon mit találtak.

Rizs. 4.23.

Amikor megtalálja a következő HTML-oldalt, a legtöbb keresőmotor rögzíti az azon található szavakat, képeket, hivatkozásokat és egyéb elemeket (a különböző keresőmotorokban eltérő módon). Sőt, ha egy oldalon nyomon követjük a szavakat, akkor nemcsak a jelenlétüket rögzítik, hanem a helyüket is, pl. ahol ezek a szavak találhatók: a címben (cím), a feliratokban (feliratokban), a meta tagokban 1 A metacímkék olyan szolgáltatáscímkék, amelyek lehetővé teszik a fejlesztők számára, hogy szolgáltatási információkat helyezzenek el a weboldalakon, többek között a keresőmotor tájékozódása érdekében.( meta tagek ) vagy máshol. Ebben az esetben a jelentőségteljes szavak általában rögzítettek, és figyelmen kívül hagyják az olyan kötő- és közbeszólásokat, mint az „a”, „de” és „vagy”. A metacímkék lehetővé teszik az oldaltulajdonosok számára, hogy meghatározzák azokat a kulcsszavakat és témákat, amelyekhez az oldal indexelve van. Ez akkor lehet releváns, ha a kulcsszavaknak több jelentése van. A metacímkék irányíthatják a keresőmotort, amikor egy szó több jelentése közül választ az egyetlen helyesre. A metacímkék azonban csak akkor működnek megbízhatóan, ha becsületes webhelytulajdonosok töltik ki. A gátlástalan webhely-tulajdonosok metatageikbe helyezik a weben a legnépszerűbb szavakat, amelyeknek semmi közük a webhely témájához. Ennek eredményeként a látogatók kéretlen oldalakra jutnak, és ezzel növelik a helyezésüket. Ez az oka annak, hogy sok modern keresőmotor figyelmen kívül hagyja a metacímkéket, vagy az oldalszöveg kiegészítésének tekinti őket. Minden robot vezeti a saját listáját a tisztességtelen reklámozásért megbüntetett erőforrásokról.

Nyilvánvalóan, ha webhelyeket keres a kulcsszó"kutya", akkor a keresőnek nem csak az összes oldalt kell megtalálnia, ahol a "kutya" szó szerepel, hanem azokat is, ahol ez a szó az oldal témájához kapcsolódik. Annak meghatározásához, hogy egy adott szó mennyire releváns egy bizonyos weboldal profiljához, fel kell mérni, hogy milyen gyakran fordul elő az oldalon, vannak-e linkek más oldalakra ehhez a szóhoz vagy sem. Röviden, fontossági sorrendbe kell rendezni az oldalon található szavakat. A szavak súlyozása attól függ, hogy hányszor és hol fordulnak elő (az oldal címében, az oldal elején vagy végén, linkben, metacímkében stb.). Minden keresőmotornak megvan a saját súlyozási algoritmusa – ez az egyik oka annak, hogy a keresőmotorok különböző forráslistákat adnak ugyanarra a kulcsszóra. Mivel az oldalak folyamatosan frissülnek, az indexelési folyamatnak folyamatosnak kell lennie. A Spiderbotok bejárják a hivatkozásokat, és létrehoznak egy indexet tartalmazó fájlt, amely meglehetősen nagy is lehet. A méret csökkentése érdekében az információ mennyiségének minimalizálásához és a fájl tömörítéséhez folyamodnak. Több robot segítségével egy keresőmotor másodpercenként több száz oldalt tud feldolgozni. Napjainkban a hatékony keresőmotorok több száz millió oldalt tárolnak, és naponta több tízmillió lekérdezést kapnak.

Az index felépítésénél az ismétlődések számának csökkentésének problémája is megoldódik - ez nem triviális feladat, tekintettel arra, hogy a helyes összehasonlításhoz először meg kell határoznia a dokumentum kódolását. Még nehezebb feladat a nagyon hasonló (majdnem duplikált) dokumentumok szétválasztása, például olyanok, amelyekben csak a cím különbözik, a szöveg pedig duplikált. Nagyon sok hasonló dokumentum található a weben – például valaki leírt egy absztraktot, és az aláírásával közzétette az oldalon. A modern keresőmotorok lehetővé teszik az ilyen problémák megoldását.

keresőrobot hívott speciális program minden olyan keresőmotor, amely az interneten talált oldalak és oldalaik adatbázisba való bevitelére (indexelésére) van kialakítva. A nevek is használatosak: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Működés elve

A keresőrobot egy böngésző típusú program. Folyamatosan pásztázza a hálózatot: indexelt (számára már ismert) oldalakat keres fel, követi az azokon található linkeket és új forrásokat talál. Ha új erőforrást talál, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a közzétételt követően perceken belül indexelhető. Ha más forrásokból nem vezet hivatkozás a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon keresztül kell hozzáadni (Google Webmesterközpont, Yandex Webmester Panel stb.).

A keresőrobotok típusai

Yandex pókok:

A Yandex/1.01.001 I a fő indexelő bot,
Yandex/1.01.001 (P) - indexeli a képeket,
Yandex/1.01.001 (H) - helytükröket talál,
Yandex/1.03.003 (D) - meghatározza, hogy a webmesterpanelről hozzáadott oldal megfelel-e az indexelési paramétereknek,
YaDirectBot/1.0 (I) - az erőforrásokat indexeli hirdetési hálózat Yandex,
Yandex/1.02.000 (F) – indexeli a webhely kedvenceit.

Google Spiders:

A Googlebot a fő robot,
Googlebot News – feltérképezi és indexeli a híreket,
Google Mobile – indexeli a mobileszközökhöz készült webhelyeket,
Googlebot Images – képeket keres és indexel,
Googlebot Video – indexeli a videókat,
Google AdsBot – ellenőrzi a céloldal minőségét,
Google Mobile AdSense és Google AdSense - indexeli a Google hirdetési hálózat webhelyeit.

Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.

Tematikus anyagok: