Windows.  Viruslar.  Noutbuklar.  Internet.  Idora.  Utilitalar.  Haydovchilar

Uning vazifasi Internetda taqdim etilgan saytlar sahifalarining mazmunini sinchkovlik bilan tahlil qilish va tahlil natijalarini qidiruv tizimiga yuborishdir.

Qidiruv roboti bir muncha vaqt yangi sahifalarni skanerlaydi, lekin keyinchalik ular indekslanadi va qidiruv tizimlaridan hech qanday sanktsiyalar bo'lmasa, qidiruv natijalarida ko'rsatilishi mumkin.

Ishlash printsipi

Qidiruv robotlarining harakati oddiy brauzerning ishi bilan bir xil printsipga asoslanadi. Muayyan saytga tashrif buyurganlarida, ular istisnosiz uning ba'zi sahifalarini yoki barcha sahifalarini chetlab o'tadilar. Ular sayt haqida olingan ma'lumotlarni qidirish indeksiga yuboradilar. Ushbu ma'lumot ichida paydo bo'ladi Qidiruv natijalari muayyan so'rovga mos keladi.

Qidiruv robotlari sahifalarning faqat bir qismiga tashrif buyurishi mumkinligi sababli, katta saytlarni indekslashda muammolar paydo bo'lishi mumkin. Xuddi shu aniq muammolar sifatsizligi sababli paydo bo'lishi mumkin.

Uning ishlashidagi uzilishlar ba'zi sahifalarni tahlil qilish uchun imkonsiz qiladi. To'g'ri tuzilgan va to'g'ri tuzilgan robots.txt fayli qidiruv robotlari tomonidan saytni baholashda muhim rol o'ynaydi.

Resurslarni skanerlash chuqurligi va qidiruv robotlari tomonidan saytlarni skanerlash chastotasi quyidagilarga bog'liq:

  • Qidiruv tizimlari uchun algoritmlar.
  • Veb-saytni yangilash chastotasi.
  • Sayt tuzilmalari.

Qidiruv indeksi

Qidiruv robotlari to'playdigan ma'lumotlar bazasi qidiruv indeksi deb ataladi. Ushbu ma'lumotlar bazasi qidiruv tizimlari tomonidan maxsus qidiruv natijalarini yaratish uchun ishlatiladi.

Indeksga nafaqat saytlar haqidagi ma'lumotlar kiritiladi: qidiruv robotlari turli xil elektron formatdagi (.docx, .pdf va boshqalar) rasmlar, multimedia fayllari va hujjatlarni taniy oladi.

Yandex tizimidagi eng faol qidiruv robotlaridan biri bu Bystrobot. U doimiy ravishda yangiliklar manbalarini va boshqa tez-tez yangilanadigan saytlarni skanerlaydi. Speedbot tomonidan sezilmaydigan , hech qanday ma'noga ega emas.

Siz uni maxsus vositalar yordamida jalb qilishingiz mumkin va ular turli maqsadlar uchun saytlar uchun samarali. Saytlarning mavjudligini tekshirish, ularning individual xususiyatlarini tahlil qilish va qidiruv tizimlarida rasmlar va hujjatlarni indekslash uchun alohida robotlar mavjud.

Salom do'stlar! Bugun siz Yandex va Google qidiruv robotlari qanday ishlashini va ular veb-saytni reklama qilishda qanday funktsiyani bajarishini bilib olasiz. Shunday ekan, ketaylik!

Qidiruv mexanizmlari ushbu harakatni foydalanuvchi so'roviga yuqori sifatli va tegishli javobga ega bo'lgan million saytlar ichidan o'nta WEB loyihasini topish uchun qiladi. Nega faqat o'nta? Chunki u faqat o'nta pozitsiyadan iborat.

Qidiruv robotlari ham veb-ustalar, ham foydalanuvchilar uchun do'stdir

Nima uchun qidiruv robotlari uchun saytga tashrif buyurish muhimligi allaqachon aniq bo'ldi, lekin nima uchun foydalanuvchiga bu kerak? To'g'ri, foydalanuvchi faqat uning so'roviga to'liq javob beradigan saytlarni ko'rishi uchun.

Qidiruv robot- juda moslashuvchan vosita, u saytni topishga qodir, hatto endigina yaratilgan va bu sayt egasi hali u ustida ishlamagan. Shuning uchun bu bot o'rgimchak deb ataldi, u oyoqlarini cho'zishi va virtual tarmoqning istalgan joyiga kirishi mumkin.

Qidiruv robotini sizning foydangizga boshqarish mumkinmi?

Ba'zi sahifalar qidiruvga kiritilmagan holatlar mavjud. Bu, asosan, ushbu sahifa hali qidiruv roboti tomonidan indekslanmaganligi bilan bog'liq. Albatta, ertami-kechmi qidiruv roboti ushbu sahifani sezadi. Ammo bu vaqt talab etadi, ba'zan esa juda ko'p vaqt. Ammo bu erda siz qidiruv robotiga ushbu sahifaga tezroq kirishga yordam berishingiz mumkin.

Buning uchun veb-saytingizni maxsus katalog yoki ro'yxatlarga, ijtimoiy tarmoqlarga joylashtirishingiz mumkin. Umuman olganda, qidiruv roboti oddiygina yashaydigan barcha saytlarda. Masalan, ijtimoiy tarmoqlar har soniyada yangilanadi. Saytingizni reklama qilishga harakat qiling va qidiruv roboti saytingizga tezroq kirib boradi.

Bundan bitta asosiy qoida kelib chiqadi. Agar siz qidiruv tizimi botlari saytingizga tashrif buyurishini istasangiz, ularni muntazam ravishda yangi kontent bilan ta'minlashingiz kerak. Agar ular kontent yangilanayotganini va sayt rivojlanayotganini sezsalar, ular sizning Internet loyihangizga tez-tez tashrif buyurishni boshlaydilar.

Har bir qidiruv roboti kontentingiz qanchalik tez-tez o'zgarib borayotganini eslay oladi. U nafaqat sifatni, balki vaqt oralig'ini ham baholaydi. Va agar saytdagi material oyda bir marta yangilansa, u har oyda bir marta saytga keladi.

Shunday qilib, agar sayt haftada bir marta yangilansa, qidiruv roboti haftada bir marta keladi. Agar siz saytni har kuni yangilasangiz, qidiruv roboti saytga har kuni yoki har kuni tashrif buyuradi. Yangilangandan keyin bir necha daqiqa ichida indekslanadigan saytlar mavjud. Bu ijtimoiy tarmoqlar, yangiliklar agregatorlari va kuniga bir nechta maqola joylashtiradigan saytlar.

Qanday qilib robotga topshiriq berish va unga biror narsa qilishni taqiqlash kerak?

Dastlab biz qidiruv tizimlarida turli vazifalarni bajaradigan bir nechta robotlar mavjudligini bilib oldik. Ba'zilar rasmlarni, ba'zilari havolalarni va hokazolarni qidirmoqda.

Har qanday robotni maxsus fayl yordamida boshqarishingiz mumkin robots.txt . Aynan shu fayldan robot sayt bilan tanishishni boshlaydi. Ushbu faylda siz robot saytni indekslashi mumkinligini va agar shunday bo'lsa, qaysi bo'limlarni belgilashingiz mumkin. Ushbu ko'rsatmalarning barchasi bitta yoki barcha robotlar uchun yaratilishi mumkin.

Veb-saytni targ'ib qilish bo'yicha trening

Hikmat haqida batafsil ma'lumot SEO targ'iboti qidiruv tizimlaridagi saytlar Google tizimlari va Yandex, men Skype-da o'zim gaplashaman. Men barcha WEB loyihalarimni ko'proq trafikga olib keldim va bundan ajoyib natijalarga erishdim. Agar qiziqsangiz, buni sizga ham o'rgataman!

Qidiruv tizimlari qanday ishlaydi? Internetning ajoyib jihatlaridan biri shundaki, u yerda yuzlab millionlab veb-resurslar kutmoqda va bizga taqdim etishga tayyor. Ammo yomon tomoni shundaki, bir xil millionlab sahifalar borki, ular bizga kerak bo'lsa ham, oldimizda ko'rinmaydi, chunki... shunchaki bizga noma'lum. Internetda nimani va qaerdan topishingiz mumkinligini qanday aniqlash mumkin? Buning uchun biz odatda qidiruv tizimlariga murojaat qilamiz.

Internet qidiruv tizimlari maxsus saytlardir global tarmoq, bu odamlarga World Wide Web orqali kerakli ma'lumotlarni topishga yordam berish uchun mo'ljallangan. Qidiruv tizimlarining o'z funktsiyalarini bajarish usullarida farqlar mavjud, ammo umuman olganda 3 ta asosiy va bir xil funktsiya mavjud:

Ularning barchasi berilgan kalit so'zlar asosida Internetda (yoki Internetning ba'zi sektorlarida) "qidiradi";
- barcha qidiruv tizimlari o'zlari qidirayotgan so'zlarni va ularni topadigan joylarni indekslaydi;
- barcha qidiruv tizimlari foydalanuvchilarga allaqachon indekslangan va ma'lumotlar bazalariga kiritilgan veb-sahifalar asosida so'zlarni yoki kalit so'z birikmalarini qidirishga imkon beradi.

Birinchi qidiruv tizimlari bir necha yuz ming sahifalarni indekslashdi va kuniga 1000-2000 so'rovlarni qabul qilishdi. Bugungi kunda eng yaxshi qidiruv tizimlari yuz millionlab sahifalarni indekslashdi va doimiy ravishda indeksatsiya qilishmoqda va kuniga o'n millionlab so'rovlarni qayta ishlashmoqda. Quyida biz qidiruv tizimlari qanday ishlashi va bizni qiziqtirgan har qanday savolga javob berish uchun topilgan barcha ma'lumotlarni qanday qilib "birlashtirgani" haqida gapiramiz.

Keling, Internetni ko'rib chiqaylik

Odamlar gapirganda Internet qidiruv tizimlari mashinalar, ular aslida qidiruv tizimlarini anglatadi Dunyo Keng tarmoq . Internet Internetning eng ko'zga ko'rinadigan qismiga aylanishidan oldin, odamlarga Internetda ma'lumot topishga yordam beradigan qidiruv tizimlari allaqachon mavjud edi. "Gopher" va "Archie" deb nomlangan dasturlar turli xil serverlarda joylashgan fayllarni indekslash imkoniyatiga ega edi. Internet Internet va qidiruvga sarflangan vaqtni sezilarli darajada qisqartirdi zarur dasturlar yoki hujjatlar. O'tgan asrning 80-yillari oxirida "Internetda ishlash qobiliyati" ning sinonimi gopher, Archie, Veronika va boshqalardan foydalanish qobiliyati edi. qidiruv dasturlari. Bugungi kunda ko'pchilik Internet foydalanuvchilari o'zlarining qidiruvlarini faqat cheklaydilar butun dunyo bo'ylab tarmoq, yoki WWW.

Kichik boshlanish

Kerakli hujjat yoki faylni qayerdan topish kerakligini aytishimizdan oldin fayl yoki hujjat allaqachon topilgan bo'lishi kerak. Yuz millionlab mavjud WEB sahifalar haqida ma'lumot topish uchun qidiruv tizimi maxsus robot dasturidan foydalanadi. Ushbu dastur o'rgimchak ("o'rgimchak") deb ham ataladi va sahifada topilgan so'zlar ro'yxatini tuzish uchun ishlatiladi. Bunday ro'yxatni tuzish jarayoni deyiladi veb skanerlash(Veb skanerlash). Keyinchalik "foydali" (ma'noli) so'zlar ro'yxatini yaratish va qo'lga kiritish uchun qidiruv o'rgimchak boshqa ko'plab sahifalarni "ko'rib chiqishi" kerak.

Biror kishi qanday boshlaydi? o'rgimchak(o'rgimchak) Internetdagi sayohatingiz? Odatda boshlang'ich nuqtasi dunyodagi eng katta serverlar va juda mashhur veb-sahifalardir. O'rgimchak o'z sayohatini shunday saytdan boshlaydi, barcha topilgan so'zlarni indekslaydi va boshqa saytlarga havolalar bo'yicha harakatini davom ettiradi. Shunday qilib, o'rgimchak robot veb-makonning tobora katta "bo'laklarini" qamrab olishni boshlaydi. Google.com akademik qidiruv tizimi sifatida boshlangan. Ushbu qidiruv tizimi qanday yaratilgani tasvirlangan maqolada Sergey Brin va Lourens Peyj (Google asoschilari va egalari) Google o'rgimchaklarining qanchalik tez ishlashiga misol keltirdilar. Ulardan bir nechtasi bor va odatda qidiruv 3 ta o'rgimchakdan foydalanish bilan boshlanadi. Har bir o'rgimchak veb-sahifalarga bir vaqtning o'zida 300 tagacha ochiq ulanishni qo'llab-quvvatlaydi. Eng yuqori yuklanishda, 4 ta o'rgimchakdan foydalangan holda, Google tizimi soniyasiga 100 sahifani qayta ishlashga qodir, taxminan 600 kilobayt/sek trafikni hosil qiladi.

O'rgimchaklarni qayta ishlashlari kerak bo'lgan ma'lumotlar bilan ta'minlash uchun Google o'rgimchaklarni tobora ko'proq URL manzillarini oziqlantirishdan boshqa hech narsa qilmagan serverga ega edi. URL-manzillarni IP-manzillarga tarjima qiladigan domen nomlari serverlari (DNS) bo'yicha Internet-provayderlarga bog'liq bo'lmaslik uchun Google o'zini sotib oldi. DNS server, sahifalarni indekslash uchun sarflangan barcha vaqtni minimal darajaga qisqartirish.

Google robot tashrif buyurganida HTML sahifasi, u 2 narsani hisobga oladi:

Har bir sahifada so'zlar (matn);
- ularning joylashuvi (sahifa tanasining qaysi qismida).

bilan joylashgan so'zlar xizmat ko'rsatish bo'limlari, kabi sarlavha, subtitrlar, meta teglar va boshqalar foydalanuvchi qidiruv so'rovlari uchun ayniqsa muhim deb belgilandi. Google Spider sahifadagi har bir oʻxshash soʻzni indekslash uchun yaratilgan, “a”, “an” va “the” kabi soʻz birikmalaridan tashqari. Boshqa qidiruv tizimlari indekslashda biroz boshqacha yondashuvga ega.

Qidiruv tizimining barcha yondashuvlari va algoritmlari oxir-oqibat o'rgimchak robotlarini tezroq va samaraliroq ishlashga qaratilgan. Misol uchun, ba'zi qidiruv robotlari indekslash paytida sarlavhadagi so'zlarni, havolalarni va sahifadagi eng ko'p ishlatiladigan 100 tagacha so'zlarni va hatto sahifadagi matn tarkibining dastlabki 20 qatoridagi so'zlarning har birini kuzatib boradi. Bu, xususan, Lycos-ning indekslash algoritmi.

AltaVista kabi boshqa qidiruv tizimlari har bir indeksni boshqa yo'nalishda olib boradi alohida so'z sahifalar, jumladan, "a", "an", "the" va boshqa ahamiyatsiz so'zlar.

Meta teglar

Meta teglar veb-sahifa egasiga uning mazmunining mohiyatini belgilaydigan kalit so'zlar va tushunchalarni belgilash imkonini beradi. Bu juda foydali vosita, ayniqsa ushbu kalit so'zlar sahifa matnida 2-3 martagacha takrorlanishi mumkin. Bunday holda, meta teglar qidiruv robotini sahifani indekslash uchun kerakli kalit so'zlarni tanlashga "yo'naltirishi" mumkin. Ommabop qidiruv so'rovlari va sahifaning mazmuniga hech qanday aloqasi bo'lmagan tushunchalar bilan meta teglarni "aldash" imkoniyati mavjud. Qidiruv robotlari bunga qarshi kurashishga qodir, masalan, meta teglar va veb-sahifa mazmuni o'zaro bog'liqligini tahlil qilish, sahifalar mazmuniga mos kelmaydigan meta teglarni (mos ravishda kalit so'zlar) ko'rib chiqishdan "tashqariga chiqarib tashlash".

Bularning barchasi veb-resurs egasi haqiqatan ham kerakli qidiruv so'zlari bo'yicha qidiruv natijalariga qo'shilishni xohlagan holatlarga tegishli. Ammo ko'pincha egasi robot tomonidan indeksatsiya qilishni xohlamaydi. Ammo bunday holatlar bizning maqolamizning mavzusi emas.

Indeks qurilishi

O'rgimchaklar yangi veb-sahifalarni topish ishlarini tugatgandan so'ng, qidiruv tizimlari barcha topilgan ma'lumotlarni kelajakda foydalanish uchun qulay bo'lishi uchun joylashtirishlari kerak. Bu erda 2 ta asosiy komponent muhim ahamiyatga ega:

Ma'lumotlar bilan saqlanadigan ma'lumotlar;
- bu ma'lumotni indekslash usuli.

Eng oddiy holatda, qidiruv tizimi shunchaki va so'zini joylashtirishi mumkin URL manzili, qaerda joylashgan. Ammo bu qidiruv tizimini mutlaqo ibtidoiy vositaga aylantiradi, chunki bu so'z hujjatning qaysi qismida (meta teglar yoki oddiy matnda), bu so'z bir marta yoki qayta-qayta qo'llanilganligi va u ishlatilganmi haqida hech qanday ma'lumot yo'q. boshqa muhim va tegishli manbaga havolada mavjud. Boshqacha qilib aytganda, bu usul saytlarni tartiblamaydi, foydalanuvchilarga tegishli natijalarni bermaydi va hokazo.

Bizni foydali ma'lumotlar bilan ta'minlash uchun qidiruv tizimlari nafaqat so'z va uning URL manzilidagi ma'lumotlarni saqlaydi. Поисковик может сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову "вес", что далее поможет выдавать поисковые листинги (результаты) на основе весового ранжирования по данному слову, с учетом его местонахождения (в ссылках, мета тегах, титуле страницы va h.k.). Har bir tijorat qidiruvi indekslash paytida kalit so'zlarning "og'irligi" ni hisoblash uchun o'z formulasiga ega. Bu xuddi shunday bo'lishining sabablaridan biridir qidiruv so'rovi qidiruv tizimlari butunlay boshqacha natijalar beradi.

Keyingisi muhim nuqta topilgan ma'lumotlarni qayta ishlashda - hajmni kamaytirish uchun uni kodlash disk maydoni uni saqlash uchun. Masalan, asl Google maqolasida so'zlarning og'irligi ma'lumotlarini saqlash uchun 2 bayt (har biri 8 bit) ishlatilishi tasvirlangan - bu so'zning turini (katta yoki bosh harflar), harflarning o'lchamlarini (shrift- hajmi) va boshqa ma'lumotlar. bu saytni tartiblashda yordam beradi. Har bir bunday ma'lumot "bo'lagi" to'liq 2 baytli to'plamda 2-3 bit ma'lumotni talab qiladi. Natijada, juda katta hajmdagi ma'lumotlar juda ixcham shaklda saqlanishi mumkin. Ma'lumot "siqilgan" bo'lsa, indekslashni boshlash vaqti keldi.

Indekslashning bitta maqsadi bor: maksimal ta'minlash tezkor qidiruv zarur ma'lumotlar. Indekslarni yaratishning bir necha usullari mavjud, ammo eng samaralisi qurishdir hash jadvallari(xesh jadvali). Hashing har bir so'zga raqamli qiymat berish uchun ma'lum bir formuladan foydalanadi.

Har qanday tilda bilan boshlanadigan harflar mavjud ko'proq so'zlar alifboning qolgan harflariga qaraganda. Misol uchun, ingliz tilidagi lug'at bo'limida "X" harfi bilan boshlangan so'zlarga qaraganda "M" harfi bilan boshlangan so'zlar sezilarli darajada ko'p. Bu shuni anglatadiki, eng mashhur harf bilan boshlangan so'zni qidirish boshqa so'zlarga qaraganda ko'proq vaqt talab etadi. Xeshlash(Hashing) bu farqni tenglashtiradi va o'rtacha qidirish vaqtini qisqartiradi, shuningdek, indeksning o'zini haqiqiy ma'lumotlardan ajratadi. Xesh jadvali ushbu qiymatga mos keladigan ma'lumotlarga ko'rsatgich bilan birga xesh qiymatlarini o'z ichiga oladi. Samarali indekslash + samarali joylashtirish birgalikda yuqori qidiruv tezligini ta'minlaydi, hatto foydalanuvchi juda murakkab qidiruv so'rovini so'rasa ham.

Qidiruv tizimlarining kelajagi

Mantiqiy operatorlar ("va", "yoki", "yo'q") asosidagi qidiruv so'zma-so'z qidiruvdir - qidiruv tizimi qidiruv so'zlarini aynan qanday kiritilgan bo'lsa, xuddi shunday qabul qiladi. Bu, masalan, kiritilgan so'z bir nechta ma'noga ega bo'lsa, muammoga olib kelishi mumkin. Masalan, "kalit" "eshikni ochish vositasi" yoki serverga kirish uchun "parol" degan ma'noni anglatishi mumkin. Agar siz so'zning faqat bitta ma'nosi bilan qiziqsangiz, uning ikkinchi ma'nosi haqida ma'lumot kerak bo'lmasligi aniq. Siz, albatta, so'zning keraksiz ma'nosiga asoslangan ma'lumotlarning chiqishini istisno qiladigan so'zma-so'z so'rovni yaratishingiz mumkin, ammo qidiruv tizimining o'zi sizga yordam bersa yaxshi bo'lardi.

Kelajakdagi qidiruv tizimining algoritmlarini tadqiq qilish sohalaridan biri bu kontseptual ma'lumotlarni qidirishdir. Bu tegishli ma'lumotlarni topish uchun ma'lum bir qidiruv kalit so'zi yoki iborani o'z ichiga olgan sahifalarning statistik tahlilidan foydalanadigan algoritmlardir. Bunday "kontseptual qidiruv tizimi" har bir sahifa uchun ko'proq saqlash joyini va har bir so'rovni qayta ishlash uchun ko'proq vaqtni talab qilishi aniq. Hozirgi vaqtda ko'plab tadqiqotchilar ushbu muammo ustida ishlamoqda.

So'rovlar asosida qidiruv algoritmlarini ishlab chiqish sohasida ham bundan kam intensiv ishlar olib borilmoqda. tabiiy til(Tabiiy tilda so'rov).

Tabiiy so'rovlar ortidagi g'oya shundan iboratki, siz so'rovingizni ro'parangizda o'tirgan hamkasbingizdan so'ragandek yozishingiz mumkin. Mantiqiy operatorlar haqida qayg'urish yoki murakkab so'rov yozish uchun kurashishning hojati yo'q. Bugungi kunda eng mashhur tabiiy tillarni qidirish sayti AskJeeves.com hisoblanadi. U so'rovni kalit so'zlarga aylantiradi, keyin u saytlarni indekslashda foydalanadi. Ushbu yondashuv faqat oddiy so'rovlar uchun ishlaydi. Biroq, taraqqiyot hali ham to'xtamaydi, ehtimol biz tez orada "suhbatlashamiz" qidiruv tizimlari o'zimizning "inson tilimizda".

Tematik havolalar to'plamlari - bu bir guruh mutaxassislar yoki hatto individual kollektorlar tomonidan tuzilgan ro'yxatlar. Ko'pincha yuqori ixtisoslashgan mavzuni katta katalogdagi bir guruh xodimlarga qaraganda bitta mutaxassis yaxshiroq yoritishi mumkin. Internetda juda ko'p tematik to'plamlar mavjud bo'lib, aniq manzillarni berish mantiqiy emas.

Domen nomini tanlash

Katalog - qulay tizim qidiruv, ammo Microsoft yoki IBM serveriga kirish uchun katalogga kirish mantiqiy emas. Tegishli sayt nomini taxmin qilish qiyin emas: www.microsoft.com, www.ibm.com yoki www.microsoft.ru, www.ibm.ru - bu kompaniyalarning Rossiya vakolatxonalari saytlari.

Xuddi shunday, agar foydalanuvchiga dunyodagi ob-havoga bag'ishlangan veb-sayt kerak bo'lsa, uni www.weather.com serveridan izlash mantiqan to'g'ri. Ko'pgina hollarda, sarlavhada kalit so'z bilan saytni qidirish matnda ushbu so'zni ishlatadigan hujjatni qidirishdan ko'ra samaraliroq bo'ladi. Agar G'arb tijorat kompaniyasi (yoki loyihasi) bir bo'g'inli nomga ega bo'lsa va o'z serverini Internetda amalga oshirsa, unda uning nomi www.name.com formatiga mos keladi va Runet uchun (Internetning rus qismi) - www.name.ru, bu erda nomi - kompaniya yoki loyihaning nomi. Manzil tanlash boshqa qidiruv usullari bilan muvaffaqiyatli raqobatlasha oladi, chunki bunday qidiruv tizimi bilan siz hech qanday qidiruv tizimida ro'yxatdan o'tmagan serverga ulanishni o'rnatishingiz mumkin. Ammo, agar siz qidirayotgan ismni topa olmasangiz, qidiruv tizimiga murojaat qilishingiz kerak bo'ladi.

Qidiruv tizimlari

Internetda nima qidirayotganingizni ayting, men sizga kimligingizni aytaman

Agar kompyuter siz qidirayotgan narsani osongina tushuntirib bera oladigan juda aqlli tizim bo'lsa, u ikki yoki uchta hujjatni - aynan sizga kerak bo'lgan hujjatlarni ishlab chiqaradi. Ammo, afsuski, bunday emas va so'rovga javoban foydalanuvchi odatda hujjatlarning uzoq ro'yxatini oladi, ularning ko'pchiligi u so'ragan narsaga hech qanday aloqasi yo'q. Bunday hujjatlar ahamiyatsiz deb ataladi (ingliz tilidan tegishli - mos, tegishli). Shunday qilib, tegishli hujjat so'ralayotgan ma'lumotni o'z ichiga olgan hujjatdir. Shubhasiz, olingan tegishli hujjatlarning foizi so'rovni to'g'ri berish qobiliyatiga bog'liq. Qidiruv tizimi tomonidan topilgan barcha hujjatlar ro'yxatidagi tegishli hujjatlarning nisbati qidiruvning aniqligi deb ataladi. Tegishsiz hujjatlar shovqin deb ataladi. Agar barcha topilgan hujjatlar tegishli bo'lsa (shovqin bo'lmasa), qidiruvning aniqligi 100% ni tashkil qiladi. Agar barcha tegishli hujjatlar topilsa, qidiruvning to'liqligi 100% ni tashkil qiladi.

Shunday qilib, qidiruv sifati ikkita o'zaro bog'liq parametr bilan belgilanadi: qidiruvning aniqligi va to'liqligi. Qidiruvning to'liqligini oshirish aniqlikni pasaytiradi va aksincha.

Qidiruv tizimi qanday ishlaydi?

Qidiruv tizimlari agentlari ma'lumotlar bazasiga ma'lumot to'playdigan korxonalarni aylanib chiqadigan yordam stoliga qiyoslash mumkin (4.21-rasm). Xizmatga murojaat qilganingizda, ma'lumotlar ushbu ma'lumotlar bazasidan olinadi. Ma'lumotlar bazasidagi ma'lumotlar eskiradi, shuning uchun agentlar ularni vaqti-vaqti bilan yangilaydi. Ba'zi korxonalar o'zlari haqida ma'lumot yuboradilar va agentlar ularga kelishi shart emas. Boshqa so'zlar bilan aytganda, ma'lumot markazi ikkita funktsiyaga ega: ma'lumotlar bazasida ma'lumotlarni yaratish va doimiy ravishda yangilash va mijozning iltimosiga binoan ma'lumotlar bazasida ma'lumotlarni qidirish.


Guruch. 4.21.

Xuddi shunday, qidiruv tizimi ikki qismdan iborat: veb-serverlarni chetlab o'tib, qidiruv tizimining ma'lumotlar bazasini tashkil etuvchi robot (yoki o'rgimchak).

Robotning bazasi asosan o'zi tomonidan (robotning o'zi yangi resurslarga havolalar topadi) va kamroq darajada o'z saytlarini qidiruv tizimida ro'yxatdan o'tkazadigan resurs egalari tomonidan shakllantiriladi. Ma'lumotlar bazasini tashkil etuvchi robot (tarmoq agenti, o'rgimchak, qurt) bilan bir qatorda, topilgan havolalar reytingini aniqlaydigan dastur mavjud.

Qidiruv tizimining ishlash printsipi shundan iboratki, u o'zining ichki katalogidan (ma'lumotlar bazasi) foydalanuvchi so'rovlar maydonida ko'rsatgan kalit so'zlar uchun so'rov o'tkazadi va tegishliligi bo'yicha tartiblangan havolalar ro'yxatini yaratadi.

Shuni ta'kidlash kerakki, foydalanuvchining ma'lum bir so'rovini qayta ishlashda qidiruv tizimi aniq ichki resurslarda ishlaydi (va tajribasiz foydalanuvchilar ko'pincha ishonganidek, Internet bo'ylab sayohatga chiqmaydi) va ichki resurslar, tabiiyki, cheklangan. Qidiruv tizimining ma'lumotlar bazasi doimiy ravishda yangilanib tursa-da, qidiruv tizimi barcha veb-hujjatlarni indekslay olmaydi: ularning soni juda katta. Shuning uchun, siz izlayotgan manba ma'lum bir qidiruv tizimiga noma'lum bo'lishi ehtimoli har doim mavjud.

Ushbu fikr rasmda aniq tasvirlangan. 4.22. Ellips 1 ma'lum bir vaqtda mavjud bo'lgan barcha veb-hujjatlar to'plamini cheklaydi, 2-ellips ma'lum bir qidiruv tizimi tomonidan indekslangan barcha hujjatlarni cheklaydi va 3-ellips qidirilayotgan hujjatlarni cheklaydi. Shunday qilib, ushbu qidiruv tizimidan foydalanib, kerakli hujjatlarning faqat u tomonidan indekslangan qismini topishingiz mumkin.


Guruch. 4.22.

Qidiruvning yetarli darajada to‘liq emasligi muammosi nafaqat qidiruv tizimining cheklangan ichki resurslarida, balki robotning tezligi cheklanganligida va yangi veb-hujjatlarning soni doimiy ravishda o‘sib borayotganidadir. Qidiruv tizimining ichki resurslarini ko'paytirish muammoni to'liq hal qila olmaydi, chunki robot resurslarni skanerlash tezligi cheklangan.

Shu bilan birga, buni taxmin qiling qidiruv tizimi asl Internet manbalarining nusxasini o'z ichiga oladi, bu noto'g'ri bo'lar edi. To'liq ma'lumot (manba hujjatlari) har doim ham saqlanmaydi, ko'pincha uning faqat bir qismi saqlanadi - indekslangan ro'yxat yoki indeks deb ataladi, bu hujjatlar matniga qaraganda ancha ixcham va qidiruv so'rovlariga tezda javob berishga imkon beradi. .

Indeksni yaratish uchun manba ma'lumotlar bazasi hajmi minimal bo'lishi uchun o'zgartiriladi va qidiruv juda tez amalga oshiriladi va maksimal natija beradi. foydali ma'lumotlar. Indekslangan ro'yxat nima ekanligini tushuntirib, biz uning qog'oz hamkasbi bilan parallel ravishda chizishimiz mumkin - konkordans deb ataladigan narsa, ya'ni. maʼlum bir yozuvchi tomonidan qoʻllangan soʻzlarni alifbo tartibida, shuningdek, ularga havolalar va uning asarlarida qoʻllanish chastotasini koʻrsatuvchi lugʻat.

Shubhasiz, konkordans (lug'at) asarlarning manba matnlariga qaraganda ancha ixchamroq va undagi kerakli so'zni topish, to'g'ri so'zga qoqilish umidida kitobni varaqlashdan ko'ra osonroqdir.

Indeks qurilishi

Indeksni qurish sxemasi rasmda ko'rsatilgan. 4.23. Tarmoq agentlari yoki o'rgimchak robotlari Internetni "skanerlaydi", veb-sahifalar tarkibini tahlil qiladi va nima va qaysi sahifada topilganligi haqida ma'lumot to'playdi.


Guruch. 4.23.

Boshqa HTML sahifani topganingizda, ko'pchilik qidiruv tizimlari undagi so'zlar, rasmlar, havolalar va boshqa elementlarni (turli xil qidiruv tizimlarida turli yo'llar bilan) yozib oladi. Bundan tashqari, sahifadagi so'zlarni kuzatishda nafaqat ularning mavjudligi, balki joylashuvi ham qayd etiladi, ya'ni. bu so'zlar qaerda joylashgan: sarlavhada, subtitrlarda, meta teglarda 1 Meta teglar - ishlab chiquvchilarga xizmat ma'lumotlarini veb-sahifalarda joylashtirish imkonini beruvchi xizmat teglari, shu jumladan qidiruv tizimini yo'naltirish uchun.(meta teglar) yoki boshqa joylarda. Bunday holda, odatda, muhim so'zlar qayd etiladi va "a", "lekin" va "yoki" kabi qo'shma va qo'shimchalar e'tiborga olinmaydi. Meta teglar sahifa egalariga sahifa indekslangan kalit so'zlar va mavzularni aniqlash imkonini beradi. Kalit so'zlar bir nechta ma'noga ega bo'lsa, bu tegishli bo'lishi mumkin. Meta teglar so'zning bir nechta ma'nolaridan yagona to'g'risini tanlashda qidiruv tizimini boshqarishi mumkin. Biroq, meta teglar faqat halol sayt egalari tomonidan to'ldirilganda ishonchli ishlaydi. Vijdonsiz veb-sayt egalari vebdagi eng mashhur so'zlarni o'zlarining meta teglariga joylashtiradilar, bu sayt mavzusiga hech qanday aloqasi yo'q. Natijada, tashrif buyuruvchilar nomaqbul saytlarga tushib qolishadi va shu bilan ularning reytingini oshiradilar. Shuning uchun ko'pgina zamonaviy qidiruv tizimlari meta teglarni e'tiborsiz qoldiradilar yoki ularni sahifa matniga qo'shimcha deb hisoblashadi. Har bir robot yolg'on reklama uchun jazolanadigan resurslarning o'z ro'yxatini saqlaydi.

Shubhasiz, agar siz saytlarni qidirsangiz kalit so'z"it", keyin qidiruv tizimi nafaqat "it" so'zi eslatib o'tilgan barcha sahifalarni, balki ushbu so'z sayt mavzusiga tegishli bo'lgan sahifalarni topishi kerak. Muayyan so'zning ma'lum bir Web-sahifa profili bilan qanchalik bog'liqligini aniqlash uchun uning sahifada qanchalik tez-tez paydo bo'lishini, ushbu so'z uchun boshqa sahifalarga havolalar bor yoki yo'qligini baholash kerak. Muxtasar qilib aytganda, sahifada topilgan so'zlarni ahamiyati bo'yicha tartiblashingiz kerak. So'zlarga og'irliklar necha marta va qayerda paydo bo'lishiga qarab belgilanadi (sahifa sarlavhasida, sahifaning boshida yoki oxirida, havolada, meta tegda va hokazo). Har bir qidiruv tizimida o'ziga xos tortishish algoritmi mavjud - bu qidiruv tizimlari bir xil kalit so'z uchun turli xil manbalar ro'yxatini qaytarishining sabablaridan biridir. Sahifalar doimiy ravishda yangilanib turadiganligi sababli, indekslash jarayoni davom etishi kerak. O'rgimchak botlari havolalarni kuzatib boradi va juda katta bo'lishi mumkin bo'lgan indeksni o'z ichiga olgan fayl yaratadi. Uning hajmini kamaytirish uchun ular ma'lumot miqdorini minimallashtirish va faylni siqish uchun murojaat qilishadi. Bir nechta robotlar bilan qidiruv tizimi soniyada yuzlab sahifalarni qayta ishlashi mumkin. Bugungi kunda kuchli qidiruv tizimlari yuz millionlab sahifalarni saqlaydi va har kuni o'n millionlab so'rovlarni qabul qiladi.

Indeksni yaratishda dublikatlar sonini kamaytirish muammosi ham hal qilinadi - ahamiyatsiz bo'lmagan vazifa, chunki to'g'ri taqqoslash uchun avval hujjat kodlashni aniqlash kerak. Bundan ham qiyinroq vazifa juda o'xshash hujjatlarni ("yaqin dublikatlar" deb ataladi) ajratishdir, masalan, faqat sarlavhasi boshqacha bo'lgan va matn takrorlanadi. Internetda shunga o'xshash ko'plab hujjatlar mavjud - masalan, kimdir referatni ko'chirib olib, uni o'z imzosi bilan veb-saytda e'lon qildi. Zamonaviy qidiruv tizimlari bizga bunday muammolarni hal qilish imkonini beradi.

Qidiruv robot chaqirdi maxsus dastur ma'lumotlar bazasiga (indeks) kirish uchun mo'ljallangan har qanday qidiruv tizimi saytlar va ularning Internetda topilgan sahifalari. Ismlar ham ishlatiladi: crawler, spider, bot, automaticindexer, chumoli, webcrawler, bot, webscutter, webrobots, webspider.

Ish printsipi

Qidiruv roboti brauzer tipidagi dasturdir. U doimiy ravishda tarmoqni skanerlaydi: indekslangan (allaqachon ma'lum) saytlarga tashrif buyuradi, ulardagi havolalarni kuzatib boradi va yangi resurslarni topadi. Yangi resurs topilganda, protsedura roboti uni qidiruv tizimi indeksiga qo'shadi. Qidiruv roboti, shuningdek, chastotasi belgilangan saytlardagi yangilanishlarni indekslaydi. Misol uchun, haftada bir marta yangilanadigan saytga bunday chastota bilan o'rgimchak tashrif buyuradi va yangiliklar saytlaridagi kontent nashr etilganidan keyin bir necha daqiqada indekslanishi mumkin. Agar boshqa manbalardan hech qanday havolalar saytga olib kelmasa, qidiruv robotlarini jalb qilish uchun resurs maxsus shakl (Google Webmaster Center, Yandex Webmaster Panel va boshqalar) orqali qo'shilishi kerak.

Qidiruv robotlarining turlari

Yandex o'rgimchaklari:

  • Yandex/1.01.001 I - indekslashda ishtirok etadigan asosiy bot,
  • Yandex/1.01.001 (P) - rasmlarni indekslaydi,
  • Yandex/1.01.001 (H) - oyna saytlarini topadi,
  • Yandex/1.03.003 (D) - veb-master panelidan qo'shilgan sahifa indekslash parametrlariga mos kelishini aniqlaydi,
  • YaDirectBot/1.0 (I) - manbalarni indekslaydi reklama tarmog'i Yandex,
  • Yandex/1.02.000 (F) - sayt favikonlarini indekslaydi.

Google Spiders:

  • Googlebot - bu asosiy robot
  • Googlebot News - yangiliklarni skanerlaydi va indekslaydi,
  • Google Mobile - mobil qurilmalar uchun saytlarni indekslaydi,
  • Googlebot Images - rasmlarni qidiradi va indekslaydi,
  • Googlebot Video - videolarni indekslaydi,
  • Google AdsBot - ochilish sahifasining sifatini tekshiradi,
  • Google Mobile AdSense va Google AdSense - Google reklama tarmog'ining saytlarini indekslaydi.

Boshqa qidiruv tizimlari, shuningdek, ro'yxatga olinganlarga funktsional jihatdan o'xshash bir necha turdagi robotlardan foydalanadi.

Agar xatolikni sezsangiz, matn qismini tanlang va Ctrl+Enter tugmalarini bosing
ULOSING: