Automatyczne wykrywanie silnika forum. Lekcja trzecia. Sami zbieramy najlepsze bazy danych. Ważniejszy temat indeksu php obsługiwany przez smf
Organizowane przez Botmaster Labs, nieplanowane. Nie mam czasu, filmik jest potrzebny na konkurs, jako nowy trend, chociaż wszystko da się łatwiej wytłumaczyć dobrymi screenami (moje IMHO), a nie bardzo chce mi się cokolwiek kręcić. Tych dochodowych zostało już bardzo mało, głupi spam już w ogóle nie rządzi, trzeba tu pomyśleć i nikt nie będzie zakładał tematów, chyba że przestarzałe spróbujesz zapakować w piękne opakowanie i trochę je pudrować. :) Ale tu nie chodzi o nas. Ogólnie rzecz biorąc, te 3 „nie”, myślę, że w zasadzie stały się barierami w udziale w konkursie dla większości potencjalnych uczestników. To jak naprawiać samochód z trzech: tanio, wysokiej jakości, szybko – usługa może spełnić tylko 2 warunki jednocześnie. usiądź i wybierz to, co jest Ci bliżej. :) Podobnie jest z konkursem: mam czas, umiem nakręcić film, ale nie ma tematu, albo umiem nakręcić film, jest temat, ale nie mam czasu na wszystko, albo mam trochę wolnego czasu i jest mały temat, ale film jest straszny. Ale jest to dobre, jeśli spełnione są jednocześnie 2 warunki. No dobrze, odrzućmy teksty. Będę dalej dla siebie. Nie planowałem, czyli wziąłem udział w konkursie, nawet wybrałem, na który artykuł oddam głos. Cokolwiek powiesz, Doz zna oprogramowanie bardzo dobrze i wie, jak z niego korzystać bardzo inteligentnie. Ale dzisiaj dowiedziałam się, że w konkursie pojawiła się intryga. Okazuje się, że nie będę mógł głosować, a będą mogli to zrobić tylko nowicjusze, którzy zakupili oprogramowanie w 2011 roku i dla nich konkurs jest przeznaczony. Trochę się zdziwiłem, ale właściciel to gentleman. Konkurs jest kampanią reklamową i Alexander wie lepiej, jak ją przeprowadzić. Ogólnie rzecz biorąc, postanowiłem opublikować artykuł; nieco łatwiej jest pisać, gdy jest jasne, dla kogo, w rzeczywistości dla całego kołchozu, nie jest to możliwe. Długie wprowadzenie już za nami, teraz do rzeczy. Czego potrzebuje początkujący, gdy nabył taki superkombajn, jakim jest kompleks Xrumer + Hrefer? Zgadza się, naucz się nad tym pracować i pozbądź się złudzeń, że możesz zarabiać pieniądze, zaczynając od spamowania arkuszy. Jeśli tak uważasz, lepiej od razu przekaż swoje pieniądze na cele charytatywne. Musisz nauczyć się korzystać z narzędzi kompleksu, najlepiej ostrząc je dla siebie. Czasy „bierz więcej – rzuć dalej” minęły. Ilość ustępuje jakości. Oznacza to, że sami zbudujemy bazę; jeśli nie nauczysz się, jak to zrobić, zostaniesz w tyle za pociągiem. Oczywiście Khrefer nam w tym pomoże. Jeśli planujesz promować swoje zasoby w Google, musimy również wyszukać witryny darczyńców za pośrednictwem Google. Myślę, że jest to zrozumiałe i logiczne. Ale Google, niczym władczyni miedzianej góry, nie każdemu rozdaje swoje bogactwo. Trzeba do tego podejść. Od razu mówię, że nie mam nadziei, że na podstawie znaków, które spotkacie w miejscach publicznych, uda się coś zebrać. Są one dostępne publicznie, ponieważ są bezwartościowe. Nie będę dalej rozwijał tematu. Lepiej powiedzieć, jak poprawnie go złożyć, abyś mógł zobaczyć wynik, resztę możesz sam wypracować, najważniejsze jest zrozumienie zasady. Musimy zebrać te właściwe w oparciu o charakterystykę konkretnych silników, których potrzebujemy, a nie ogólnie o charakterystykę forów. To główny błąd początkujących – nie koncentrowanie się na konkretnej rzeczy, ale próba ogarnięcia wszystkiego całościowo. A także, jeśli chcesz analizować mniej więcej normalną bazę danych, przestań używać operatorów w zapytaniach. Żadnych „inurl:”, „site:”, „title” itp. Google natychmiast zablokuje wyszukiwarki takie jak Ty. Dlatego dokładnie badamy silniki, z którymi obecnie współpracuje Khrumer:
Obsługiwane przez php-Fusion
W wersji Khroomer 7.07 program jest szkolony na kilku nowych silnikach:
forumi.biz, forumb.biz, 1forum.biz, 7forum.biz itp.
phpBB-fr.com, motyw phpBB dla Solarisa
A proces uczenia się nowych rzeczy jest ciągły. Ogólnie rzecz biorąc, musimy przygotować poprawne zapytania do analizy przez Hrefer. Weźmy jako przykład forum dizhok. Forum SMF. I zacznijmy go rozkładać na części zamienne do analizy. Pomoże nam w tym nasz ukochany Google. Wpisz zapytanie do Google Forum SMF- w wynikach wyszukiwania jest dużo śmieci, cofamy się do jakiejś 13 strony i wybieramy dowolny link. Natknąłem się na ten: http://www.volcanohost.com/forum/index.php?topic=11.0. Otwórzmy to i przestudiujmy. Musimy znaleźć na stronie coś charakterystycznego, co można zastosować do wyszukiwania innych stron w tym silniku. W stopce zauważamy następujący napis Obsługiwane przez SMF 1.1.14, zacytuj go i wpisz w Google, pokazuje nam, że dla tego zapytania zna około 59 milionów opcji. Szybko przeglądamy linki, dodajemy jeszcze kilka opcji do tego słowa kluczowego, np. Topola „Powered by SMF 1.1.14”. Lub Viagra „Powered by SMF 1.1.14”.. Dbamy o to, aby prośba była świetna, wyniki to tylko fora i prawie żadnych śmieci.
Poza tym nie interesuje nas ilość, ale jakość, jak powiedziałem powyżej. Przejdźmy dalej. Z tego samego forum czerpiemy ze stopki jeszcze jedno zdanie: , my również go cytujemy i przekazujemy do Google. W odpowiedzi wyjawia, że zna ponad 13 milionów wyników. Ponownie szybko przeglądamy wyniki, dodajemy dodatkowe słowa i sprawdzamy z nimi wyniki. Dbamy o to, aby prośba była doskonała i prawie nie było śmieci. Ogólnie rzecz biorąc, są już 2 prośby o żelazo. Sugeruję na razie zostawić pierwsze forum w spokoju i kontynuować zbieranie próśb z innych forów. Na szczęście mamy Google otwarte na żądanie. 2006-2008, Simple Machines LLC. Z wyników wyszukiwania bierzemy na przykład te fora: http://www.snowlinks.ru/forum/index.php?topic=1062.0 i http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 w stopce pobieramy od nich zapytania: „Powered by SMF 1.1.7” i „Powered by SMF 1.1.10” (zawsze polecam wpisywać zapytania o Hrefer w cudzysłowie, gdyż przede wszystkim zależy nam na jakości Wszystko). Myślę, że jest jasne co robimy, docelowo będziemy mieli pewną bazę zapytań do przeszukiwania forów na silniku SMF (wybrano ją jako przykład, tak samo z innymi silnikami). Będzie to wyglądać mniej więcej tak:
„Napędzany przez SMF 1.1.2”
„Napędzany przez SMF 1.1.3”
„Zasilany przez SMF 1.1 RC2”
„Napędzany przez SMF 1.1.4”
„Napędzany przez SMF 1.1.8”
„Zasilany przez SMF 1.1.7”
„2006-2008, Simple Machines LLC”
I to nie wszystko. Zbierając wersje silników, na niektórych forach SMF w stopce znajdujemy podpis „2001-2006, Lewis Media”. Sprawdzamy tę prośbę, ona również w pełni nas satysfakcjonuje. Znajdujemy podobny wniosek: „2001-2005, Lewis Media”. Przeglądając dalej stopki, znajdujemy następującą prośbę: „Projekt SMFone autorstwa A.M.A, przeniesiony do SMF 1.1”. Sprawdzamy – świetnie. I tak dalej. Pół godziny pracy i masz cudowną bazę zapytań do silnika, a Google będzie Cię banował za te zapytania znacznie rzadziej, niż gdybyś używał w nich operatorów. A jednocześnie Twoja baza danych będzie znacznie czystsza, niż gdybyś używał zapytań typu „index.php?topic=”, ponieważ tutaj Google udostępni nie tylko potrzebne nam fora, ale także wiele lewicowych zasobów tam, gdzie było to możliwe zostaw link do tematu na forum. Możesz się sprzeciwić. Co w tym złego? Inni zostawili link, więc my też możemy. Ale! Linki mogą pozostawiać nie tylko Khrumer, ale także inne programy. Co więcej, można je specjalnie dostosować do pozostawiania komentarzy na temat danego zasobu, tzw. oprogramowania wysoce specjalistycznego, a ponadto takie linki można pozostawiać ręcznie. Powtarzam jeszcze raz, nie ilość śmieci jest dla nas ważna, ale ich jakość, z właściwymi zgłoszeniami będziemy gromadzić bazę danych. Zaletą tej metody jest to, że praktycznie nie trzeba jej konfigurować sito -filtr
, możesz po prostu to wyłączyć, bo Google praktycznie nie będzie Ci wyrzucał śmieci.
Myślę, że nauczenie się prawidłowego używania Hrumera na początkowym etapie jest bardzo ważne, ponieważ gdy się tego nauczysz, zawsze możesz znaleźć zastosowanie dla Hrumera, niezależnie od tego, jak zmieni się sytuacja. Zabezpieczenia stają się coraz bardziej skomplikowane i jeśli na niektórych typach silników zabezpieczenie zostało wzmocnione i Khroomer w tej chwili nie jest w stanie sobie z tym poradzić, to nie ma sensu wydawać zasobów na zbieranie tych linków, a następnie pracować nad nimi za pomocą Khroomera, to lepiej skoncentrować siły na tym, co daje rezultaty. Jednocześnie, jeśli zespół Botmaster Labs nauczył Khroomera czegoś nowego, możesz szybko przeprowadzić sekcję nowego pacjenta i przygotować bazę dla Khroomera, gdy pacjent jest jeszcze ciepły. Czas to pieniądz; zasób może nie mieć już znaczenia, gdy kupisz bazę. zebrane przez kogoś. Ponadto prawidłowe zebranie baz dla siebie znacznie rozszerza „białe” użycie Khrumera. I właśnie w tym miejscu wszystko się porusza, czy nam się to podoba, czy nie, i trwa proces wybielania lub siwienia. Czarne prześcieradła pod każdym względem stają się przeszłością. Wszystkie inne techniczne aspekty pracy z Hreferem można zobaczyć w pomocy i nie ma sensu się nad nimi rozwodzić, wszystkie cele, punkty, sekundy są ustalane eksperymentalnie dla każdego samochodu indywidualnie. Jako bonus wrzucę tutaj szablon do parsowania chińskiej wyszukiwarki Baidu, któregoś dnia mnie o to pytali, więc zrobiłem to od niechcenia, przepraszam za grę słów. :)
Próbowałem je przetestować, nie było bana, Khrefer szybko zebrał zasoby, wszystkie zapytania o parsowanie były podobne do Google, ale było dużo chińskich zasobów, z wysokim PR, a poza tym było wiele miejsc, gdzie nie było Europejczyk kiedykolwiek postawił stopę. Lepiej jest analizować chińskie zapytania. Pomoże w tym tłumacz Google, wpisz listę słów kluczowych po rosyjsku i przetłumacz ją na chiński. Prawda w „ Słowa„Słów Hrefer nie można dodawać w języku chińskim, należy je przekodować. Zamiast chińskiego:
Rozwiązanie – Viagra
吉他 – gitara
其他 – odpoczynek
保险公司 - ubezpieczenie
Umieść te kody zastępujące w pliku Words:
%E4%BC%9F%E5%93%A5
%E5%90%89%E4%BB%96
%E5%85%B6%E4%BB%96
%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8
Jeśli promujesz serwis ubezpieczeniowy, to umieszczając link w swoim profilu na znalezionym na życzenie forum tematycznym (!) nawet chińskim” Forum SMF” 保险公司 będzie bardzo dobrze. Podsumowując, chciałbym powiedzieć, że nigdy nie rozumiałem ludzi, którzy narzekali, że Khrefers są źle lub źle ugotowane, w odpowiedzi zawsze chciałem powiedzieć, że po prostu nie wiesz, jak je ugotować; Żaden parser nie może zebrać wyników lepiej niż osoba polecająca; żądania muszą być po prostu poprawne. Hrefer to samochód: dobry, solidny, wyprodukowany w Niemczech, ale prowadzony przez człowieka i wszystko zależy od tego, jak dobrze się nim jeździ; nie da się zmusić samochodu, aby jechał jednocześnie w prawo i w lewo. Osobnym tematem jest czyszczenie baz danych, robiłem to kiedyś 3 lata temu na poprzednie zawody. W większości wszystko jest tam nadal aktualne, ale teraz możesz odmówić sprawdzenia 200 OK, naprawdę nie podobał mi się ten proces, błędy były bardzo duże, odfiltrowano wiele niepotrzebnych rzeczy. Teraz można to zrobić prawie automatycznie podczas działania Khroomera, chociaż proces ten nie jest całkowitym analogiem sprawdzania „200 OK”. Tak czy inaczej do rzeczy: niedawno pojawiła się w Khrumerze cudowna możliwość - wyłudzić informacje z zasobów w momencie prowadzenia projektu. Wygląda to tak. Podajesz szablon, który będzie przetwarzany podczas operacji, a informacje zebrane z szablonu zostaną zapisane do pliku xgraished.txt w folderze Logs. Możesz użyć tej funkcji do wszystkiego, lot wyobraźni jest ogromny. Używam tej funkcji raz w tygodniu, aby usunąć linki z wygasłej działającej bazy danych. Nie jest tajemnicą, że fora wymierają z każdym dniem, aby oczyścić naszą bazę danych z takich zasobów, a narzędzie „Autograbbing” nam w tym pomoże. Przecież trzeba przyznać, że kiedy często wpisujemy np. http://www.laptopace.com/index.php, to widzimy, że ta domena jest już np. dobrym gościem sprzedającym pieniądze, ale nie ma tam forum. Aby więc wyrzucić ten żużel z bazy, okradniemy. :) Otwórz kod źródłowy strony i zobacz tam ten wpis:
laptopce.com
Aby złapać, przekształcamy go w
[...]
Teraz wszyscy „umarli” z goudaddi będą nam znani z imienia. Oto mały wybór narzędzia Autograbbing, jeśli chcesz wyczyścić bazę danych z różnych „wygasłych” domen: