Semalt oferă rezultatele testelor instrumentelor de razuire web

Fiecare utilizator se confruntă cu două opțiuni atunci când dorește să utilizeze instrumente de răzuire web. Fie folosesc un răzuitor web off-raft, fie un raclet personalizat. În timp ce un raclet personalizat este o opțiune mai bună, o mulțime de oameni se îndepărtează de acesta din cauza costurilor mari. Instrumentul trebuie dezvoltat pentru a se potrivi afacerii și preferințelor dvs., astfel încât necesită multă muncă.

Pe de altă parte, răzuitoarele web off-the-raft sunt prea generice, deoarece sunt concepute pentru sarcini generale de razuire pe web. De obicei, sunt mai buni la unele proiecte de razuire web și fac joburi înfricoșate la altele. Pentru a vă ajuta să faceți alegerea corectă, unele rachete web au fost supuse unor teste de razuire completă pe web, iar rezultatele au fost afișate mai jos.

Criterii de testare

Scraper-urile web au fost testate pe următoarele sarcini comune de extragere a datelor. Au fost testate cu privire la capacitatea lor de a razi rapoarte tabulare, liste de text și formulare de autentificare. În plus, răzuitoarele web au fost, de asemenea, testate cu privire la capacitatea lor de a extrage date din paginile web dinamice construite pe AJAX. Aceasta este, de obicei, una dintre cele mai dificile sarcini pentru mulți răzuitori web. Capacitatea lor de a se ocupa de Captcha a fost, de asemenea, pusă la încercare. În cele din urmă, au fost testate cu privire la capacitatea lor de a gestiona aspectul blocului.

Rezultatele testului

Instrumentele de răzuire web care au fost testate sunt Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor și Easy Web Extractor.

Rezultatele au arătat că Content Grabber este cel mai bun, deoarece a fost excelent în toate zonele testate. Prin urmare, a obținut cea mai mare notă medie. S-a observat, de asemenea, că toate instrumentele de razuire web au fost capabile să razuiască formularele de autentificare și să razuiască datele din paginile web construite cu AJAX. Așadar, dacă acestea sunt cele două motive pentru care aveți nevoie de un răzuitor web, puteți alege oricare dintre ele. Toate s-au descurcat foarte bine în ambele domenii.

Următorul Content Grabber în performanță este Visual Web Ripper. S-a comportat bine în toate domeniile, dar nu și în ceea ce privește Content Grabber, astfel că a obținut un rating mediu de 4,5. Următorul instrument web este Helium Scraper. Performanțele sale sunt aproape la fel de bune ca cele ale Visual Web Ripper. Singura problemă cu Helium Scraper este performanța sa slabă în tratarea machetei blocurilor.

Conform rezultatelor testelor, instrumentele de razuire web efectuate în această ordine: Grabber de conținut, Visual Web Ripper, Scraper de heliu, Scraper Screen, OutWit Hub, Mozenda, WebSundew Extractor, Extractor de conținut web și Easy Web Extractor care au creat cele mai proaste performanțe. .

Concluzie

Având în vedere rezultatele testelor analizate mai sus, Content Grabber a obținut un rating de 5 în toate categoriile de teste. Deci, este în mod evident cel mai bun. Este posibil să fie nevoie să încercați și voi. Din păcate, două răzuitoare web au scos din test din diferite motive. Dezvoltatorii de Web Data Extractor și WebHarvy și-au scos produsele din test.

În ciuda faptului că nu au luat parte la test, au fost învățate câteva lucruri despre ambele. WebHarvy este conceput pentru razuirea datelor din listele paginate bine formatate, în timp ce Web Data Extractor este exclusiv pentru colectarea de e-mailuri, adrese URL etc.