مطالب قدیمی

معرفی برترین خزشگر های تحت وب، برای داده کاوی

خزشگرهای وب web crawler ( که کلماتی دیگر همچون مورچه ها، نمایه ساز اتوماتیک، رباتها، عنکوبتهای تحت وب، ربات های تحت وب و… نیز نامیده میشوند) برنامه ها یا اسکریپت های اتوماتیکی هستند که روشمندانه به اسکن یا “خزش” صفحه های وب برای ایجاد شاخص از آنها (ایندکس) می پردازند. به این روند خزش (کراولینگ) یا (اسپایدرینگ) می گویند.

استفاده های بسیاری از خزشگرهای تحت وب می شود اما اساسا این خزشگرها برای جمع آوری اطلاعات از درون اینترنت ساخته شده اند.  بیشتر موتور های جست و جو از این کراولرها استفاده میکنند تا از نظر اطلاعاتی همیشه بروز باشند و هر اطلاعاتی که بر روی وب یا وبسایت ها قرار می گیرند را شاخص گذاری (ایندکس) کنند.

کمپانی های تحلیل کننده و محققان از خزشگر ها برای تعیین ضوابط و ترند اطلاعاتی بازار استفاده می کنند. در این پست سعی ما بر این بوده است تا ۵۰ خزشگر متن باز و موجود برتر در فضای وب و برای داده کاوی را به شما معرفی کنیم تا بتوانید از بین خزشگرهای موجود بهترین ها را انتخاب کنید.

Name Language Platform
Heritrix Java Linux
Nutch Java Cross-platform
Scrapy Python Cross-platform
DataparkSearch C++ Cross-platform
GNU Wget C Linux
GRUB C#, C, Python, Perl Cross-platform
ht://Dig C++ Unix
HTTrack C/C++ Cross-platform
ICDL Crawler C++ Cross-platform
mnoGoSearch C Windows
Norconex HTTP Collector Java Cross-platform
Open Source Server C/C++, Java PHP Cross-platform
PHP-Crawler PHP Cross-platform
YaCy Java Cross-platform
WebSPHINX Java Cross-platform
WebLech Java Cross-platform
Arale Java Cross-platform
JSpider Java Cross-platform
HyperSpider Java Cross-platform
Arachnid Java Cross-platform
Spindle Java Cross-platform
Spider Java Cross-platform
LARM Java Cross-platform
Metis Java Cross-platform
SimpleSpider Java Cross-platform
Grunk Java Cross-platform
CAPEK Java Cross-platform
Aperture Java Cross-platform
Smart and Simple Web Crawler Java Cross-platform
Web Harvest Java Cross-platform
Aspseek C++ Linux
Bixo Java Cross-platform
crawler4j Java Cross-platform
Ebot Erland Linux
Hounder Java Cross-platform
Hyper Estraier C/C++ Cross-platform
OpenWebSpider C#, PHP Cross-platform
Pavuk C Lunix
Sphider PHP Cross-platform
Xapian C++ Cross-platform
Arachnode.net C# Windows
Crawwwler C++ Java
Distributed Web Crawler C, Java, Python Cross-platform
iCrawler Java Cross-platform
pycreep Java Cross-platform
Opese C++ Linux
Andjing Java
Ccrawler C# Windows
WebEater Java Cross-platform
JoBo Java Cross-platform
برچسب ها

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

همچنین ببینید

بستن
دکمه بازگشت به بالا