مطالب قدیمی

استخراج مطالب وب سایت ها با نرم افزار OutWit

نرم افزاری که قصد معرفی آنرا دارم OutWit است که هم به صورت مستقل برای ویندوز و لینوکس قابل دانلود است و هم به عنوان یک افزونه روی فایر فاکس نصب می شود.

هنگامی که قصد واکشی اطلاعات یک سایت را دارید، ابتدا یک صفحه نمونه از اطلاعاتی که نیاز دارید را بارگذاری کنید و بعد وارد بخش Scraper‌ آن شوید و یک Scraper یا استخراج کننده جدید بسازید. برای ساخت این استخراج کننده هم فیلدهایی که باید استخراج شوند را در جدول پایین تعریف کرده مثلاً برای اخبار شما نیاز به عنوان خبر، متن خبر، نویسنده، تاریخ نشر، برچسب ها و گروه خبری آن دارید.برای هر کدام از این اطلاعات، مکانی از صفحه وب را که در آن جا قرار گرفته اند را باید مشخص کنید که این کار با ذکر برچسب های ابتدایی و انتهایی آن بخش صورت می گیرد . مثلاً عنوان یک خبر در بین برچسب های <title> و </title> قرار گرفته است که در بخش بالایی صفحه قابل مشاهده است .

با اینکار شما Scraper یا استخراج کننده خاص خودتان را ساخته اید. حالا کافیست یک گروه خبری یا صفحه اول سایت را باز کنید و روی بخش لینک ها یا لیست ها کلیک کرده و صفحات خبری را با موس انتخاب کرده و با کلیک راست و انتخاب گزینه Auto Explorer Page و انتخاب گزینه بعدی Fast Scrape و انتخاب Scraper ایجاد شده ، فرآیند استخراج اطلاعات آنها به طور خودکار شروع می شود که البته در نسخه رایگان تا صد صفحه بیشتر قابل استخراج نیست و در پایان مرحله استخراج می توانید خروجی مورد نظر خود مانند خروجی متن یا اکسل را ایجاد کنید. می توانید برای هر گروه خبری این فرآیند را تکرار کنید .

آخرین نکته درباره OutWit این است که این سایت مجموعه نرم افزارهایی برای استخراج عکس و مستنداتی مانند پی دی اف هم دارد که می توانید بسته به نیاز خود از آنها نیز استفاده کنید.

برچسب ها

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

دکمه بازگشت به بالا