مطالب قدیمی

پنج تکنیک داده کاوی که به ایجاد ارزش ها در بیزینس شما کمک میکند

پنج تکنیک داده کاوی که به ایجاد ارزش ها در بیزینس شما کمک میکند
پنج تکنیک داده کاوی که به ایجاد ارزش ها در بیزینس شما کمک میکند

انواع بسیار مختلفی از راه های آنالیز و تجزیه و تحلیل وجود دارند که میتوانند در جهت بازیابی اطلاعات از بیگ دیتا مورد استفاده قرار بگیرند. هر کدام از مدل های آنالیز میتوانند تاثیر یا نتیجه ای متفاوت از هم داشته باشند. مهم این است که بدانید باید از کدام تکنیک داده کاوی استفاده کنید تا بتوانید به نسبت بیزینس خود، مشکلات شرکت و یا کمپانی را حل کنید. داده کاوی های مختلف، نتایج متفاوتی را هم ارائه میدهند و در نتیجه آنها به بینش های متفاوتی در ارائه راه حل ها میرسیم. یکی از راه های مرسوم برای بازیابی دانش باارزشی که بدست آورده اید استفاده از پروسه و فرآیند داده کاوی (دیتا ماینینگ) است. دیتا ماینینگ یک کلمه بخصوص است که اقلب برای توصیف طیف وسیعی از تجزیه و تحلیل های بیگ دیتا و داده های بزرگ به کار گرفته میشود. البته این تعریف بسیار کلی و جامعی است؛ دیتا ماینینگ میتواند به کشف الگوهای ناشناخته و جالب بپردازد و رکوردهای نامعمول و وابستگی های بین داده ها را به زیبایی تشخیص دهد.

زمانی که میخواهید استراتژی بیگ دیتای خود را پیشرفت دهید این موضوع خیلی مهم است که درک درستی از مفهوم داده کاوی و چگونگی استفاده از آن را داشته باشید و دقیقا بدانید که چگونه این علم میتواند به شما و کارتان کمک کند.

اولین دوره داده کاوی در سال ۱۹۹۰ پدیدار و مورد استفاده قرار گرفت در حالی که قبل از آن آمارگیران، از دیتا فیشینگ “Data Fishing” یا دیتا دیباگینگ “Data Dredging” به منظور تجزیه و تحلیل داده ها، بدون فرضیات استقرایی استفاده می کردند.

هدف اصلی هر فرآیند داده کاوی، پیدا کردن اطلاعات قابل استفاده ای است که در مجموعه عظیمی از داده ها قابل درک باشند. در اینجا چند کلاس مهم از تکنیک های داده کاوی را به شما معرفی میکنیم.

 

 

پنج تکنیک داده کاوی که به ایجاد ارزش ها در بیزینس شما کمک میکند:

 

۱- ناهنجاری یا آشکارسازی نامربوط

(یعنی جست و جو در خصوص یک دیتایی که با دیگر دیتا ها مطابقت از لحاظ رفتار مورد نظر یا الگوی پیش بینی شده ندارد)

ناهنجاری یا آشکارسازی نامربوط
ناهنجاری یا آشکارسازی نامربوط

ناهنجاری ها همچنین به نقاط دور افتاده، استثناها، غافلگیری ها یا آلاینده ها نیز اطلاق میشوند که اغلب اطلاعات حیاتی و قابل اجرایی را فراهم می آورند. نقاط دور افتاده، داده هایی هستند که به طرز قابل توجهی از یک مجموعه از داده ها و ترکیبات آنها فاصله گرفته و انحراف داشته باشند. این نقاط دور افتاده اغلب به خاطر آنکه با بقیه داده ها فاصله زیادی دارند نیاز به تجزیه و تحلیل های اضافی و جدایی دارند. تشخیص ناهنجاری ها میتواند به شناسایی تقلب ها و خطرات کمک کند این موضوع میتواند به پیدا کردن رخدادهای خارق العاده ای که میتوانند اقدامات جعلی، روش های نادرست و یا زمینه هایی که در آنها یک نظریه خاص نامعتبر است را پیدا کنند، کمک کند. البته لازم است بدانید که در مجموعه های بزرگ از داده های عظیم، مقدار کمی از نقاط دور افتاده مشترک هستند.

 

۲- یادگیری قوانین روابط و وابستگی ها:

یادگیری قوانین روابط و وابستگی ها:
یادگیری قوانین روابط و وابستگی ها:

یعنی کشف روابط و وابستگی های بین متغیر های مختلف در پایگاه داده های بزرگ. قوانین روابط، الگوهای پنهان در داده ها را آشکار میکند و میتواند به شناسایی متغیر های درون داده ها، رخدادهای تکراری و متغیر های مختلف با بیشترین فراوانی، کمک کند. این موضوع اغلب در صنعت های کوچک و خورده فروش، برای پیدا کردن الگوهای فروش استفاده میشود. این الگوها میتوانند زمانی استفاده شوند که میخواهیم محصول جدیدی را بر اساس علاقه قبلی خریداران به محصولات قبلی، معرفی کنیم و پیشنهاد دهیم.

 

۳- تجزیه و تحلیل خوشه ها

تجزیه و تحلیل خوشه ها
تجزیه و تحلیل خوشه ها

به فرآیندی گویند که در آن داده های شبیه به یکدیگر را برای درک تفاوت ها و شباهت ها دسته بندی میکنند. خوشه بندی صفات خاص مشترکی دارد که میتوانند در بهبود هدف گذاری الگوریتم ها بسیار استفاده شوند. به طور مثال خوشه بندی خریداران با رفتار مشابه میتواند به هدف گذاری محصولات و خدمات مشابه، به عرضه به خریداران مشابه کمک کند.

 

۴- آنالیز و طبقه بندی

آنالیز و طبقه بندی
آنالیز و طبقه بندی

یک فرایند سیستماتیک برای به دست آوردن اطلاعات مهم و مربوط به داده ها، و ابرداده است. طبقه بندی آنالیزها میتواند به شناسایی مجموعه ای از انواع مختلف داده ها کمک کند. این فرآیند بسیار نزدیک به آنالیز خوشه هاست و میتواند برای خوشه بندی نیز استفاده شود. ارائه دهنده پلتفورم ایمیل شما میتواند مثال بسیار خوبی از طبقه بندی آنالیز باشد: آنها الگوریتم های استفاده میکنند که با استفاده از آنها قادر هستند به طبقه بندی ایمیل های شما به عنوان های اسپم و یا قانونی بپردازند.

 

۵- آنالیز رگرسیون

آنالیز رگرسیون
آنالیز رگرسیون

این فرآیند برای فهمیدن وابستگی بین متغیر ها به کار گرفته میشود. این فرضیه در اصل به منظور فهمیدن تاثیر یک طرفه یک متغیر بر روی واکنش یک متغیر دیگر مورد استفاده قرار میگیرد. متغیر های مستقل میتوانند توسط یکدیگر بر روی هم تاثیر بگذارند اما این بدین معنی نیست که این وابستگی از هر دو طرف همانند آنالیز همبستگی است. آنالیز رگرسیون میتواند نشان دهد که یک متغیر به متغیر دیگری وابسته است اما نمیتواند بالاعکس آنرا با همان یکبار تشخیص دهد به عنوان مثال وبسایت eHarmony  با استفاده از مدل رگرسیون و بر اساس ۲۹ متغیر مختلف میتواند مجرد های مختلف را با یکدیگر مقابسه کند و بهترین شریک زندگی را برای آنها انتخاب و معرفی کند.

دیتا ماینینگ
دیتا ماینینگ

 

دیتا ماینینگ میتواند به سازمان ها و دانشمندان کمک کند تا بتوانند اطلاعات مهم و مرتبط با خود را بدست آورند که این اطلاعات نیز میتواند در مدل سازی هایی که به پیش بینی منجر میشود کمک کند و نشان میدهد که چگونه مطالعه رفتار مردم و سیستم ها میتواند به پیش بینی رفتار آنها کمک کند.

برچسب ها

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

دکمه بازگشت به بالا