داده کاوی

بهترین تکنیک های داده کاوی

unnamed file 8
هر یک از تکنیک های داده کاوی زیر به مشاغل مختلف مربوط می شود و بینش های مختلفی را ارائه می دهد. دانستن نوع مشکلی که شما در تلاش برای حل آن هستید، نوع روش داده کاوی را تعیین می کند که بهترین نتیجه را به دست خواهدداد.در دنیای دیجیتال امروز، ما با داده های زیادی احاطه شده ایم که پیش بینی می شود 40٪ در سال در دهه آینده رشد خواهدداشت. واقعیت طعنه آمیز این است که ما در داده ها غرق می شویم، اماباز تشنه دانش هستیم. چرا؟ همه این داده ها سر و صدایی را ایجاد می کنند که برای به ذهن سپردن دشوار است - در اصل ما حجم بالایی از داده های بی شکل تولید کرده ایم.اما دانش عمیقا در داخل دفن شده است. اگر ما ابزار و تکنیک های قدرتمند برای تحلیل چنین داده هایی نداشته باشیم، غیر ممکن است که از چنین داده هایی سودی ببریم.

در مطالب زیر 5 تکنیک های داده کاوی است که می تواند به شما کمک کند نتیجه های مطلوب را ایجاد کنید.

1.تجزیه و تحلیل طبقه بندی

این تجزیه و تحلیل برای بازیابی اطلاعات مهم و مرتبط با داده ها و فراداده ها استفاده می شودو برای طبقه بندی داده های مختلف در کلاس های مختلف استفاده می شود. طبقه بندی شبیه به خوشه بندی است به طوری داده ها را به بخش های مختلف به نام کلاس طبقه بندی میکند. اما بر خلاف خوشه بندی، در اینجا تحلیلگران داده در مورد کلاس های مختلف یا خوشه اطلاعات دارند. بنابراین، در تجزیه و تحلیل طبقه بندی، الگوریتم ها برای تصمیم گیری در مورد طبقه بندی اطلاعات جدید باید اعمال شوند. مثال کلاسیک تجزیه و تحلیل طبقه بندی ایمیل ما Outlook است. در Outlook ، از الگوریتم های خاصی استفاده می کنند تا ایمیل را به صورت مجاز یا اسپم مشخص کنند.


2. یادگیری قانون ارتباط

این به روشی اشاره می کند که می تواند به شما در تعیین روابط جالب (مدل سازی وابستگی) بین متغیرهای مختلف در پایگاه های بزرگ کمک کند. این تکنیک می تواند به شما کمک کند برخی الگوهای پنهان را در داده ها بازیابی کنید که می تواند برای شناسایی متغیرها درون داده ها و همسان سازی متغیرهای مختلف که اغلب در مجموعه داده ظاهر می شود مفیدباشد. قوانین ارتباط برای بررسی و پیش بینی رفتار مشتری مفید هستندو به شدت در تجزیه و تحلیل خرده فروشی توصیه می شوند. این روش برای تعیین تجزیه و تحلیل داده های سبد خرید، خوشه بندی محصول، طراحی کاتالوگ و طرح فروشگاه استفاده می شود. در IT، برنامه نویسان از قوانین اارتباطی برای ایجاد برنامه هایی برای یادگیری ماشین استفاده می کنند.


3. تشخیص ANOMALY و یا OUTLIER

این روش به مشاهدات اقلام داده در یک مجموعه داده اشاره دارد که با الگوی مورد انتظار یا رفتار مورد انتظار مطابقت ندارد. ناهنجاری ها نیز به عنوان ناپایدار، نوآوری، سر و صدا، انحرافات و استثناء شناخته می شوند. اغلب آنها اطلاعات انتقادی و عملی را ارائه می دهند. یک ناهنجاری موردی است که به طور قابل ملاحظه ای با میانگین مشترک در یک مجموعه داده یا ترکیبی از داده ها اختلاف است. این نوع اقلام از لحاظ آماری نسبت به بقیه داده ها پائین تر است و از این رو، نشان می دهد که چیزی غیرعادی اتفاق افتاده است و نیاز به توجه بیشتری دارد. این تکنیک را می توان در حوزه های مختلف مانند تشخیص نفوذ، نظارت بر سلامت سیستم، تشخیص تقلب، تشخیص خطا، تشخیص رویداد در شبکه های حسگر و تشخیص اختلالات سیستم های زیست محیطی استفاده کرد. تحلیلگران اغلب نتایج غیرمعمول را از نتایج داده ها با دقت بالا به دست می آورند.


4. تجزیه و تحلیل کلسترینگ

خوشه در واقع مجموعه ای از اشیاء داده است؛ این اشیا در یک خوشه مشابه هستند. به این معنی است که اشیاء در یک گروه مشابه یکدیگرند و با اشیاء در گروه های دیگر یا خوشه های دیگر تفاوت دارند. تجزیه و تحلیل خوشه ای فرآیند کشف گروه ها و خوشه ها در داده ها به گونه ای است که میزان ارتباط بین دو اشیا بالاترین است اگر آنها متعلق به یک گروه باشند و کمترین است اگر متعلق به گروه های مختلف باشند. نتیجه این تجزیه و تحلیل می تواند برای ایجاد پروفایل مشتری استفاده شود.


5. تجزیه و تحلیل رگرسیون

در تحلیل آماری، تحلیل رگرسیون، روند شناسایی و تحلیل رابطه بین متغیرها است. این می تواند به شما در درک ارزش تغییرات متغیر وابسته کمک کند، اگر هر یک از متغیرهای مستقل متفاوت باشد. این به این معنی است که یک متغیر وابسته به دیگری است، اما آن متغیر دیگر مستقل است. به طور کلی از این روش برای پیش بینی استفاده می شود.
همه این تکنیک ها می توانند به تجزیه و تحلیل داده های مختلف از دیدگاه های مختلف کمک کنند. اکنون دانش لازم برای تعیین بهترین روش برای خلاصه کردن داده ها به اطلاعات مفید - اطلاعاتی که می تواند برای حل انواع مشکلات تجاری برای افزایش درآمد، رضایت مشتری یا کاهش هزینه های ناخواسته استفاده شود-داده شده است.

 

منبع:infogix