داده کاوی یک تکنیک تجزیه و تحلیل داده است که بر مدل سازی آماری و کشف دانش برای اهداف پیش بینی شده است. این فناوری اغلب برای هر مشکلی از دادهها یا پردازش اطلاعات در مقیاس بزرگ (جمع آوری، استخراج، انبارداری، تجزیه و تحلیل و آمار) و همچنین هوش مصنوعی، به کار میرود. Data mining فرآیند مرتب سازی دادهها میباشد که از طریق مجموعه دادههای بزرگ برای شناسایی الگوها و روابطی استفاده میشود که میتواند به حل مشکلات تجاری از طریق تجزیه و تحلیل دادهها کمک کند. تکنیکها و ابزارهای Data mining شرکتها را قادر میسازد تا روندهای آینده را پیش بینی کنند و بتوانند تصمیمات تجاری آگاهانهتری بگیرند. داده کاوی بخش کلیدی تجزیه و تحلیل داده میباشد که به طور کلی یکی از رشتههای اصلی در علم داده است که از تکنیکهای تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه دادهها استفاده میکند.
تاریخچه داده کاوی و پیشرفتهای کنونی
فرآیند کاوش در میان دادهها برای کشف ارتباطات پنهان و پیش بینی روندهای آینده سابقه طولانی دارد. اصطلاح داده کاوی که گاهی به عنوان کشف دانش در پایگاههای داده شناخته میشود. پایه و اساس آن شامل سه رشته علمی در هم تنیده است.
• آمار (مطالعه عددی روابط دادهها)
• هوش مصنوعی (هوش شبیه انسان که توسط نرم افزار و یا ماشینها نمایش داده میشود)
• یادگیری ماشینی (الگوریتمهایی که میتوانند از دادهها برای پیش بینی استفاده شوند)
Data mining چیست؟
در یک سطح جزئیتر، داده کاوی گامی در فرآیند کشف دانش در پایگاههای داده (KDD) است، یکی از روشهای علم داده برای جمع آوری اطلاعات، پردازش و تجزیه و تحلیل دادهها میباشد. Data mining فرآیند استخراج و کشف الگوها در مجموعه دادههای بزرگ است که شامل یادگیری ماشین، آمار و سیستمهای پایگاه داده است. استخراج اطلاعات با استفاده از روشهای هوشمند از مجموعه دادهها و تبدیل اطلاعات به یک ساختار قابل درک برای استفاده بیشتر است. Data mining مرحله تجزیه و تحلیل فرآیند کشف دانش در پایگاههای داده یا KDD است. جدا از مرحله تجزیه و تحلیل، همچنین شامل جنبههای پایگاه داده و مدیریت داده، پیش پردازش دادهها، پردازش ساختارهای کشف شده، تجسم، و به روز رسانی آنلاین است.
داده کاوی چگونه انجام میشود؟
Data mining بر دادههای بزرگ و فرآیندهای محاسباتی پیشرفته از جمله یادگیری ماشینی و سایر اشکال هوش مصنوعی (AI) متکی است. هدف یافتن الگوهایی هستند که میتوانند به پیش بینی از دادههای بدون ساختار یا بزرگ منجر شود. فرآیندهای Data mining برای ساخت مدلهای یادگیری ماشینی مورد استفاده قرار میگیرند که برنامههای کاربردی از جمله فناوری موتورهای جستجو باعث میشوند که وب سایت تقویت شود.
وظایف Data mining چیست؟
وظیفه واقعی داده کاوی تجزیه و تحلیل نیمه خودکار یا خودکار مقادیر زیادی از دادهها برای استخراج الگوهای ناشناخته قبلی مانند: گروههای رکورد دادهها (تحلیل خوشهای)، رکوردهای غیر معمول (تشخیص ناهنجاری) و وابستگیها (استخراج الگوی متوالی).این الگوها سپس میتوانند به عنوان نوعی خلاصه از دادههای ورودی دیده شوند. برای مثال ممکن است در یادگیری ماشینی و تجزیه و تحلیل پیشبینی کننده استفاده شوند. به عنوان مثال: در یکی از مراحل Data mining ممکن است چندین گروه را در دادهها شناسایی کنند، که سپس میتواند برای به دست آوردن نتایج، پیش بینی دقیقتر توسط یک سیستم
پشتیبانی استفاده کنند. اگر چه به عنوان مراحل اضافی به فرآیند کلی KDD (دانش در کشف دادهها (تعلق دارند.
تعریف KDD
بسیاری از مردم داده کاوی را مترادف واژههای رایج کشف دانش در پایگاهدادهها ( knowledge discovery in databases) میدانند. KDD زمینهای از علوم رایانه است که شامل ابزارها و تئوریهایی برای کمک به انسانها در استخراج اطلاعات مفید از مجموعههای بزرگ دادههای دیجیتالی است.
پیش پردازش
یک منبع متداول برای دادهها، دیتا مارتData mart یا انبار داده data warehouse است. پیش پردازش برای تجزیه و تحلیل مجموعه دادههای چند متغیر قبل از انجام Data mining ضروری است.
روند فرآیند کشف دانش در پایگاههای داده (KDD) معمولا با مراحل زیر تعریف میشود:
• انتخاب
• پیش پردازش
• دگرگونی
• داده کاوی
• تفسیر/ارزیابی
شش کاربرد رایج Data mining
1. تشخیص ناهنجاری: تشخیص ناهنجاری (تشخیص بیرونی/تغییر/انحراف) شناسایی سوابق دادههای غیر عادی، که ممکن است جالب باشند یا خطاهای دادهای که نیاز به بررسی بیشتر دارند.
2. یادگیری قانون انجمن: یادگیری قانون انجمن، مدل سازی، وابستگی روابط بین متغیرها را جستجو میکند. به عنوان مثال یک سوپر مارکت ممکن است دادههایی را در مورد عادات خرید مشتری جمع آوری کند. با استفاده از یادگیری قوانین، سوپر مارکت میتواند تعیین کند که کدام محصولات اغلب با هم خریداری میشوند و از این اطلاعات برای اهداف بازاریابی استفاده کنند.
3. خوشه بندی: خوشه بندی وظیفه کشف گروهها و ساختارهایی در دادهها است که به نوعی مشابه هستند، بدون استفاده از ساختارهای شناخته شده در دادهها.
4. طبقه بندی: طبقه بندی وظیفه تعمیم ساختار شناخته شده برای اعمال به دادههای جدید است. به عنوان مثال:یک برنامه ایمیل ممکن است سعی کند یک ایمیل را به عنوان هرزنامه طبقه بندی کند.
5. رگرسیون: رگرسیون تلاش برای یافتن تابعی که دادهها را با کمترین خطا مدل میکند تا روابط بین دادهها یا مجموعه دادهها را تخمین بزند.
6. خلاصه سازی: خلاصه سازی ارائه یک نمایش فشردهتر از مجموعه دادهها، از جمله تجسم و تولید گزارش است.
داده کاوی به شما این امکان را میدهد:
• تمام نویزهای پر هرج و مرج و تکراری دادههای خود را غربال کنید.
• آنچه مرتبط است را درک کنید و سپس از آن اطلاعات برای ارزیابی نتایج احتمالی به خوبی استفاده کنید.
• همچنین کمک میکند تا خیلی سریع بتوانید تصمیم اگاهانه بگیرید.
چرا Data mining مهم است؟
این فناوری جز حیاتی ابتکارات تحلیلی موفق در سازمانها است. Data mining موثر در جنبههای مختلف مانند: برنامه ریزی استراتژیهای تجاری و مدیریت عملیات کمک میکند. این شامل کارکردهای مواجهه با مشتری مانند: بازاریابی، تبلیغات، فروش و پشتیبانی مشتری، به علاوه تولید، مدیریت زنجیره تامین، امور مالی و منابع انسانی است.
Data mining از کشف تقلب، مدیریت ریسک، برنامه ریزی امنیت سایبری و بسیاری دیگر از موارد استفاده حیاتی تجاری پشتیبانی میکند. همچنین نقش مهمی در مراقبتهای بهداشتی، دولتی، تحقیقات علمی، ریاضیات، ورزش و غیره ایفا میکند.
ویژگیهای کلیدی داده کاوی
• پیش بینیهای خودکار الگو بر اساس تحلیل روند و رفتار
• پیش بینی بر اساس نتایج احتمالی
• ایجاد اطلاعات تصمیم گرا
• تمرکز روی مجموعه دادهها و پایگاههای داده بزرگ برای تجزیه و تحلیل
داده کاوی برای انجام چه کارهایی استفاده میشود؟
کاربردهای Data mining از بخش مالی برای جستجوی الگوها در بازارها تا تلاش برای دولتها برای شناسایی تهدیدهای امنیتی بالقوه را شامل میشود. تمام شرکتها به ویژه شرکتهای آنلاین و رسانههای اجتماعی، از این
تکنولوژی برای کاربران خود برای ایجاد کمپینهای تبلیغاتی و بازاریابی سودآوری که مجموعه خاصی از کاربران را مورد هدف قرار دادهاند، استفاده میکنند.
Data mining و رسانههای اجتماعی
یکی از سودآورترین کاربردهای Data mining، شبکههای اجتماعی بوده است. پلتفرمهایی مانند فیسبوک (متعلق به متا) تیک تاک، اینستاگرام و توییتر مجموعهای از دادهها را در مورد کاربران فردی جمعآوری میکنند تا بتوانند تبلیغات بازاریابی هدفمند ارسال کنند. همچنین از این دادهها برای تاثیر گذاری بر رفتار کاربران و تغییر ترجیحات آنها استفاده میشود، خواه برای یک محصول پر مصرف باشد یا اینکه افراد در انتخابات به چه کسی رای میدهند.
نتیجه گیری
داده کاوی فرآیند یافتن ناهنجاریها، الگوها و همبستگیها در مجموعه دادههای بزرگ برای پیش بینی نتایج بزرگ است. با استفاده از طیف وسیعی از تکنیکهای Data mining، میتوانید از این اطلاعات برای افزایش دآرمد، کاهش هزینهها، بهبود روابط با مشتری، کاهش خطرات و موارد دیگر استفاده کنید.