داده کاوی چیست؟
دسته : هوش مصنوعی
نویسنده : فاطمه تابع
تاریخ : 1401/5/31
سطح : متوسط
پست های مرتبط
داده کاوی چیست؟
داده کاوی فرایندی طولانی است که از داده های خام شروع شده و به دانش ختم می شود. Data Mining همان Knowledge Discovery From Data است.
داده کاوی یا Data Mining به معنای کشف الگو های مفیدی است که در میان حجم عظیمی از داده ها، تکرار می شوند. به بیانی دیگر داده کاوی کشف دانش در پایگاه داده است. داده کاوی راه حل هایی ارائه می دهد که با جستجوی ساده و Query به آن ها نمی رسیم. در واقع در داده کاوی الگو های میان داده ها شناسایی می شوند، خروجی های احتمالی تخمین زده می شوند و در آخر اطلاعات قابل اجرا و مفید تولید می شوند. به طور کلی داده کاوی بر روی پایگاه داده های بزرگ و Big Data تمرکز دارد.
امروزه با حجم وسیعی از داده ها روبرو هستیم که هر لحظه بیشتر می شوند، نیاز به داده کاوی جایی احساس می شود که باید اطلاعات و دانش مفید را از بین این Data ها پیدا کرده تا در الگوریتم های هوش مصنوعی، یادگیری ماشین و... از آن ها استفاده کنیم. معمولا روش ها و الگوریتم های داده کاوی هزینه بالایی دارند اما با پیشرفت روز افزون سخت افزار و پیدایش فضا ذخیره سازی ابری یا Cloud، می توان این عملیات را راحت تر و سریع تر انجام داد. داده کاوی با علم داده (Data Science) و تحلیل داده معنای تقریبا مشابهی دارند اما دقیقا یکسان نیستند و تفاوت هایی نیز باهم دارند.
در واقع می توان گفت علم داده یا Data Science، ترکیبی از دانش ریاضیات، آمار، مهارت های هک و دامنه است. هر فردی که این علم ها را به درستی درک کند، می تواند به خوبی در علم داده پیشرفت کند. علم داده و داده کاوی از مسائل روز و داغ است و معمولا به دلیل شباهت هایی که با یکدیگر دارند ممکن است به جای هم استفاده شوند. متخصص داده باید درک درستی از بصری سازی و درک ارتباط بین داده ها داشته باشد. داده کاو باید بتواند به درستی با ابزار کار کرده و Data مفید را از میان حجم زیاد داده ها بیرون بکشد و الگو و ارتباط بین آن ها را کشف کند.
به طور کلی داده کاوی (Data Mining) به معنای کشف دانش از داده (Knowledge Discovery From Data) است. داده کاوی را ممکن است در کتاب ها و مقالات با نام های Knowledge Extraction، Data Analysis و Data Archeology و... نیز ببینید.
اطلاعات بانک ها و تراکنش ها، اطلاعات بیماران و بهداشت و درمان، اخبار، مشاهدات مهندسی و زیست بوم، بازار های ارزی، تصاویر و ویدیو های نظارتی، شبکه های اجتماعی (Social Media)، جستجو های وب و هزاران هزار اطلاعات دیگر باعث شده که این دوره را، عصر داده نام گذاری کنند. اگر بخواهیم جواب سوال ‘چرا داده کاوی؟’ را بدهیم، باید بگوییم که انسان به طور مستقیم نمی تواند این داده ها را ذخیره، پردازش و استفاده کند. این کار باید به صورت اتوماتیک انجام شود و به همین دلیل است که داده کاوی بوجود آمده است. در اصل Data Mining از دیدگاه مهندسی نرم افزار به مسائل نگاه می کند و واسط بین مهندسی نرم افزار و Data mining، پایگاه داده (Database) است.
داده کاوی فرایندی طولانی است که از داده های خام شروع شده و به دانش ختم می شود و شامل مراحل زیر است:
1. پاکسازی داده (Data Cleaning)
2. یکپارچهسازی داده (Data Integration)
3. انتخاب داده (Data Selection)
4. تبدیل داده (Data Transformation)
5. کاوش داده (Data Mining)
6. ارزیابی الگو (Pattern Evaluation)
7. ارائه دانش (Knowledge Representation)
در مرحله اول همانطور که از نامش پیداست، مشکلاتی که در دیتابیس است را رفع می کنیم مثل نویز ها و Outlier ها.
مرحله Data Integration یا همان مرحله دوم، در اصل ادغام سازی Databaseها است. این عمل برای زمانی است که چند منبع داده داشته باشیم و باید آن ها را باهم ادغام و یکپارچه کنیم. از ادغام منابع داده های قبلی، منبع جدیدی بوجود می آید که به آن Datawarehouse گفته می شود.
در مرحله سوم باید بین این حجم زیاد داده ها، چیزی که مورد نیاز است را Select و انتخاب کنیم. به عنوان مثال ممکن است Database ما دارای ستون های اطلاعات شخصی، پزشکی، سنی، شغلی و... باشد. اگر بخواهیم وضعیت سلامت افراد را بدانیم نیازی به اطلاعات شغلی نداریم. پس باید بدانیم چه نوع داده هایی را نیاز داریم و آن ها را انتخاب کنیم.
در مرحله بعدی که تبدیل داده است، باید به نوعی داده ها را ساده سازی کنیم. یعنی جوری داده ها را می چینیم که برای استفاده راحت تر باشیم و عملا آن ها را استاندارد سازی می کنیم.
در مرحله پنجم با توجه به داده ها و هدف خودمان، تکنیک ها و الگوریتم های داده کاوی را اعمال می کنیم تا یک الگو بدست آید. در مرحله Data Mining می توانیم از روش های تشخیص الگو (Pattern Discovery)، پیدا کردن ارتباط داده ها (Association and Correlation)، طبقه بندی (Classification)، خوشه بندی (Clustering) و پیدا کردن داده های پرت (Outlier Analysis) استفاده کنیم.
در مرحله Pattern Evaluation الگویی که در مرحله Data Mining بدست آمده را از جهات مختلف مثل دقت و صحت ارزیابی می کنیم.
بعد از اینکه از الگو بدست آمده مطمئن شدیم، می توانیم به شیوه ای که برای کاربر قابل درک باشد، دانشی که از داده ها کشف شده را ارائه دهیم.
ما در داده کاوی با چالش هایی روبرو هستیم که ممکن است کار را برای ما سخت کنند. به عنوان مثال نمی توان الگویی پیدا کرد که هم با دقت بسیار بالایی کار کند و هم قابلیت تعمیم پذیری آن بالا باشد. چالش دیگر ما این است که منابع داده، خیلی زیاد هستند و ذخیره و پردازش حجم زیاد داده ها برای ما هزینه زیادی دارد. داده کاوی باعث برداشت هایی از داده ها می شود که حجم داده های ما از پتابایت و اگزابایت هم عبور کند.
در کل داده کاوی (Data Mining) تاثیرات مثبت بسیاری بر زندگی انسان داشته و خواهد داشت، مثل پیش بینی گرایش های آینده، کمک در تصمیم گیری، تشخیص کلاهبرداری و... .
داده کاوی کاربرد های بسیار زیادی دارد از جمله :
· خودروهای خودران
· خطرات درمان های جدید
· پژوهش های فضایی
· تشخیص کلاهبرداری
· تحلیل تجارت سهام
· تجارت الکترونیک
· شبکههای اجتماعی
· تحلیل تعامل با مشتریان (CRM)
در کنار همه این تاثیرات و کاربرد های خوب، داده کاوی معایب و نقص هایی هم دارد. هزینه بالا برای پیاده سازی، حجم زیاد داده، دشواری کار با الگوریتم ها، نیاز به دانش قابل توجه، عدم صحت احتمالی داده ها و حریم خصوصی از جمله نقص های داده کاوی هستند.
امیدوارم که از این پست اطلاعات مفیدی دریافت کرده باشید. حتما نظرات خودتون رو با ما به اشتراک بگذارید و در شبکه های اجتماعی ما رو دنبال کنید.
پست های مرتبط