نویسندگان: يوحنا قديمی، علي عباسی، کاوه پاشايی
مقدمه: امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها ، نياز به ابزاري است تا بتوان داده هاي ذخيره شده پردازش کرد و اطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد . با استفاده ار پرسش هاي ساده در SQLو ابزارهاي گوناگون گزارش گيري معمولي ، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند ، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است .
از سوي ديگر کاربران معمولا فرضيه اي را مطرح مي کنند و سپس بر اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي پردازند ، در حالي که امروزه نياز به روشهايي است که اصطلاحا به کشف دانش[1]بپردازند يعني با کمترين دخالت کاربر و به صورت خودکار الگوها و رابطه هاي منطقي را بيان نمايند .
داده کاوي[2]يکي از مهمترين اين روشها است که به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت کاربران شناخته مي شوند و اطلاعاتي را در اختيار کاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند .
در داده کاوي از بخشي از علم آمار به نام تحليل اکتشافي داده ها[3]استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شود . علاوه بر اين داده کاوي با هوش مصنوعي و يادگيري ماشين نيز ارتباط تنگاتنگي دارد ، بنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها ، هوش مصنوعي ، يادگيري ماشين و علم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود .
بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها ، در حد مگا يا ترابايت ، مواجه باشيم . در تمامي منابع داده کاوي بر اين مطلب تاکيد شده است .
هر چه حجم داده ها بيشتر و روابط ميان آنها پيچيده تر باشد دسترسي به اطلاعات نهفته در ميان داده ها مشکلتر مي شود و نقش داده کاوي به عنوان يکي از روشهاي کشف دانش ، روشن تر مي گردد .
مفاهيم پايه در داده کاوی
در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .
تعريف داده کاوی
در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده اند . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :
* داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.[1]
* اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود [2].
* داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها .[3]
* داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
* داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .
تاريخچه داده کاوی
اخيرا داده کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله ها ي عملي شده است ، اما اين واژه تا اوايل دهه نود مفهومي نداشت وبه کار برده نمي شد .
در دهه شصت و پيش از آن زمينه هايي براي ايجاد سيستم ها ي جمع آوري و مديريت داده ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم هاي مديريت پايگاه داده ها گرديد .
ايجاد و توسعه مدلهاي داده اي براي پايگاه سلسله مراتبي ، شبکه اي و بخصوص رابطه اي در دهه هفتاد ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده ها و در نهايت ايجاد زبان پرسش SQLدر اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرمهاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .
توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد و ايجاد پايگاه هاي شي گرا ، کاربرد گرا[4]و فعال[5]باعث توسعه همه جانبه و کاربردي شدن اين سيستم ها در سراسر جهان گرديد . بدين ترتيب DBMSهايي همچون DB2، Oracle، Sybase، … ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها ([6]KDD) دانست بطوري که در بسياري موارد DMو KDDبصورت مترادف مورد استفاده قرار مي گيرند .
همانطور که در تعريف داده کاوي ذکر شد ، هدف از جستجو و کشف الگوهايي در پايگاه داده ها و استفاده از آنها در اخذ تصميمات حياتي است ، بنابراين مي توان گفت که DMبخشي از فرايند KDDاست که در نهايت به ايجاد سيستم هاي DSS[7]شکل 1-1 نقش داده کاوي در فرايند کشف دانش از پايگاه داده ها را نشان مي دهد . [4]
براي اولين بار مفهوم داده کاوي در کارگاه[8]IJCAIدر زمينه KDDتوسط Shapirمطرح گرديد . به دنبال آن در سالهاي 1991 تا 1994 ، کارگاههاي KDDمفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط گرديدند.
برخي از کاربردهاي داده کاوي در محيطهاي واقعي عبارتند از :
1. خرده فروشي
2. تعيين الگوهاي خريد مشتريان
3. تجزيه و تحليل سبد خريد بازار
4. پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي)
5. بانکداري
6. پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري
7. تشخيص مشتريان ثابت
8. تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي
9. بيمه
10. تجزيه و تحليل دعاوي
11. پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان
12. پزشکي
13. تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي
14. تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت
[1]Knowledge Discovery
[2]Data Mining
[3]Exploratory Data Analysis
[4]Application Oriented
[5]Active DBMS
[6]Knowledge Discovery From Database
[7]Decision Support System
[8]Workshop