داده کاوی چیست؟
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمندو .... میباشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده بوده به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معنی کنکاش داده های موجود در پایگاه داده و انجام تحلیل های مختلف بر روی آن به منظور استخراج اطلاعات می باشد. داده کاوی فرایندی تحلیلی است که برای کاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های کسب وکار و بازار) صورت میآگیرد و یافتهآهاآباآبهآکارگیری الگوهاییآ،آاحراز اعتبار میآشوند . هدف اصلی داده کاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پرداز شهای معمول قابل دستیابی نیستند. آفرایند داده آکاوی شامل سه مرحله می باشد :
1. کاوش اولیه
2. ساخت مدل یا شناسایی الگو با کمک احراز اعتبار/ تایید
3. بهره برداری.
گام1 : کاوش
معمولاآاینآمرحله با آماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها ،آتبدیل داده هاآوآانتخاب زیرمجموعهآهاییآآ از رکوردهاآباآحجمآعظیمیآاز آمتغییرها( فیلدها ) باشد . سپس با توجهآبهآماهیتآمساله تحلیلیآ، اینآمرحلهآبهآمدلآهایآآ آپیش بینی ساده یا مدلآهایآآماریآوآگرافیکی برای شناسایی متغیرهای مورد نظر و مرحله 2:ساخت و احراز اعتبار مدل
اینآمرحلهآبها¾ بررسیآمدلآهای مختلف و گزینش بهترین مدل با توجه به کارآیی پیشآبینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیکآهایآمتعددیآبرایآر سیدنآبهآاینآهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"آنام گرفتند. بدین منظور مدلآهای مختلف برای مجموعه دادهآهای یکسانآآبهآکارآمیآروندآ تاآکارآییآشانآباآهم مقایسهآشود ،آسپس مدلی کهآبهترین کارآیی راداشته باشدآ، انتخاب میآشود.آاینآتکنیکآها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning
مرحله 3 : بهره برداری
آخرینآمرحلهآمدلیآراکهآد رمرحله قبلآانتخابآشده است، در دادهآهایآجدیدبه کارآمیآگیردتا پیشآبینیآهایآخروجیآهای مورد انتظاررا تولید نماید.داده کاویآبهآعنوانآابزارآمدی ریتآاطلاعاتآبرایآتصمیم گیریآ،آعمومیتآیافتهآاست . اخیراآ،آتوسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.تعیین پیچیدگی مدلآها برای استفاده در مرحله بعدی نیاز دارد .
مفاهیم اساسی در داده کاوی
Bagging:
این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود.فرض کنیدکه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ،آیک رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایآخواهد بود که درخت های مختلف آنرا پیش بینی کرده اند .
Boosting:
این مفهوم برای تولید مدلآهای چندگانه (برای پیش بینی یا رده بندی)به کار میآرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد کرد .
Meta-Learning :
این مفهوم برای ترکیب پیش بینیآهای حاصل از چند مدل به کار میآرود.و هنگامی که انواع مدلآهای موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبکه های عصبی است.هر یک از کامپیوترها،رده بندی هایی رابرای نمونه هاآپیش بینی کرده اند.تجربه نشان میآدهدکه ترکیب پیش بینی های چند روش دقیق تراز پیش بینی های هریک از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.
با تشکر از گرداورندگان این مقاله . متاسفانه منبع رو یادم نمیاد.
بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمندو .... میباشد.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده بوده به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
کاوش داد ه ها به معنی کنکاش داده های موجود در پایگاه داده و انجام تحلیل های مختلف بر روی آن به منظور استخراج اطلاعات می باشد. داده کاوی فرایندی تحلیلی است که برای کاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های کسب وکار و بازار) صورت میآگیرد و یافتهآهاآباآبهآکارگیری الگوهاییآ،آاحراز اعتبار میآشوند . هدف اصلی داده کاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پرداز شهای معمول قابل دستیابی نیستند. آفرایند داده آکاوی شامل سه مرحله می باشد :
1. کاوش اولیه
2. ساخت مدل یا شناسایی الگو با کمک احراز اعتبار/ تایید
3. بهره برداری.
گام1 : کاوش
معمولاآاینآمرحله با آماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها ،آتبدیل داده هاآوآانتخاب زیرمجموعهآهاییآآ از رکوردهاآباآحجمآعظیمیآاز آمتغییرها( فیلدها ) باشد . سپس با توجهآبهآماهیتآمساله تحلیلیآ، اینآمرحلهآبهآمدلآهایآآ آپیش بینی ساده یا مدلآهایآآماریآوآگرافیکی برای شناسایی متغیرهای مورد نظر و مرحله 2:ساخت و احراز اعتبار مدل
اینآمرحلهآبها¾ بررسیآمدلآهای مختلف و گزینش بهترین مدل با توجه به کارآیی پیشآبینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیکآهایآمتعددیآبرایآر سیدنآبهآاینآهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"آنام گرفتند. بدین منظور مدلآهای مختلف برای مجموعه دادهآهای یکسانآآبهآکارآمیآروندآ تاآکارآییآشانآباآهم مقایسهآشود ،آسپس مدلی کهآبهترین کارآیی راداشته باشدآ، انتخاب میآشود.آاینآتکنیکآها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning
مرحله 3 : بهره برداری
آخرینآمرحلهآمدلیآراکهآد رمرحله قبلآانتخابآشده است، در دادهآهایآجدیدبه کارآمیآگیردتا پیشآبینیآهایآخروجیآهای مورد انتظاررا تولید نماید.داده کاویآبهآعنوانآابزارآمدی ریتآاطلاعاتآبرایآتصمیم گیریآ،آعمومیتآیافتهآاست . اخیراآ،آتوسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.تعیین پیچیدگی مدلآها برای استفاده در مرحله بعدی نیاز دارد .
مفاهیم اساسی در داده کاوی
Bagging:
این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود.فرض کنیدکه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ،آیک رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایآخواهد بود که درخت های مختلف آنرا پیش بینی کرده اند .
Boosting:
این مفهوم برای تولید مدلآهای چندگانه (برای پیش بینی یا رده بندی)به کار میآرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد کرد .
Meta-Learning :
این مفهوم برای ترکیب پیش بینیآهای حاصل از چند مدل به کار میآرود.و هنگامی که انواع مدلآهای موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبکه های عصبی است.هر یک از کامپیوترها،رده بندی هایی رابرای نمونه هاآپیش بینی کرده اند.تجربه نشان میآدهدکه ترکیب پیش بینی های چند روش دقیق تراز پیش بینی های هریک از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.
با تشکر از گرداورندگان این مقاله . متاسفانه منبع رو یادم نمیاد.
دیدگاه