مقاله —d1199

همانطور که مشاهده می گردد کمینه شاخص کارایی در هر دو سهم بر اساس الگوریتم ترکیبی بت-عصبی به دست آمده است.
گونه ای دیگر از الگوریتمهای به کار گرفته شده در پیشگویی قیمت سهم در بازارهای پول و سرمایه الگوریتمهای چندعامله هستند. محققان دیگری CITATION MHF12 \l 1065 [7] سیستمی چندعامله برای پیش گویی قیمت سهم در روز بعد با هدف افزایش ( FMAS ) چندعامله فازی چهار لایه قطعیت پیشگویی ارائه نمودند. ایشان بازار سهام را سیستمی پیچیده توضیح داده و اظهار نموده اند برای تصمیم گیری های سرمایه گذاری در آن نیاز به مدلی استوار می باشد. رویکردهای چندعامله پیچیدگی سیستم را کاهش می دهند چرا که سیستم را به اجزای مستقل کوچکتری تقسیم نموده که هر یک از آنها را با بهترین روش خاص آن حل خواهند نمود و در نهایت حل مساله سیستم پیچیده را به دست می آورند. معماری سیستم چندعامله ارائه شده در تحقیق مذکور شامل لایه های زیر می باشد:
لایه 1: لایه ایجاد متاداده می باشد که در آن داده های سهام از منابع داده بیرونی به دست آمده و توسط متخصصان علم داده متاداده آن ایجاد می گردد.
لایه 2: در این لایه پیش پردازش داده ها صورت می گیرد. انتخاب ویژگی ها به کمک تحلیل رگرسیون مرحله ای و نیز مدولار نمودن مساله پیش گویی به کمک خوشه بندی با شبکه عصبی مصنوعی SOM در این لایه صورت می پذیرد.
لایه 3: این لایه مسئولیت مدلسازی و ارزیابی آن برای هر یک از خوشه ها به کمک سیستمهای فازی ژنتیک را به عهده دارد.
لایه 4: در این لایه تحلیل مدل و نمایش دانش انجام می شود. تحلیل حساسیت مدل، دقت پیش گویی و ارائه بهنگام سناریوهای جایگزین تصمیم گیری در فرایندهای شبیه سازی چه-اگر در این لایه انجام می شود.
خروجی هر یک از لایه ها به کمک پروتکل های طراحی شده به لایه دیگر منتقل می شوند. مدل ارائه شده روی داده های سهام چهار شرکت کار گرفته شد و کارایی آن با پنج مدل دیگر که قبلا برای پیشگویی قیمت سهام به کار گرفته شده بودند با شاخص خطا MAPE مقایسه گردید. نتایج مقایسه به شرح جدول شماره ‏22 بوده است.
جدول شماره STYLEREF 1 \s ‏2 SEQ جدول_شماره_ \* ARABIC \s 1 2: مقایسه نتایج پیش گویی مدل ارائه شده با مدلهای دیگرمدل IBM British Airways Ryanair Dell
HMM 219/1 629/2 928/1 012/1
GA و ANN ، هیبرید HMM 849/0 646/1 377/1 669/0
HMM هیبرید و منطق فازی 779/0 529/1 356/1 405/0
ARIMA 972/0 573/1 504/1 660/0
ANN 972/0 283/2 504/1 660/1
مدل ارائه شده FMAS 630/0 440/1 240/1 420/0
نتایج نشان دهنده آن است که الگوریتم ترکیبی FMAS نتایج مطلوبتری نسبت به پنج الگوریتم رقیب ارائه می نماید.
تحقیقات صورت گرفته در پیش گویی قیمت سهام در بازارهای پول و سرمایه نشان دهنده میزان علاقه مندی محققان به حل مساله پیش گویی در بازارهای پول و سرمایه نه تنها به دلیل تقاضای بالای تحلیل گران و سرمایه گذاران آن بازار بلکه به دلیل پیچیدگی رفتار آن بازار می باشد. تحقیقات بسیار گسترده ای در این زمینه صورت گرفته و نتایج متفاوتی به دست آمده است لکن تاکنون هیچ مدل و یا الگوریتمی که قابلیت تعمیم پذیری آن به اثبات رسیده باشد اعلام نگردیده است.
تصویر کلی به تحقیقات پیشین چنین می نماید که تحقیقات نسل ابتدایی با الگوریتمهای شبیه سازی CITATION Dyc84 \l 1065 [8] و CITATION Mal72 \l 1065 [9] آغاز گردید و به دلیل حجم محاسبات در زمان تحقیقات و نتایج با عدم قطعیت زیاد اینگونه روشها توسعه نیافتند. نسل دوم تمرکز بر روشهای سری های زمانی داشتند. به مرور زمان عدم کارایی این الگوریتمها به دلیل رفتارهای غیر خطی بسیار زیاد بازارهای سهام آشکار گردید. الگوریتمهای مذکور به نحو مطلوبی قادر به در نظر گرفتن رفتارهای پیچیده سهام نبوده اند و در شرایط آشوب عموما فاقد قطعیت مورد نیاز در پیش گویی بودند.
به مرور زمان نسل سوم تحقیقات، الگوریتمهای هوش مصنوعی و به ویژه ترکیب الگوریتمهای هوش مصنوعی با روشهای سری زمانی (مانند CITATION Kaa96 \l 1065 [10]) را به منظور حل مساله پیش گویی قیمت سهام به کار گرفتند. این الگوریتمها توانایی مناسبی در پیشگویی قیمت یا روند سهم نسبت به الگوریتمهای قبلی داشتند. اگر چه این الگوریتمها توانایی بهتری در مواجه با شرایط آشوب و غیرخطی نسبت به مدلهای قبلی داشتند لکن کماکان سطح قابل اطمینانی در مواجهه با شرایط آشوب ارائه نمی نمودند. الگوریتمهای ترکیبی هوش مصنوعی و بهینه سازی تکاملی در نسل چهارم نشان داده اند که به نحو مناسبتری می توانند رفتارهای غیرخطی را در نظر بگیرند. خلاصه یافته های این تحقیق با مرور تحقیقات پیشین به شرح جدول شماره ‏23 می باشد.
جدول شماره STYLEREF 1 \s ‏2 SEQ جدول_شماره_ \* ARABIC \s 1 3: نسل بندی روشهای تحقیق در پیش بینی قیمت سهمنسل اول نسل دوم نسل سوم نسل چهارم
روشهای شبیه سازی روشهای سری های زمانی روشهای هوش مصنوعی و ترکیبی با سری های زمانی روشهای هوش مصنوعی و ترکیبی با الگوریتمهای تکاملی و سری های زمانی
مرور تحقیقات نسل چهارم مشخص می نماید که تمرکز بر الگوریتمهای ژنتیک، بهینه سازی ازدحام ذرات بیش از سایرین می باشد. تعداد بسیاری از تحقیقات سال های اخیر نشان می دهند که الگوریتم های مذکور در بسیاری موارد در پیش بینی های مختلف در حوزه بازارهای پول و سرمایه به کار گرفته شده اند. الگوریتم رقابت استعماری در سال 2007 ارائه گردید و در مواردی مورد وثوق محققان قرار گرفته است. سابقه تحقیقات زیادی در به کارگیری این الگوریتم نسبتا جدید در پیش بینی بازارهای پولی و سرمایه یافت نشد لکن اخیرا در تحقیقاتی مانند CITATION Rez13 \l 1065 [11]، کارا بودن این الگوریتم در پیش بینی قیمت سهم مورد بررسی قرار گرفته اند.
2-2 انتخاب/ استخراج ویژگی در قیمت سهم در تحقیقات پیشینبا توجه به حجم زیاد داده های مالی که در تحلیل و پیش بینی های قیمت سهام شرکتها در بورس اوراق بهادار به کار گرفته می شود کاهش داده ها از ارزش ویژه ای برخوردار است. تحقیقات بسیاری در حوزه کاهش داده ها با روشهای گوناگون صورت گرفته است و نتایج آنها مورد استفاده های کاربردی قرار گرفته اند.
در تحقیقی CITATION محم84 \l 1065 [12] محققان با به کارگیری رگرسیون خطی کلاسیک و خود رگرسیون ناهمسان واریانس شرطی دریافته اند که روز شنبه بازدهی مثبت و معنی دار داشته و در کنار آن روز یکشنبه بازدهی منفی و معنی داری دارد.
تحقیقی دیگر CITATION رضا87 \l 1065 [13] بی قاعدگی های غیر تقویمی و بی قاعدگی های تقویمی را طبقه بندی نموده است. بی قاعدگی های غیر تقویمی شامل اثر تجزیه سهم، اثر بازده سود سهام، اثر سود نقدی سهم، اثر سهام با قیمت پایین، اثر معامله محرمانه، اثر انتشار اطلاعات، اثر بیش واکنشی بازار، اثر کم واکنشی بازار، اثر خاص کشور، اثر عرضه اولیه سهم، اثر شاخص، اثر تاخیر در ارائه گزارش سودآوری، اثر سودهای شگفت آور، اثر شرکت از قلم افتاده، اثر قیمت پیش از انتشار اعلامیه سود، اثر بازگشت به میانگین طی دوره بلند مدت بر شمرده شده و اثر چرخش سیاسی، اثر تابستان، اثر روزهای تعطیل یا اثر روزهای قبل از روزهای تعطیل، اثر روزهای آخر هفته، اثر چرخش ماه (نیمه اول ماه)، اثر ماه های خاص سال و اثر پایان سال به عنوان بی قاعدگی های تقویمی ثبت شده اند. در آن تحقیق با به کارگیری رگرسیون با متغیرهای مستقل مجازی اثر معنی دار بر بازدهی در روزهای ماه های محرم، رمضان و صفر به اثبات رسیده اند.
جداسازی فرصتهای معاملاتی سودآوری که برای دوره ای ماندگار است به کمک روش بازنمونه گیری بوت استرپ ناپارامتریک برای بررسی و پیش بینی الگوی دوره ای در بازدهی ماهانه سهام در تحقیق دیگیری CITATION محس90 \l 1065 [14] بررسی گردیده است.
محققان دیگری CITATION فاط91 \l 1065 [15] در بورس اوراق بهادار تهران به کمک رگرسیون فازی با توابع عضویت مثلثی اقدام به فازی سازی متغیرهای مجازی نموده و بدین ترتیب اثر ابهامات و رفتارهای غیرخطی انسانی را در نظر گرفتند. خروجی این تحقیق بازده مثبت معنی دار روزهای یکشنبه و بازده منفی معنی دار روزهای سه شنبه را نشان می دهد.
روش فیلترهای وفقی با روش جستجوی الگوریتم حداقل میانگین مربعات (LSM) جهت تغییرات ضرایب فیلتر در مدل رگرسیون و مقایسه با نتایج مدل های گارچ توسط محققان دیگری CITATION شمس92 \l 1065 [16] مورد استفاده قرار گرفت. نتیجه شفاف شدن بازدهی مثبت معنی دار در روزهای یکشنبه بوده است.

: مبانی نظری تحقیق3-1 بازار بورس اوراق بهاداربازار بورس اوراق بهادار بازاری است که در آن قیمت سهام شرکتهای سرمایه پذیر و سایر اوراق بهادار قابل معامله با رقابت عرضه و تقاضا بین خریداران و فروشندگان تعیین می گردد.
هر شخصیت حقوقی و یا حقیقی می تواند با دریافت کد معامله با هر میزان سرمایه در این بازار اقدام به معامله خرید و یا فروش نماید. هر فعال این بازار بر اساس نتایج تحقیقات و بررسی های خود تصمیم به خرید و یا فروش سهام شرکتی می نماید و بدین ترتیب سود و یا زیان خود را رقم می زند. اندازه این بازار بیش از 342 هزار میلیارد تومان در نیمه اول سال 1393 بوده و سهام بیش از چهارصد و پنجاه شرکت سرمایه پذیر در 35 صنعت و کسب و کار در این بازار ارائه گردیده اند.
هر معامله گر با بررسی وضعیت عملکرد مالی ، پروژه ها و توانمندیهایی رقابتی و توسعه ای و نیز وضعیت کسب و کار شرکت مورد علاقه خود در مقایسه با سایر کسب و کارها و شرکتها تصمیم به خرید و یا فروش سهم آن شرکت می گیرد. سایتهای رسمی زیر که تحت نظر سازمان بورس اوراق بهادار می باشند انواع اطلاعات معاملات و برخی شاخصهای مالی مورد نیاز جهت تحلیل های تصمیم گیری را در اختیار فعالان قرار می دهند:
www.tse.ir
www.tsetmc.com
www.irbourse.com
www.seo.ir
3-2 تکنیکهای رایج تحلیل و پیش بینی قیمت سهاممعامله گران بورس عموما از یکی و یا ترکیب دو رویکرد تکنیکال و بنیادین در تحلیل معاملات استفاده می کنند. در رویکرد تکنیکال فرض اساسی آن است که اثر هرگونه عامل اثرگذار در قیمت سهم در دل پیشینه روندها و رفتار قیمت سهم وجود دارد. بر این اساس تحلیل گران این مکتب تمرکز خود را بر بررسی رفتار قیمت سهم در گذشته قرار داده و سعی می کنند با کشف الگوهای مشخصی، رفتار قیمت سهم در آینده را پیش بینی کنند. برای بهبود تحلیلهای این گروه، برخی شاخصهای ترکیبی نیز مانند MACD، RSI، STO، ADX توسط نرم افزارهای طراحی شده جهت تحلیل های تکنیکیال در اختیار ایشان قرار می گیرد. REF _Ref421017548 \h شکل شماره ‏31 نمونه ای از نمودارهای مورد استفاده در رویکرد تکنیکال است.

شکل شماره STYLEREF 1 \s ‏3 SEQ شکل_شماره_ \* ARABIC \s 1 1 : نمونه ای تحلیل قیمت سهم با ابزارهای رویکرد تحلیل تکنیکالدر تحلیل بنیادین، تحلیل گران با بررسی صورتهای مالی و گزارش عملکرد و برنامه و بودجه شرکت اقدام به بررسی توان سودآوری شرکت می نمایند و بر آن اساس تصمیم به خرید و یا فروش سهم آن شرکت می گیرند. پایداری سودآوری، نسبت مطالبات به بدهی ها، رفتار و مدیریت هزینه ها، آنالیز اجزای بهای تمام شده، ترکیب سهام داران شرکت، وضعیت گردش وجوه نقد، پروژه های توسعه ای و سرمایه گذاری ها و نیز بازار محصولات و خدمات شرکت از جمله عواملی هستند که توسط این گروه تحلیل گران مد نظر قرار می گیرند.
به صورت خلاصه می توان عنوان نمود عموما تحلیل تکنیکال اغلب با هدف تجارت (معامله) در کوتاه مدت به کمک چارتها و نمودارهای قیمت و حجم معامله صورت می گیرد در حالی که تحلیل بنیادین به منظور سرمایه گذاری بلند مدت بوده و به کمک کلیه فاکتورهای کمی و کیفی و صورتهای مالی صورت می پذیرد.
3-3 تکنیکهای نوین تحلیل داده هاتکنیکهای تحلیل تکنیکال و بنیادین هر دو بسیار به تجربه و صلاحیتهای فردی تحلیل گر وابسته هستند. انتخاب فاکتورهای مختلف، تعیین وزن نسبی هر یک و چگونگی قرار دادن آنها در کنار هم به منظور ایجاد یک تصمیم قابل اعتماد تنها از عهده یک تحلیل گر چیره دست بر می آید. آیا تکنیکهای روز تحلیل داده ها می تواند چنین نقشی را ایفا نمایند؟ بدون شک در سالهای اخیر شاهد پیشرفت علوم داده پردازی بوده ایم. دانش جدید داده کاوی به عنوان بستر اصلی الگوریتمها و روشهای پردازش و تحلیل داده ها جایگاه خود را در میان تحلیل گران باز نموده و کمک های اثربخشی را ارائه می نماید.
3-3-1 داده کاویسیر تحول داده به اطلاعات، اطلاعات به دانش و دانش به خرد را هر علاقه مند حوزه اطلاعات می شناسد. علاقه مندی انسان به تحلیل، سناریوپردازی و پیش گویی رویدادها این سیر تحول را ترسیم نموده است. نیاز به بقاء در انسان بدوی او را ملزم به کنترل داده وجود ذخیره غذایی می کرد. وی با دریافت آن داده اقدام به شکار و یا استراحت می نمود. آسیبهای محیطی بسیار مانند بارندگی نیاز به پیش بینی تحلیلی را در انسان پدید آورد. انسان با کنار هم قرار دادن داده دمای هوا، وجود ابرهای سیاه در آسمان، سرعت حسی باد و تجربیات شرایط بارندگی های گذشته، سعی در اطلاعات سازی و آماده شدن برای شرایط بارندگی نمود. پدیده های پیچیده و پیچیده تری پیش روی انسان قرار گرفتند. هیجان پیش بینی بروز هر پدیده در انسان سبب پیدایش علوم گوناگونی گردید. محققان و اندیشمندان علوم گوناگون مدلهای بی شماری را برای دستیابی به هدف تحلیل و پیش بینی ارائه نمودند. انواع فرمولهای فیزیک و شیمی، فرمولهای مقاومت مصالح، روشهای ریاضی بهینه سازی، مدلهای تصمیم گیری چند معیاره و بسیاری مدل دیگر در این سیر تحول به وجود آمدند. در این بین، حل بسیاری از مسائل پیچیده تر نیاز به داده های متنوع و بیشتر و بیشتر را می طلبید. کسری داده های مورد نیاز هم در متغیرها و هم در حجم داده و نیز عدم وجود زیرساخت محاسباتی کارا جهت محاسبات و تحلیل داده های بزرگ مبنای ایجاد روشهای بر مبنای نمونه گیری گردید. علم آمار در این افق زمانی خدمات بسیاری در تحلیلها ارائه نمود. با به کار گیری مدلها و روشهای مبتنی بر نمونه گیری های آماری خدمات و پیشرفتهای شگرفی در علوم مختلف به دست آمد لکن نرخ این پیشرفتها به مرور زمان کند گردید. علت این کاهش، پیچیده تر شدن مسائل دنیای واقعی و عدم کفایت تحلیلهای نمونه ای در حل آنها بود. گویا نقش به ناچارِ علمِ آمارِ نمونه ای در حال از بین رفتن بوده و حل مسائل پیچیده دنیای واقعی امروز، روشهایی را طلب می کنند که بتوانند حجم کل داده ها را فراهم و تحلیل کنند. یکی از مشکلات محاسبات داده ها، قدرت پردازشگرها بود. طبق قانون مور، قدرت محاسبات پردازشگرها هر هجده ماه دو برابر می شد و این نویدبخش تامین زیرساخت مواجهه با مشکل محاسبات داده های بزرگ بود. امروزه بسیاری از منابع داده ای، به شکل استاندارد شده قابل دستیابی و به کارگیری بوده و پردازشگرهای نوین با سرعت بسیار زیاد، مناسب برای محاسبات داده های بزرگ ایجاد شده و در حال بهبود و ترقی می باشند.
با رفع مشکلات زیرساختی داده پردازی در کنار نیاز انسان به حل مسائل پیچیده دنیای واقعی، علوم جدیدی مانند دانش داده کاوی ظهور نمود. ماموریت دانش نوین داده کاوی کشف دانش پنهان در داده های بزرگ می باشد. پاسخ سئوالاتی مانند "اگر مشتری، کالای الف و ب را خرید کند حتما کالای ج را نیز خرید خواهد کرد؟" ، "آیا سهام شرکت الف جز گروه سهام های سریع نقد شونده خواهد بود؟"، "قیمت دلار در سه روز آینده چند خواهد بود؟"، "شکل و جهت رشد سلولهای سرطانی در ریه بیمار در هفته آینده چطور خواهد بود؟" را داده کاوی خواهد داد.
مراحل انجام این تحقیق مطابق فرایند CRISP داده کاوی CITATION جما92 \l 1065 [17] صورت خواهد گرفت. این فرایند به صورت گسترده ای از طرف کاربران صنعتی داده کاوی مورد استفاده قرار گرفته است. این مدل از شش مرحله که به صورت یک فرایند حلقه ای است و در شکل شماره ‏32 نشان داده شده است تشکیل می گردد.

شکل شماره STYLEREF 1 \s ‏3 SEQ شکل_شماره_ \* ARABIC \s 1 2 : فرایند CRISPمراحل این فرایند به صورت زیر است:
مرحله تعریف مساله شامل تعریف هدف، ارزیابی شرایط فعلی، تعریف اهداف داده کاوی و ایجاد برنامه زمانبندی پروژه است.
وقتی که هدف مساله مشخص شد و برنامه ریزی پروژه انجام گرفت مرحله تحلیل داده ها نیازمندی های داده ای را مورد مطالعه قرار می دهد. این مرحله شامل تهیه مجموعه داده های اولیه، توصیف داده ها، کنکاش داده ها و ارزیابی کیفیت داده ها می باشد. کنکاش داده ها شامل مشاهده پارامترهای آماری، می تواند در پایان این مرحله نیز اتفاق بیافتد. مدلهایی مثل خوشه بندی می تواند در طول این گام به منظور شناسایی الگوها در داده ها انجام گیرد.
زمانی که منابع در دسترس مشخص شدند، باید داده ها از آنها انتخاب شوند، پاک شوند و در قالب مورد نظر ریخته شوند. همچنین کنکاش عمیق تر داده ها نیز در طول این مرحله که مرحله آماده سازی داده ها می باشد می تواند انجام گیرد. به علاوه ممکن است مدل های دیگری نیز به کار روند تا بتوان الگوها را بر اساس تعریف مساله استخراج نمود.
ابزارهای نرم افزاری داده کاوی همچون تصویرسازی و تحلیل خوشه بندی برای تحلیل های اولیه مفید هستند. ابزارهایی مانند شناسایی قوانین عمومی می تواند قوانینی همبستگی اولیه را استخراج کند. وقتی که فهم بیشتری از داده ها به وسیله شناسایی الگو که با توجه به خروجی های مدلهای اولیه حاصل می شود افزایش می یابد مدلهای تخصصی تر بر حسب نوع داده می تواند مورد استفاده قرار بگیرد. این فعالیت در مرحله مدلسازی صورت می گیرد.
نتایج مدلهای استفاده شده در مراحل قبلی باید در بستر مساله تعریف شده و اهداف تعریف شده در مراحل بعد مورد ارزیابی قرار بگیرد. این کار منجر به شناسایی نیازمندی های بعدی خواهد شد. این نیازها اغلب شامل بازگشت به مراحل قبلی در فرایند CRISP است. تعریف مساله در داده کاوی، فرایند تکراری با بازگشت به عقب است که در آن نتایج اقدامات مدلسازی مختلف و تکرار آنها روابط جدید بین داده ها را به کاربر نشان می دهد که باعث درک عمیق تر از مساله برای کاربر خواهد شد.
داده کاوی هم می تواند برای بررسی صحت فرضیه هایی که قبلا وجود داشته مورد استفاده قرار می گیرد و هم برای کشف دانش: یعنی شناسایی روابط غیر منتظره و مفید. به کمک دانش کشف شده در مراحل قبلی فرایند CRISP مدلهای درست و منطقی حاصل می شوند که می توان آنها را در تجارت و کسب و کار برای اهداف مختلف به کار برد. این اهداف می توانند شامل پیش بینی یا شناسایی شرایط حساس و کلیدی باشند. مدلهای به دست آمده باید در حین استفاده مورد پایش قرار گیرند چرا که چیزی که امروز درست است ممکن است یک سال دیگر درست نباشد، بنابراین اگر تغییرات اساسی در طول استفاده از مدلها به وجود بیاید مدلها باید مجددا ایجاد شوند. از طرفی نتایج حاصل از پروژه های داده کاوی باید ثبت شوند چنانکه اسناد تهیه شده در مطالعات آتی مورد استفاده قرار گیرند.
این فرایند شش مرحله ای به هیچ وجه غیر منعطف نیست. یعنی بسته به شرایط مساله، برخی از مراحل ممکن است حذف شوند یا مورد تاکید بیشتری قرار گیرند.
داده کاوی به منظور کشف دانش پنهان در داده بزرگ از روشها و تکنیکهای زیر استفاده می نماید:
قواعد انجمنی :الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ
ترتیب: الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک
پیش بینی: در پیش بینی، هدف پیش بینی یک متغیر پیوسته می باشد. مانند پیش بینی نرخ ارز یا هزینه های درمانی
دسته بندی: فرآیندی برای پیدا کردن مدلی است که رده های موجود در داده‌ها را تعریف می نماید و متمایز می کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها(متغیر هدف) ناشناخته می باشد، استفاده نمود. در حقیقت در رده بندی بر خلاف پیش بینی، هدف، پیش بینی مقدار یک متغیر گسسته است. روش های مورد استفاده در پیش بینی و دسته بندی عموما یکسان هستند.
خوشه بندی: گروه بندی مجموعه ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه های دیگر داشته باشند.
بصری سازی: مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد.
داده کاوی در هر یک از تکنیکهای اشاره شده در بالا از انواع متدها و الگوریتم هایی مانند رگرسیون، آمار توصیفی، آنالیز واریانس، شبکه عصبی مصنوعی، ماشینهای بردار پشتیبان و غیره به فراخور استفاده می نماید.
3-3-2 شبکه عصبی مصنوعیبشر از دیرباز علاقه مند به پیاده سازی ساختار پردازش مغز انسان در یک سیستم مصنوعی بوده است. مغز انسان به عنوان برترین سیستم پردازش شناخته شده، با دریافت انواع ورودی های اطلاعاتی خروجی های مورد انتظار را در سریعترین زمان ممکن و با بهترین دقت می تواند ارائه نماید. دانشمندان و محققان علوم مختلف همواره کوشیده اند تا از این قابلیت متمایز در پردازش اطلاعات و پاسخ به سئوالات رشته علمی خود بهره مند شوند.
نورون کوچکترین واحد پردازش اطلاعات تاکنون شناخته شده سیستم پردازش مغز انسان است که تاکنون شناخته شده است. REF _Ref412629582 \h \* MERGEFORMAT شکل شماره ‏33 نمایشی از یک نورون می باشد.

شکل شماره STYLEREF 1 \s ‏3 SEQ شکل_شماره_ \* ARABIC \s 1 3 : ساختار یک نورونهر نورون از سه بخش اصلی تشکیل شده است: هسته، دندریت، اکسون. دندریتها سیگنالهای الکتریکی را از اکسونهای نورونهای دیگر دریافت نموده و آن را به هسته نورون تحویل می دهند. هسته نورون پس از پردازش ورودی ها، سیگنال الکتروشیمیایی به عنوان خروجی تحویل اکسون داده و اکسون آن را تحویل دندریت نورون های دیگر می دهد. محل تلاقی اکسون و دندریت را سیناپس و اتصال آن دو را اتصال سیناپسی که نوعی خاص از اتصال بیولوژیک می باشد می نامند.
شبکه عصبی مصنوعی CITATION Hag96 \l 1065 [18] مدلی محاسباتی الهام گرفته از شبکه عصبی مغز می باشد که با دریافت داده های ورودی، تخمین و یا تابع تقریب را شکل داده و خروجی مورد انتظار را ارائه می نماید. شبکه عصبی مصنوعی در طراحی تابع تقریب به عنوان مثال در پیش بینی سری های زمانی، دسته بندی و شناسایی الگو، پردازش داده ها مثلا در خوشه بندی و فیلترسازی داده ها کاربرد دارند. تشخیص صدا، تشخیص متن، هدایت مسیر ربات نمونه های دیگری از کاربردهای شبکه عصبی مصنوعی هستند. شبکه عصبی مصنوعی سرعت محاسباتی قابل قبولی داشته، در شرایط جدید می تواند پاسخ یکتا ارائه نماید و ضمنا از تجربیات گذشته می آموزد لکن از آنجا که منطق و قاعده کار آن به خوبی قابل تفسیر نیست، به منظور تست و روایی آن نیاز به حجم زیادی داده است.
ساختار شبکه عصبی مصنوعی شامل چندین نورون در لایه بندی مشخص می باشد که با دریافت ورودی ها، خروجی ایجاد می نماید. REF _Ref412629599 \h \* MERGEFORMAT شکل شماره ‏34 نمونه ای از یک شبکه عصبی مصنوعی را نشان می دهد.

شکل شماره STYLEREF 1 \s ‏3 SEQ شکل_شماره_ \* ARABIC \s 1 4 : نمونه ای از یک شبکه عصبی مصنوعی با یک لایه پنهانانواع مختلفی از شبکه عصبی مصنوعی تاکنون ارائه گردیده است که از آن جمله می توان به موارد زیر اشاره نمود:
شبکه عصبی پیش رو، شبکه عصبی RBF، شبکه عصبی نگاشت خود سازمانده، شبکه عصبی LVQ، شبکه عصبی برگشتی، شبکه عصبی مدولار.
در شبکه های عصبی پیش رو، یک نورون را به صورت شکل شماره ‏35 در نظر بگیرید:

شکل شماره STYLEREF 1 \s ‏3 SEQ شکل_شماره_ \* ARABIC \s 1 5 : نمونه نورون در شبکه عصبی مصنوعی پیشروخروجی هر نورون به صورت معادله (1) محاسبه می شود:
معادله (1) Oj=f(i=1nwiXi+bj)که در آن Oj خروجی نورون j ام، Xi ورودی i ام، wi وزن اثر ورودی i ام و bj بایاس نورون j ام می باشد. همچنین f تابع انتقال (فعال سازی) بوده که تعداد متعددی تابع برای آن پیشنهاد گردیده است. به عنوان مثال می توان به تابع سیگموئید و تابع تانژانت هایپربولیک اشاره نمود.
ورودی ها، تابع فعالسازی و فرمول محاسبه خروجی مشخص می باشند و تنها متغیر مجهول باقیمانده برای محاسبه خروجی وزن اثر هر یک از ورودی ها می باشند. به فرایند تعیین وزن اثر هر یک از ورودی ها در شبکه عصبی مصنوعی، فرایند آموزش و یا یادگیری گفته می شود. به طور کلی، تعیین وزن متغیرها با به کارگیری الگوریتمهای مرحله ای صورت می گیرد. رمز موفقیت شبکه عصبی مصنوعی در تعیین هر چه اثربخش تر وزنهای ورودی ها و یا به عبارتی آموزش مطلوبتر شبکه می باشد. یکی از روشهای عمومی تعیین وزن ورودی ها به کارگیری الگوریتم پیش انتشار خطا می باشد. در این روش، با مقایسه خروجی هر مرحله با خروجی مورد انتظار، خطای محاسبه تعیین گردیده و با محاسبه گرادیان خطا و بازتخصیص وزن ها به هر نورون در هر اجرا اقدام به بهینه سازی وزن ها و آموزش شبکه عصبی مصنوعی می شود. REF _Ref421017674 \h \* MERGEFORMAT جدول شماره ‏31 CITATION Pau94 \l 1033 [19] شبه کد الگوریتم پیش انتشار خطا را نمایش می دهد.
جدول شماره STYLEREF 1 \s ‏3 SEQ جدول_شماره_ \* ARABIC \s 1 1: شبه کد الگوریتم پیش انتشار خطاinitialize network weights (often small random values)
do
forEach training example ex
prediction = neural-net-output(network, ex) // forward pass
actual = teacher-output(ex)
compute error (prediction - actual) at the output units
compute for all weights from hidden layer to output layer // backward pass
compute for all weights from input layer to hidden layer // backward pass continued
update network weights // input layer not modified by error estimate
until all examples classified correctly or another stopping criterion satisfied
return the network
برای آموزش شبکه عصبی مصنوعی الگوریتم های دیگری توسط محققان پیشنهاد گردیده است. الگوریتمهای بهینه سازی کلاسیک مورد اشاره در روشهای تحقیق در عملیات، روشهای ابتکاری و فراابتکاری بهینه سازی و نیز الگوریتم های بهینه سازی تکاملی مانند الگوریتم ژنتیک و الگوریتم بهینه سازی ازدحام ذرات از ان جمله اند.
به منظور طراحی و معماری شبکه عصبی مصنوعی می باید تعداد لایه ها و تعداد نورون ها در هر لایه به همراه تابع فعالسازی را مشخص نمود. عموما تعداد لایه پنهان بیش از سه عدد سبب بیش برازش شده و مدل به جای یادگیری اقدام به حفظ کردن می نماید. تعداد نورون های در هر لایه نیز با توجه به محدودیتهای محاسباتی و اثرگذاری بر قطعیت خروجی شبکه عصبی مصنوعی تعیین می گردد. عموما در شبکه عصبی مصنوعی با یک لایه پنهان، تعداد نورون ها در لایه پنهان از جذر ضرب تعداد نورون های ورودی در تعداد نورون های خروجی تخمین زده می شود. تابع فعالسازی نیز حسب ماهیت رفتار داده مورد بررسی از بین توابع اشاره شده انتخاب می گردد.
برای محاسبه دقت و یا خطای شبکه عصبی مصنوعی از شاخصهای متنوعی استفاده می گردد که پرکاربردترین آنها میانگین مربع خطا (mse) و جذر میانگین مربع خطا (rmse) می باشند.
3-3-3 الگوریتمهای تکاملیالگوریتم های متعددی با عنوان الگوریتمهای تکاملی توسط محققان ارائه شده اند. ایده کلی در کلیه اینگونه الگوریتمها مشابه یکدیگر می باشد: بر روی یک جمعیت از اعضاء به علت طبیعی ای انتخاب صورت می گیرد (بقای منطبق) و این سبب افزایش میزان تطبیق جمعیت می شود. با در نظر گرفتن یک تابع هزینه به صورت تصادفی مجموعه راه حلهای کاندیدا انتخاب می شود. بر اساس این تطبیق برخی از بهترین کاندیداها برای رفتن به نسل بعد با به کارگیری بازترکیب و یا جهش انتخاب می شوند. بازترکیب عملگری است که روی دو یا بیشتر کاندیدای انتخاب شده اعمال شده و یک یا بیشتر کاندیدای جدید ایجاد می نماید. جهش روی یک کاندیدا صورت گرفته و یک کاندیدای جدید ایجاد می نماید. کاندیداهای خروجی بازترکیب و یا جهش مجموعه جدیدی را تشکیل داده و بر سر میزان تطبیق برای رفتن به نسل بعد با مجموعه کاندیداهای قبلی به رقابت می پردازند. این مراحل تا آنجا که یکی از کاندیداها سطح کیفیت مورد انتظار را برآورده نماید و یا حد مورد انتظار از پیش تعیین شده ای ارضاء شود تکرار می شود. در الگوریتمهای تکاملی، تکامل به سمت بهینگی است و یا حداقل نزدیکی. به صورت کلی، تکامل یک فرایند تطبیق است. به عبارت دیگر، الگوریتم تکاملی جمعیت را با محیط بیشتر و بیشتر تطبیق می دهد. شکل کلی الگوریتمهای تکاملی در شبه کد جدول شماره ‏32 نمایش داده شده است.
جدول شماره STYLEREF 1 \s ‏3 SEQ جدول_شماره_ \* ARABIC \s 1 2: شبه کد عمومی الگوریتم های تکاملیBEGIN
INITIALISE population with random candidate solutions;
EVALUATE each candidate;
REPEAT UNTIL (TEMINATION CONDITION is satisfied) DO
1 SELECT parents;
2 RECOMBINE pairs of parents;
3 MUTATE the resulting offspring;
4 EVALUATE new candidates;
5 SELECT individuals for the nxt generation;
DO
END
REF _Ref412629788 \h \* MERGEFORMAT شکل شماره ‏36 در قالب فلوچارت الگوریتمهای تکاملی را نمایش می دهد:

شکل شماره STYLEREF 1 \s ‏3 SEQ شکل_شماره_ \* ARABIC \s 1 6 : فلوچارت عمومی الگوریتم های تکاملیاجزای اصلی الگوریتمهای تکاملی عبارتند از عضو، تابع تکامل (تابع تطبیق)، جمعیت، مکانیزم انتخاب والدین، عملگر بازترکیب و جهش، مکانیزم انتخاب بازماندگان (مکانیزم جایگزینی).
از شناخته شده ترین الگورتمیهای تکاملی می توان به الگوریتمهای زیر اشاره نمود:
الگوریتم ژنتیک، الگوریتم توده مورچگان، الگوریتم توده زنبور عسل، الگوریتم استراتژی تکامل، الگوریتم تبرید شبیه سازی شده، الگوریتم بهینه سازی ازدحام ذرات
3-3-3-1 الگوریتم ژنتیکالگوریتم ژنتیک CITATION JSG05 \l 1065 [20] روش یادگیری بر پایه تکامل بیولوژیک است که در سال 1970 توسط John Holland معرفی گردید. یک الگوریتم ژنتیک برای حل یک مساله مجموعه بسیار بزرگی از راه حل های ممکن را تولید می کند. هر یک از راه حل ها با استفاده از یک تابع تناسب مورد ارزیابی قرار گرفته و تعدادی از بهترین راه حل ها در فرایندی به نام تکامل کاندید تولید راه حل های جدید می شوند. بدین ترتیب فضای جستجو در جهتی تکامل پیدا می کند که به راه حل مطلوب برسد.
الگوریتم ژنتیک در مسائلی که فضای جستجوی بزرگی داشته باشند می تواند به کار گرفته شود. همچنین در مسائلی که با فضای فرضیه پیچیده که تاثیر اجزای آن در فرضیه کلی ناشناخته باشند می توان از این الگوریتم برای جستجو استفاده نمود. بهینه سازی گسسسته از دیگر کاربردهای این الگوریتم بوده و مزیت حداقل بودن احتمال به تله افتادن در کمینه محلی در آن نسبت به سایر الگوریتم های تکاملی مناسب تر می باشد. این الگوریتم از لحاظ محاسباتی پرهزینه بوده و ضمنا تضمینی برای رسیدن به جواب بهینه ندارد.
روش متداول پیاده سازی الگوریتم ژنتیک بدین ترتیب می باشد که ابتدا مجموعه ای از حل ها (کاندیداها) که جمعیت نامیده می شود تولید و به طور متناوب با حل های دیگر جایگزین می شوند. در هر مرتبه، تمامی حل ها با استفاده از یک تابع تناسب مورد ارزیابی قرار داده می شوند. آنگاه تعدادی از بهترین حل ها با استفاده از یک تابع احتمال، انتخاب شده و جمعیت جدید را تشکیل می دهد. تعدادی از فرضیه های انتخاب شده به همان صورت مورد استفاده واقع شده و مابقی با استفاده از عملگرهای ژنتیکی نظیر ترکیب و جهش برای تولید فرزندان به کار می روند.
به صورت کلی می توان این الگوریتم را به صورت شبه کد جدول شماره ‏33 نمایش داد:
جدول شماره STYLEREF 1 \s ‏3 SEQ جدول_شماره_ \* ARABIC \s 1 3: شبه کد الگوریتم ژنتیک// Initialise generation 0:

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *