در مورد رگرسیون در ویکی تابناک بیشتر بخوانید
کلیات
رگرسیون Regression به لحاظ لغوی به معنی پسروی، برگشت و بازگشت است. اما اگر آن را از دید آمار و ریاضیات تعریف کنیم اغلب جهت رساندن مفهوم "بازگشت به یک مقدار متوسط یا میانگین” به کار میرود. بدین معنی که برخی پدیدهها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل میکنند.
در حقیقت تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدل سازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینهای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیشبینی مورد نیاز است.
میتوان گفت تحلیل رگرسیونی، پرکاربردترین روش در بین تکنیکهای آماری است. شمایی کلی و خلاصه شده از یک تحلیل رگرسیونی ساده به صورت زیر میباشد:
در ابتدا تحلیل گر حدس میزند که بین دو متغیر نوعی ارتباط وجود دارد، در حقیقت حدس میزند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع آوری اطلاعات کمی از دو متغیر میپردازد و این دادهها را به صورت نقاطی در یک نمودار دو بعدی رسم میکند.
در صورتی که نمودار نشان دهنده این باشد که دادهها تقریباً (نه لزوماً دقیق) در امتداد یک خط مستقیم پراکنده شده اند، حدس تحلیل گر تأیید شده و این ارتباط خطی به صورت زیر نمایش داده میشود:
y = a x + b
که در آن a عرض از مبدأ و b شیب این خط است.
متغیرها و خطا
بین برخی از نقاط و تصویر آنها بر روی خط رگرسیونی (خط y) کمی تفاوت به چشم میخورد که از آن به عنوان خطای برآورد یاد میکنیم.
این خطا ممکن است از خطا در اندازه گیری، شرایط محیط، تفاوتهای طبیعی و... ناشی شده باشد. بنابراین معادله اولیه را به صورت زیر اصلاح میکنیم:
y = ax + b + є
معادله بالا یک مدل رگرسیون خطی نامیده میشود. معمولاً به x متغیر مستقل (رگرسیونی) و به y متغیر وابسته (پاسخ) گفته میشود؛ که є خطای تصادفی است که برای کامل شدن مدل و نشان دادن این که خطا نیز تا حدی وجود دارد در نظر گرفته میشود.
فرضیات
معمولا فرض میشود که خطاها یکدیگر را خنثی میکنند، به عبارت دیگر مجموع خطاها برابر صفر است. همچنین فرض میشود خطای موجود در یک مشاهده رابطهای با خطاهای دیگر ندارد و در نهایت تغییرات بین خطاها ثابت در نظر گرفته میشود. این سه فرض برای ساختن یک مدل ضروری است و روشهای بسیاری برای پی بردن به وجود (یا عدم برقراری) این فرضها وجود دارد. یکی از دلایل استفادههای نادرست از رگرسیون معمولا نادیده گرفتن این فرضها است که موجب استدلالهای غلط خواهد شد.
در صورتی که در مدل رگرسیونی فقط یک متغیر مستقل وجود داشته باشد، مدل را مدل رگرسیونی خطی ساده مینامند.
روشهای رگرسیونی
تا این مرحله مدل رگرسیونی معرفی شده و کافی است پارامترهای مجهول مدل (در اینجا a و b) برآورد شوند. برآورد پارامترها در مدل سازی با استفاده از روشهای مختلف انجام میشود از جمله روش کمترین مربع خطا.
روش کمترین مربع خطا که یکی از روشهای مورد استفاده در تحلیل رگرسیونی است اولین بار توسط لژندر Legendre ریاضیدان فرانسوی در سال ۱۸۰۵ و گوس Gauss ریاضیدان مشهور آلمانی در سال ۱۸۰۹ معرفی و در مطالعات نجومی به کار برده شد.
پس تا این قسمت تحلیل گر مدلی مشخص را به عنوان الگویی برای دادهها معرفی کرده است. مرحله بعدی"کنترل مناسب بودن مدل" میباشد که مدل از نظر قابل استفاده بودن و این که تا چه حد میتواند خوب دادهها را بیان کند بررسی میشود و در مورد بکارگیری مدل تصمیم گرفته میشود. در نتیجه مدل یا قابل استفاده تشخیص داده میشود و یا اینکه باید اصلاح شود. بنابراین تحلیل رگرسیونی فرآیندی همراه با تکرار و بازنگری است، یعنی در ابتدا مدلی معرفی میشود، کیفیت مدل مورد بررسی قرار میگیرد، مدل قبول و یا اینکه مجدداً اصلاح میشود.
رابطه قد و وزن، رابطه عرضه و تقاضا در علم اقتصاد، تعیین رابطه بین سن افراد و فشارخون آنها، رابطه بین میزان مطالعه دانش آموزان و سطح نمرات آنها، رابطه بین نمرات و میزان قبولی در کنکور سراسری مثالهایی ساده در کاربرد رگرسیون هستند.
در مورد رگرسیون در ویکی تابناک بیشتر بخوانید
رئیس کمیته اپیدمیولوژی در ستاد مقابله با کرونا، گفت: ما با یک اپیدمی فعال و گسترده در سطح کشور اما کم علامت و کم خطر مواجه هستیم.
کد خبر: ۹۸۲۹۰۱ تاریخ انتشار : ۱۳۹۹/۰۳/۱۸