Войти
Логопедический портал
  • Богуславский, михаил соломонович
  • Михаил девятаев Девятаев михаил петрович герой советского
  • День, когда началась война
  • История зарождения и становления русской гвардии
  • Формула силы по закону гука
  • Как понять с какой платформы отправляется поезд
  • Параболическая регрессия. Уравнение параболической регрессии. Корреляционный анализ в Excel

    Параболическая регрессия. Уравнение параболической регрессии. Корреляционный анализ в Excel

    Имеются следующие данные разных стран об индексе розничных цен на продукты питания (х) и об индексе промышленного производства (у).

    Индекс розничных цен на продукты питания (х) Индекс промышленного производства (у)
    1 100 70
    2 105 79
    3 108 85
    4 113 84
    5 118 85
    6 118 85
    7 110 96
    8 115 99
    9 119 100
    10 118 98
    11 120 99
    12 124 102
    13 129 105
    14 132 112

    Требуется:

    1. Для характеристики зависимости у от х рассчитать параметры следующих функций:

    А) линейной;

    Б) степенной;

    В) равносторонней гиперболы.

    3. Оценить статистическую значимость параметров регрессии и корреляции.

    4. Выполнить прогноз значения индекса промышленного производства у при прогнозном значении индекса розничных цен на продукты питания х=138.

    Решение:

    1. Для расчёта параметров линейной регрессии

    Решаем систему нормальных уравнений относительно a и b:

    Построим таблицу расчётных данных, как показано в таблице 1.

    Таблица 1 Расчетные данные для оценки линейной регрессии

    № п/п х у ху x 2 y 2
    1 100 70 7000 10000 4900 74,26340 0,060906
    2 105 79 8295 11025 6241 79,92527 0,011712
    3 108 85 9180 11664 7225 83,32238 0,019737
    4 113 84 9492 12769 7056 88,98425 0,059336
    5 118 85 10030 13924 7225 94,64611 0,113484
    6 118 85 10030 13924 7225 94,64611 0,113484
    7 110 96 10560 12100 9216 85,58713 0,108467
    8 115 99 11385 13225 9801 91,24900 0,078293
    9 119 100 11900 14161 10000 95,77849 0,042215
    10 118 98 11564 13924 9604 94,64611 0,034223
    11 120 99 11880 14400 9801 96,91086 0,021102
    12 124 102 12648 15376 10404 101,4404 0,005487
    13 129 105 13545 16641 11025 107,1022 0,020021
    14 132 112 14784 17424 12544 110,4993 0,013399
    Итого: 1629 1299 152293 190557 122267 1299,001 0,701866
    Среднее значение: 116,3571 92,78571 10878,07 13611,21 8733,357 х х
    8,4988 11,1431 х х х х х
    72,23 124,17 х х х х х

    Среднее значение определим по формуле:

    Cреднее квадратическое отклонение рассчитаем по формуле:

    и занесём полученный результат в таблицу 1.

    Возведя в квадрат полученное значение получим дисперсию:

    Параметры уравнения можно определить также и по формулам:

    Таким образом, уравнение регрессии:

    Следовательно, с увеличением индекса розничных цен на продукты питания на 1, индекс промышленного производства увеличивается в среднем на 1,13.

    Рассчитаем линейный коэффициент парной корреляции:

    Связь прямая, достаточно тесная.

    Определим коэффициент детерминации:

    Вариация результата на 74,59% объясняется вариацией фактора х.

    Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения .

    следовательно, параметры уравнения определены правильно.

    Рассчитаем среднюю ошибку аппроксимации - среднее отклонение расчётных значений от фактических:

    В среднем расчётные значения отклоняются от фактических на 5,01%.

    Оценку качества уравнения регрессии проведём с помощью F-теста.

    F-тест состоит в проверке гипотезы Н 0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера.

    F факт определяется по формуле:

    где n - число единиц совокупности;

    m - число параметров при переменных х.

    Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

    Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

    2. Степенная регрессия имеет вид:

    Для определения параметров производят логарифмиро-вание степенной функции:

    Для определения параметров логарифмической функции строят систему нормальных уравнений по способу наи-меньших квадратов:

    Построим таблицу расчётных данных, как показано в таблице 2.

    Таблица 2 Расчетные данные для оценки степенной регрессии

    №п/п х у lg x lg y lg x*lg y (lg x) 2 (lg y) 2
    1 100 70 2,000000 1,845098 3,690196 4,000000 3,404387
    2 105 79 2,021189 1,897627 3,835464 4,085206 3,600989
    3 108 85 2,033424 1,929419 3,923326 4,134812 3,722657
    4 113 84 2,053078 1,924279 3,950696 4,215131 3,702851
    5 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
    6 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
    7 110 96 2,041393 1,982271 4,046594 4,167284 3,929399
    8 115 99 2,060698 1,995635 4,112401 4,246476 3,982560
    9 119 100 2,075547 2,000000 4,151094 4,307895 4,000000
    10 118 98 2,071882 1,991226 4,125585 4,292695 3,964981
    11 120 99 2,079181 1,995635 4,149287 4,322995 3,982560
    12 124 102 2,093422 2,008600 4,204847 4,382414 4,034475
    13 129 105 2,110590 2,021189 4,265901 4,454589 4,085206
    14 132 112 2,120574 2,049218 4,345518 4,496834 4,199295
    Итого 1629 1299 28,90474 27,49904 56,79597 59,69172 54,05467
    Среднее значение 116,3571 92,78571 2,064624 1,964217 4,056855 4,263694 3,861048
    8,4988 11,1431 0,031945 0,053853 х х х
    72,23 124,17 0,001021 0,0029 х х х

    Продолжение таблицы 2 Расчетные данные для оценки степенной регрессии

    №п/п х у
    1 100 70 74,16448 17,34292 0,059493 519,1886
    2 105 79 79,62057 0,385112 0,007855 190,0458
    3 108 85 82,95180 4,195133 0,024096 60,61728
    4 113 84 88,59768 21,13866 0,054734 77,1887
    5 118 85 94,35840 87,57961 0,110099 60,61728
    6 118 85 94,35840 87,57961 0,110099 60,61728
    7 110 96 85,19619 116,7223 0,11254 10,33166
    8 115 99 90,88834 65,79901 0,081936 38,6174
    9 119 100 95,52408 20,03384 0,044759 52,04598
    10 118 98 94,35840 13,26127 0,037159 27,18882
    11 120 99 96,69423 5,316563 0,023291 38,6174
    12 124 102 101,4191 0,337467 0,005695 84,90314
    13 129 105 107,4232 5,872099 0,023078 149,1889
    14 132 112 111,0772 0,85163 0,00824 369,1889
    Итого 1629 1299 1296,632 446,4152 0,703074 1738,357
    Среднее значение 116,3571 92,78571 х х х х
    8,4988 11,1431 х х х х
    72,23 124,17 х х х х

    Решая систему нормальных уравнений, определяем параметры логарифмической функции.

    Получим линейное уравнение:

    Выполнив его потенцирование, получим:

    Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата . По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации.

    Связь достаточно тесная.

    В среднем расчётные значения отклоняются от фактических на 5,02%.

    Таким образом, Н 0 - гипотеза о случайной природе оцениваемых характеристик отклоняется и признаётся их статистическая значимость и надёжность.

    Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение индекса розничных цен на продукты питания х = 138, тогда прогнозное значение индекса промышленного производства составит:

    Для определения параметров этого уравнения используется система нормальных уравнений:

    Произведем замену переменных

    и получим следующую систему нормальных уравнений:

    Решая систему нормальных уравнений, определяем параметры гиперболы.

    Составим таблицу расчётных данных, как показано в таблице 3.

    Таблица 3 Расчетные данные для оценки гиперболической зависимости

    №п/п х у z yz
    1 100 70 0,010000000 0,700000 0,0001000 4900
    2 105 79 0,009523810 0,752381 0,0000907 6241
    3 108 85 0,009259259 0,787037 0,0000857 7225
    4 113 84 0,008849558 0,743363 0,0000783 7056
    5 118 85 0,008474576 0,720339 0,0000718 7225
    6 118 85 0,008474576 0,720339 0,0000718 7225
    7 110 96 0,009090909 0,872727 0,0000826 9216
    8 115 99 0,008695652 0,860870 0,0000756 9801
    9 119 100 0,008403361 0,840336 0,0000706 10000
    10 118 98 0,008474576 0,830508 0,0000718 9604
    11 120 99 0,008333333 0,825000 0,0000694 9801
    12 124 102 0,008064516 0,822581 0,0000650 10404
    13 129 105 0,007751938 0,813953 0,0000601 11025
    14 132 112 0,007575758 0,848485 0,0000574 12544
    Итого: 1629 1299 0,120971823 11,13792 0,0010510 122267
    Среднее значение: 116,3571 92,78571 0,008640844 0,795566 0,0000751 8733,357
    8,4988 11,1431 0,000640820 х х х
    72,23 124,17 0,000000411 х х х

    Продолжение таблицы 3 Расчетные данные для оценки гиперболической зависимости

    1. Какие из следующих измерений относятся к классу наименований измерительных шкал:
    а) числа, кодирующие темперамент;


    г) телефонные номера.

    2. Какие из следующих измерений относятся к классу порядка измерительных шкал:

    б) академический ранг как мера продвижения по службе;
    в) метрическая система измерения расстояния;
    г) телефонные номера.

    3. Какие из следующих измерений относятся к классу отношений измерительных шкал:
    а) числа, кодирующие темперамент;
    б) академический ранг как мера продвижения по службе;
    в) метрическая система измерения расстояния;
    г) телефонные номера.

    4. Какие из следующих признаков относятся количественным видам:

    б) родственные связи членов семьи;
    в) пол и возраст человека;
    г) социальное положение вкладчика;
    д) количество детей в семье;
    е) розничный товарооборот торговых предприятий.

    5. Какие из следующих признаков относятся качественным видам:
    а) количество работников на фирме;
    б) родственные связи членов семьи;
    в) пол и возраст человека;
    г) социальное положение вкладчика;
    д) количество детей в семье;
    е) розничный товарооборот торговых предприятий.

    6. Какую шкалу используют при измерении уровня интеллекта человека:
    а) наименований;
    б) порядковую;
    в) интервальную;
    г) отношений.

    7. Среднее квадратическое отклонение — это:
    а) квадрат размаха вариационного ряда;
    б) корень квадратный из дисперсии;
    в) квадрат коэффициента вариации;
    г) квадратный корень из величины размаха вариации.

    8. Коэффициент вариации ряда определяется отношением:
    а) среднего квадратического отклонения к среднему арифметическому значению ряда;
    б) дисперсии к медиане ряда;
    в) дисперсии к максимальному значению ряда;
    г) абсолютного показателя вариации к среднему арифметическому значению ряда.

    9. Мода данного вариационного ряда

    x 10 15 35
    n 1 2 3

    это:
    а) 20;
    б) 16;
    в) 3;
    г) 35.

    10. Среднее арифметическое значение совокупности это:
    а) значение признака в середине вариационного ряда;
    б) полуразность максимального и минимального значений вариационного ряда;
    в) полусумма максимального и минимального значений вариационного ряда;
    г) отношение суммы всех величин совокупности к их общему числу.

    11. Известны данные о стаже работы семи продавцов магазина: 2; 3; 2; 5; 10; 7; 1 лет. Найти среднее значение стажа их работы.
    а) 4,3 года;
    б) 5 лет;
    в) 3года;
    г) 3,8 года.

    12. Ряд распределения это:
    а) последовательность выборочных данных;
    б) упорядоченное расположение данных по количественному признаку;
    в) числовая последовательность данных;
    г) последовательность значений, упорядоченная по качественным признакам.

    13. Частотой варианты вариационного ряда называется:
    а) численность выборки;
    б) значение варианты вариационного ряда;
    в) численность отдельных вариант или группы вариационного ряда;
    г) число групп вариационного ряда.

    14. Мода — это:
    а) максимальное значение признака совокупности;
    б) наиболее часто встречающееся значение признака;
    в) среднее арифметическое значение совокупности.

    15. Известны данные о стаже работы продавцов магазина: 2; 3; 2; 5; 10; 7; 1. Найти медиану стажа их работы:
    а) 4,5 года;
    б) 4,3 года;
    в) 3 года;
    г) 5 лет.

    16. Вариационный размах данного вариационного ряда:
    x 10 15 20 30
    n 1 2 3 2

    это:
    а) 15;
    б) 10;
    в) 30;
    г) 20.

    17. Численность упорядоченного ряда делит пополам:
    а) мода;
    б) средняя арифметическая;
    в) средняя гармоническая;
    г) медиана.

    18. Статистическая группировка — это:
    а) объединение или разделение данных по существенным признакам;
    б) научная организация статистического наблюдения;
    в) виды отчетности;
    г) непосредственный сбор массовых данных.

    19. Коэффициент осцилляции это:
    а) абсолютный показатель;
    б) средний показатель;
    в) относительный показатель вариации.

    20. Дисперсия вариационного ряда характеризует:
    а) среднее значение индивидуальных признаков;
    б) рассеяние индивидуальных значений признаков от среднего значения;
    в) среднеквадратическое отклонение.

    21. Уравнение прямолинейной функции регрессии отображает динамику развития:
    а) с переменным ускорением;

    в) равномерное;
    г) равноускоренное.

    22. Если величина коэффициента корреляции равна 0,6, то по шкале Чедд.ка:
    а) связь практически отсутствует;
    б) связь слабая;
    в) связь умеренная;
    г) связь сильная.

    23. Данные представляют оценки взрослых людей в тесте на определение коэффициента интеллектуальности Стенфорда-Бине 104, 87, 101, 130, 148, 92, 97, 105, 134, 121. Найти размах вариации:
    а) 61;
    б) 60;
    в) 75.

    24. Найти среднюю арифметическую взвешанную для следующего интервального ряда:

    li ni
    10-14 1
    15-19 1
    20-24 4
    25-29 2
    30-34 4

    а) 24;
    б) 24,92;
    в) 25,38.

    25. Вычислить медиану следующего ряда 2,1; 1,5; 1,6; 2,1; 2,4:
    а) 2;
    б) 1,5;
    в) 2,1.

    26. Вычислить моду следующего интервального ряда

    частота 5-7 8-10 11-13 14-16
    интервал 4 7 26 41

    а) 14;
    б) 14,54;
    в) 15,23;

    27. Какие из следующих измерений относятся к классу наименований измерительных шкал:
    а) диагноз больного;
    б) автомобильные номера;
    в) твердость минерала;
    г) календарное время;
    д) вес человека.

    28. Какие из следующих измерений относятся к классу порядковый измерительных шкал:
    а) диагноз больного;
    б) автомобильные номера;
    в) твердость минерала;
    г) календарное время;
    д) вес человека.

    29. Какие из следующих измерений относятся к классу интервальный измерительных шкал:
    а) диагноз больного;
    б) автомобильные номера;
    в) твердость минерала;
    г) календарное время;
    д) вес человека.
    30. Какие из следующих измерений относятся к классу отношений измерительных шкал:
    а) диагноз больного;
    б) автомобильные номера;
    в) твердость минерала;
    г) календарное время;
    д) вес человека.

    31. Какую шкалу используют при измерении времени:
    а) интервальную;
    б) отношений;
    в) Чеддока.

    32. К количественным видам относятся следующие признаки:
    а) рост человека;
    б) награды за заслуги;
    в) цвет глаз;
    г) автомобильные номера.

    33. К качественным видам относятся следующие признаки:
    а) рост человека;
    б) награды за заслуги;
    в) цвет глаз;
    г) автомобильные номера

    34. Вычислить моду

    xi 5 8 10 13 14
    ni 7 4 5 9 1

    а) 10;
    б) 11;
    в) 13

    35. В больших по счету числу учеников в классах наблюдается меньшие успехи в приобретении знаний за четверть, чем в небольших классах. Что является результативным признаком?
    а) число учеников в классе;
    б) успехи в приобретении знаний,
    в) число учеников с успехами в приобретении знаний.

    36. Длина интервала в интервальном ряду – это:
    а) размах вариации поделенное на среднеарифметическое значение;
    б) размах вариации поделенный на число групп;
    в) дисперсия поделенная на объем выборки.

    37. Пример парной корреляции: ученики, научившиеся читать раньше других имеют тенденцию к более высокой успеваемости. Какой из этих признаков: умение рано читать или высокая успеваемость ученика является факторным признаком?
    а) умение рано читать;
    б) высокая успеваемость;
    в) ни один из них.

    38. Какой из следующих методов можно применять при сравнении средних трех и более выборок:
    а) тест Стьюдента;
    б) тест Фишера;
    в) дисперсионный анализ.

    39. Объем выборки вариационного ряда

    xi 10 15 20 30
    ni 1 2 3 2

    а) 5;
    б) 8;
    в) 12;
    г) 30.

    40. Мода вариационного ряда

    xi 10 15 20 25
    ni 1 5 4 3

    а) 15;
    б) 5;
    в) 23;
    г) 3.

    41. Уравнение параболической функции регрессии отражает динамику развития:
    а) с переменным ускорением;
    б) с замедлением роста в конце периода;
    в) равномерное;
    г) равноускоренное.

    42.Коэффициент регрессии В показывает:
    а) ожидаемое значение зависимой переменной при нулевом значении предиктора
    б) ожидаемое значение зависимой переменной при изменении предиктора на единицу
    в) вероятность ошибки регрессии
    г) этот вопрос еще окончательно не решен

    43. Выборка — это:
    а) все множество объектов, по поводу которых строятся рассуждения исследователя;
    б) множество объектов, доступных для эмпирического исследования;
    в) все возможные значения дисперсии;
    г) то же, что и рандомизация.

    44. Какой из следующих коэффициентов корреляции демонстрирует наибольшую связь переменных:
    а) -0.90;
    б) 0;
    в) 0.07;
    г) 0.01.

    45. Генеральная совокупность — это:
    а) все множество объектов, по поводу которых строятся рассуждения исследователя;
    б) множество объектов, доступных для эмпирического исследования;
    в) все возможные значения математического ожидания;
    г) нормальное распределение.

    46. Как соотносятся объемы выборки и генеральной совокупности:
    а) выборка как правило значительно меньше генеральной совокупности;
    б) генеральная совокупность всегда меньше выборки;
    в) выборка и генеральная совокупность практически всегда совпадают;
    г) нет правильного ответа.

    47. Точечно-бисериальный коэффициент корреляции является частным случаем коэффициента корреляции:
    а) Спирмена;
    б) Пирсона;
    в) Кендала;
    г) все ответы верны.

    48. При каком минимальном уровне значимости принято отвергать нулевую гипотезу?
    а) 5% уровень
    б) 7 % уровень
    в) 9 % уровень
    г) 10% уровень

    49. Какой из следующих методов обычно применяют при сравнении средних в двух нормальных выборках:
    а) тест Стьюдента;
    б) тест Фишера;
    в) однофакторный дисперсионный анализ;
    г) корреляционный анализ.

    50. С помощью чего проверяются статистические гипотезы:
    а) статистик;
    б) параметров;
    в) экспериментов;
    г) наблюдения.

    51. Какое из следующих значений коэффициента корреляции невозможно:
    а) -0.54;
    б) 2.18;
    в) 0; г) 1.

    52. Какое преобразование необходимо произвести при сравнении двух коэффициентов корреляции:
    а) Стьюдента;
    б) Фишера;
    в) Пирсона;
    г) Спирмена.

    53. Что такое медиана распределения:
    а) то же, что и биссектриса;
    б) то же, что и мода;
    в) среднее арифметическое;
    г) 50%-ый квантиль распределения;
    д) нет правильного ответа.

    54. Точечно-биссериальный коэффициент корреляции является частным случаем коэффициента корреляции:
    а) Спирмена;
    б) Пирсона;
    в) Кендалла;
    г) все ответы верны.

    55.Какая из следующих переменных является дискретной:
    а) тип темперамента;
    б) уровень интеллекта;
    в) время реакции;
    г) все ответы верны.

    56. В каком диапазоне может изменяться коэффициент корреляции:
    а) от –1 до 1;
    б) от 0 до 1;
    в) от 0 до 100;
    г) в любом.

    57. По поводу чего выдвигаются статистические гипотезы:
    а) понятий;
    б) статистик;
    в) выборок;
    г) параметров.

    58. Как называется непараметрический аналог дисперсионного анализа:
    а) тест Стьюдента;
    б) метод Краскела-Уоллиса;
    в) тест Вилкоксона;
    г) тест Манна-Уитни.

    59. Понятие коэффициента корреляции было впервые разработано в работах:
    а) Фишера;
    б) Стьюдента;
    в) Пирсона;
    г) Спирмена.

    60. Какая из следующих статистик является несмещенной оценкой математического ожидания:
    а) среднее арифметическое;
    б) мода;
    в) медиана;
    г) все ответы верны.

    61. Как соотносятся коэффициенты корреляции Пирсона и Спирмена:
    а) коэффициент Пирсона является частным случаем Спирмена;
    б) коэффициент Спирмена является частным случаем Пирсона;
    в) эти коэффициенты имеют различную логику построения;
    г) это одно и то же.

    62. Согласно теоретическим предположениям дисперсионного анализа, F-отношение не может быть:
    а) равно 1;
    б) больше 1;
    в) меньше 1;
    г) нет правильного ответа.

    Назначение сервиса . С помощью данного онлайн-калькулятора можно найти параметры уравнения нелинейной регрессии (экспоненциальной, степенной, равносторонней гиперболы, логарифмической, показательной) (см. пример).

    Инструкция . Укажите количество исходных данных. Полученное решение сохраняется в файле Word . Также автоматически создается шаблон решения в Excel . Примечание : если необходимо определить параметры параболической зависимости (y = ax 2 + bx + c), то можно воспользоваться сервисом Аналитическое выравнивание .
    Ограничить однородную совокупность единиц, устранив аномальные объекты наблюдения можно через метод Ирвина или по правилу трех сигм (устранить те единицы, для которых значение объясняющего фактора отклоняется от среднего более, чем на утроенное среднеквадратичное отклонение).

    Виды нелинейной регрессии

    Здесь ε - случайная ошибка (отклонение, возмущение), отражающая влияние всех неучтенных факторов.

    Уравнению регрессии первого порядка - это уравнение парной линейной регрессии .

    Уравнение регрессии второго порядка это полиномальное уравнение регрессии второго порядка: y = a + bx + cx 2 .

    Уравнение регрессии третьего порядка соответственно полиномальное уравнение регрессии третьего порядка: y = a + bx + cx 2 + dx 3 .

    Чтобы привести нелинейные зависимости к линейной используют методы линеаризации (см. метод выравнивания):

    1. Замена переменных.
    2. Логарифмирование обеих частей уравнения.
    3. Комбинированный.
    y = f(x) Преобразование Метод линеаризации
    y = b x a Y = ln(y); X = ln(x) Логарифмирование
    y = b e ax Y = ln(y); X = x Комбинированный
    y = 1/(ax+b) Y = 1/y; X = x Замена переменных
    y = x/(ax+b) Y = x/y; X = x Замена переменных. Пример
    y = aln(x)+b Y = y; X = ln(x) Комбинированный
    y = a + bx + cx 2 x 1 = x; x 2 = x 2 Замена переменных
    y = a + bx + cx 2 + dx 3 x 1 = x; x 2 = x 2 ; x 3 = x 3 Замена переменных
    y = a + b/x x 1 = 1/x Замена переменных
    y = a + sqrt(x)b x 1 = sqrt(x) Замена переменных
    Пример . По данным, взятым из соответствующей таблицы, выполнить следующие действия:
    1. Построить поле корреляции и сформулировать гипотезу о форме связи.
    2. Рассчитать параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессии.
    3. Оценить тесноту связи с помощью показателей корреляции и детерминации.
    4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
    5. Оценить с помощью средней ошибки аппроксимации качество уравнений.
    6. Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выбрать лучшее уравнение регрессии и дать его обоснование.
    7. Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 15% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости α=0,05 .
    8. Оценить полученные результаты, выводы оформить в аналитической записке.
    Год Фактическое конечное потребление домашних хозяйств (в текущих ценах), млрд. руб. (1995 г. - трлн. руб.), y Среднедушевые денежные доходы населения (в месяц), руб. (1995 г. - тыс. руб.), х
    1995 872 515,9
    2000 3813 2281,1
    2001 5014 3062
    2002 6400 3947,2
    2003 7708 5170,4
    2004 9848 6410,3
    2005 12455 8111,9
    2006 15284 10196
    2007 18928 12602,7
    2008 23695 14940,6
    2009 25151 16856,9

    Решение. В калькуляторе последовательно выбираем виды нелинейной регрессии . Получим таблицу следующего вида.
    Экспоненциальное уравнение регрессии имеет вид y = a e bx
    После линеаризации получим: ln(y) = ln(a) + bx
    Получаем эмпирические коэффициенты регрессии: b = 0.000162, a = 7.8132
    Уравнение регрессии: y = e 7.81321500 e 0.000162x = 2473.06858e 0.000162x

    Степенное уравнение регрессии имеет вид y = a x b
    После линеаризации получим: ln(y) = ln(a) + b ln(x)
    Эмпирические коэффициенты регрессии: b = 0.9626, a = 0.7714
    Уравнение регрессии: y = e 0.77143204 x 0.9626 = 2.16286x 0.9626

    Гиперболическое уравнение регрессии имеет вид y = b/x + a + ε
    После линеаризации получим: y=bx + a
    Эмпирические коэффициенты регрессии: b = 21089190.1984, a = 4585.5706
    Эмпирическое уравнение регрессии: y = 21089190.1984 / x + 4585.5706

    Логарифмическое уравнение регрессии имеет вид y = b ln(x) + a + ε
    Эмпирические коэффициенты регрессии: b = 7142.4505, a = -49694.9535
    Уравнение регрессии: y = 7142.4505 ln(x) - 49694.9535

    Показательное уравнение регрессии имеет вид y = a b x + ε
    После линеаризации получим: ln(y) = ln(a) + x ln(b)
    Эмпирические коэффициенты регрессии: b = 0.000162, a = 7.8132
    y = e 7.8132 *e 0.000162x = 2473.06858*1.00016 x

    x y 1/x ln(x) ln(y)
    515.9 872 0.00194 6.25 6.77
    2281.1 3813 0.000438 7.73 8.25
    3062 5014 0.000327 8.03 8.52
    3947.2 6400 0.000253 8.28 8.76
    5170.4 7708 0.000193 8.55 8.95
    6410.3 9848 0.000156 8.77 9.2
    8111.9 12455 0.000123 9 9.43
    10196 15284 9.8E-5 9.23 9.63
    12602.7 18928 7.9E-5 9.44 9.85
    14940.6 23695 6.7E-5 9.61 10.07
    16856.9 25151 5.9E-5 9.73 10.13

    Ещё один вид однофакторной регрессии – аппроксимация степенными полиномами вида:

    Естественно желание получить как можно простую зависимость, ограничиваясь степенным полиномам второй степени, т.е. параболической зависимостью:
    (5.5.2)

    Вычислим частные производные по коэффициентам b 0 , b 1 и b 2 :



    (5.5.3)

    Приравнивая производные нулю получим нормальных систему уравнений:

    (5.5.4)

    Решая систему нормальных уравнений (5.5.2) для конкретного случая значений x i * , y i * ;
    получим оптимальные значения b 0 , b 1 и b 2 . Для аппроксимации зависимостью (5.5.2) и тем более (5.5.1) не получены простые формулы для вычисления коэффициентов и как правило их вычисление производят по стандартным процедурам в матричном виде:

    (5.5.5)

    На рис.5.5.1 приведён типовой пример аппроксимации параболической зависимостью:

    9 (5;9)

    (1;1)

    1

    1 2 3 4 5 х

    Рис.5.5.1. Координаты экспериментальных точек и аппроксимиру-

    щая их параболическая зависимость

    Пример 5.1. Провести аппроксимацию результатов эксперимента, приведённых в таблице 5.1.1, линейным уравнением регрессии
    .

    Таблица 5.1.1

    Построим экспериментальные точки по координатам, указанным в таблице 5.1.1 на графике, представленном на рис.5.1.1.

    у

    9

    4

    1 2 3 4 5 х

    По рис.5.1.1, на котором для предварительной оценки проведём прямую линию, сделаем заключение, что в расположении экспериментальных точек имеется явно выраженная нелинейность, но она не очень значительная и поэтому имеет смысл провести их аппроксимацию линейной зависимостью. Отметим, что для получения корректно-математического заключения требуется построить прямую линию методом наименьших квадратов.

    До проведения регрессионного анализа целесообразно вычислить

    коэффициент линейной корреляции между переменными х и у :

    Существенность корреляционной связи определяется по критическому значению коэффициента линейной корреляции, вычисляемого по формуле:

    Критическое значение критерия Стьюдента t крит находится по статистическим таблицам для рекомендуемого уровня значимости α=0.05 и для n -2 степеней свободы. Если вычисленное значение r xy не меньше критического значения r крит , то корреляционная связь между переменными x и y считается сушественной. Произведём вычисления:










    Ввиду того, что
    делаем заключение, что корреляционная связь между переменнымих и у является существенной и она может быть линейной.

    Вычислим коэффициенты уравнения регрессии:

    Таким образом, получили линейное уравнение регрессии:

    По уравнению регрессии проведём прямую линию на рис.5.1.2.

    у (5;9.8)

    9

    4

    (0;-0.2) 1 2 3 4 5 х

    Рис.5.1.2. Координаты экспериментальных точек и аппроксимиру-

    щая их линейная зависимость

    По уравнению регрессии вычислим значения функции по экспериментальным точкам таблицы 5.1.1 и разницу между экспериментальными и вычисленными значениями функции, которые представим в таблице 5.1.2.

    Таблица 5.1.2


    Вычислим среднюю квадратическую ошибку и её отношение к среднему значению:

    По отношению стандартной ошибки к среднему значению получен неудовлетворительный результат, так как превышено рекомендуемое значение в 0.05.

    Проведём оценку уровня значимости коэффициентов уравнения регрессии по критерию Стьюдента:


    Из статистической таблицы для 3 степеней свободы выпишем строки с уровнем значимости -и значением критерия Стьюдентаt в таблицу 5.1.3.

    Таблица 5.1.3

    Уровень значимости коэффициентов уравнения регрессии:


    Отметим, что по уровню значимости для коэффициента получен удовлетворительный результат, а для коэффициентанеудовлетворительный.

    Проведём оценку качества полученного уравнения регрессии по показателям, вычисляемым на основе дисперсионного анализа:

    Проверка:

    Результат проверки – положительный, что свидетельствует о корректности проведённых вычислений.

    Вычислим критерий Фишера:

    при двух степенях свободы:

    По статистическим таблицам находим критические значения критерия Фишера для двух рекомендуемых градаций уровня значимости:


    Так как вычисленное значение критерия Фишера превосходит критическое дл уровня значимости 0,01, то будем считать, что уровень значимости по критерию Фишера меньше 0,01, что будем считать удовлетворительным.

    Вычислим коэффициент множественной детерминации:

    для двух степеней свободы

    По статистической таблице для рекомендуемого уровня значимости 0,05и двух найденных степеней свободы находим критическое значение коэффициента множественной детерминации:

    Так как вычисленное значение коэффициента множественной детерминации превышает критическое значение для уровня значимости
    , то уровень значимости по коэффициенту множественной детерминации
    и полученный результат поданному показателю будем считать удовлетворительным.

    Таким образом, полученные расчётные параметры по отношению стандартной ошибки к среднему значению и уровню значимости по критерию Стьюдента являются неудовлетворительными, поэтому целесообразно для аппроксимации подобрать другую аппроксимирующую зависимость.

    Пример 5.2. Аппроксимация экспериментального распределения случайных чисел математической зависимостью

    Экспериментальное распределение случайных чисел, приведённое в таблице 5.1.1, при аппроксимации линейной зависимостью, не привело к удовлетворительному результату, в т.ч. по незначимости коэффициента уравнения регрессии при свободном члене, поэтому для улучшения качества аппроксимации попробуем её провести линейной зависимостью без свободного члена:

    Вычислим значение коэффициента уравнения регрессии:

    Таким образом, получили уравнение регрессии:

    По полученному уравнению регрессии вычислим значения функции и разницу между экспериментальными и вычисленными значениями функции, которые представим в виде таблицы 5.2.1.

    Таблица 5.2.1

    x i

    По уравнению регрессии
    на рис.5.2.1 проведём прямую линию.

    у (5;9. 73 )

    (0;0) 1 2 3 4 5 х

    Рис.5.2.1. Координаты экспериментальных точек и аппроксимиру-

    ющая их линейная зависимость

    Для оценки качества аппроксимации проведём вычисления показателей качества аналогично вычислениям, приведённым в примере 5.1.

    (осталось старым);

    с 4-мя степенями свободы;

    для

    По результатам проведённой аппроксимации отметим, что по уровню значимости коэффициента уравнения регрессии получен удовлетворительный результат; отношение стандартной ошибки к среднему значению улучшилось, но всё ещё осталось выше рекомендуемого значения 0.05, поэтому рекомендуется повторить аппроксимацию более сложной математической зависимостью.

    Пример 5.3. Для улучшения качества аппроксимации примеров 5.1 и 5.2 проведём нелинейную аппроксимацию зависимостью
    . Для этого первоначально произведём промежуточные вычисления и их результаты поместим в таблицу 5.3.1.

    Значения

    Таблица 5.3.1

    X 2

    (lnX ) 2

    lnX·lnY

    Дополнительно вычислим:

    Произведём аппроксимацию зависимостью
    . По формулам (5.3.7), (5.3.8) вычислим коэффициентыb 0 и b 1 :

    По формулам (5.3.11) вычислим коэффициенты A 0 и A 1 :


    Для вычисления стандартной ошибки проведены промежуточные вычисления, представленные в таблице 5.3.2.

    Таблица 5.3.2

    Y i

    y i

    Сумма: 7,5968

    Стандартная ошибка аппроксимации получилась намного больше, чем в двух предыдущих примерах, поэтому результаты аппроксимации признаем непригодными.

    Пример 5.4. Попробуем провести аппроксимацию ещё одной нелинейной зависимостью
    . По формулам (5.3.9), (5.3.10) по данным таблицы 5.3.1 вычислим коэффициентыb 0 и b 1 :

    Получили промежуточную зависимость:

    По формулам (5.3.13) вычислим коэффициенты C 0 и C 1 :


    Получили окончательную зависимость:

    Для вычисления стандартной ошибки проведём промежуточные вычисления и поместим их в таблицу 5.4.1.

    Таблица 5.4.1

    Y i

    y i

    Сумма: 21,83152

    Вычислим стандартную ошибку:

    Стандартная ошибка аппроксимации получилась намного больше, чем в предыдущем примере, поэтому результаты аппроксимации признаем непригодными.

    Пример 5.5. Аппроксимация экспериментального распределения случайных чисел математической зависимостью y = b · lnx

    Исходные данные как и в предыдущих примерах приведены в таблице 5.4.1 и на рис.5.4.1.

    Таблица 5.4.1

    На основании анализа рис.5.4.1 и таблицы 5.4.1 отметим, что при меньших значениях аргумента (в начале таблицы) функция изменяется сильнее, чем при больших (в конце таблицы) поэтому представляется целесообразным изменить масштаб аргумента и ввести в уравнение регрессии логарифмическую функцию от него и провести аппроксимацию следующей математической зависимостью:

    . По формуле (5.4.3) вычислим коэффициент b :

    Для оценки качества аппроксимации проведём промежуточные вычисления, представленные в таблице 5.4.2, по которым вычислим величину ошибки и отношение стандартной ошибки к среднему значению.

    Таблица 5.4.2


    Так как по отношению стандартной ошибки к среднему значению превышено рекомендуемое значение 0,05, то результат будем считать неудовлетворительным. В частности, отметим, что наибольшее отклонение даёт значение х=1, так как при этом значении lnx =0. Поэтому проведём аппроксимацию зависимстью y = b 0 +b 1 ·lnx

    Вспомогательные вычисления представим в виде таблицы 5.4.3.

    Таблица 5.4.3

    По формулам (5.4.6) и (5.4.7) вычислим коэффициенты b 0 и b 1 :

    9 (5;9.12)

    4

    1 (1;0.93)

    1 2 3 4 5 х

    Для оценки качества аппроксимации проведём вспомогательные вычисления и определим уровень значимости найденных коэффициентов и отношение стандартной ошибки к среднему значению.

    Уровень значимости чуть выше рекомендованного значения 0,05 (
    ).


    Ввиду того, что по главному показателю – отношению стандартной ошибки к среднему значению получено почти двукратное превышение рекомендуемого уровня 0,05 результаты будем считать приемлемыми. Отметим, что вычисленное значение критерия Стьюдента t b 0 =2,922 отличается от критического
    сравнительно на небольшую величину.

    Пример 5.6. Проведём аппроксимацию экспериментальных данных примера 5.1 гиперболической зависимостью
    . Для того, чтобы вычислить коэффициентовb 0 и b 1 проведём предварительные вычисления, приведённые в таблице 5.6.1.

    Таблица 5.6.1

    X i

    x i =1/X i

    x i 2

    x i y i

    По результатам таблицы 5.6.1 по формулам (5.4.8) и (5.4.9) вычислим коэффициенты b 0 и b 1 :

    Таким образом, получено гиперболическое уравнение регрессии

    .

    Результаты вспомогательных вычислений для оценки качества аппроксимации приведены в таблице 5.6.2.

    Таблица 5.6.2

    X i

    По результатам таблицы 5.6.2 вычислим стандартную ошибку и отношение стандартной ошибки к среднему значению:


    Ввиду того, что отношение стандартной ошибки к среднему значению превышает рекомендуемое значение 0,05 делаем заключение о непригодности результатов аппроксимации.

    Пример 5.7.

    Для вычисления конкретных значений доходов от работы стреловых кранов в зависимости от времени проведения профилактических работ требуется получить параболическую зависимость .

    Вычислим коэффициенты этой зависимости b 0 , b 1 , b 11 в матричном виде по формуле:

    Нелинейные уравнения регрессии, связывающие результативный показатель с оптимальными значениями проведения профилактических работ башенных кранов, получены с помощью процедуры множественной регрессии пакета прикладных программ Statistica 6.0. Далее приведем результаты регрессионного анализа для результативного показателя эффективности по таблице 5.7.1.

    Таблица 5.7.1

    В таблице 5.7.2 приведены результаты нелинейной регрессии для результативного показателя эффективности и в таблице 5.7.3 результаты анализа остатков.

    Таблица 5.7.2

    Таблица 5.7.3

    Рис. 3.7.36. Анализ остатков.

    Таким образом, получили уравнение множественной регрессии для переменной
    :

    Отношение стандартной ошибки к среднему значению:

    14780/1017890=0,0145 < 0,05.

    Так как отношение стандартной ошибки к среднему значению не превышает рекомендуемого значения 0,05 то результаты аппроксимации можно считать приемлемыми. В качестве недостатка по таблице 5.7.2 следует отметить превышение рекомендуемого уровня значимости 0.05 всеми вычисленными коэффициентами.

    Линейная регрессия

    Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y.

    Рассмотрим случайную двумерную величину (X, Y), где -- зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

    где -- параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них -- метод наименьших квадратов. Функцию g(x) называют среднеквадратической регрессией Y на X. Функцию g(x) называют среднеквадратической регрессией Y на X.

    где F -- суммарное квадратичное отклонение.

    Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

    Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

    где -- объём выборки.

    В нашем случае A = 3888; B =549; C =8224; D = 1182;N = 100.

    Найдём a и b из этой линейной. Получим стационарную точку для где 1,9884; 0,8981.

    Следовательно, уравнение примет вид:

    y = 1,9884x + 0,8981


    Рис. 10

    Параболическая регрессия

    Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии. Воспользуемся методом наименьших квадратов для определения p, q, r.

    Ограничимся представлением величины Y в виде параболической функции величины X:

    где p, q, и r -- параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.

    Подберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:

    Для отыскания минимума приравняем к нулю соответствующие частные производные:

    Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:

    Решая эту систему методом обратной матрицы, получим: p = -0,0085; q = 2,0761;

    Следовательно, уравнение параболической регрессии примет вид:

    y = -0,0085x 2 + 2,0761x + 0,7462

    Построим график параболической регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания (см. рисунок 13).


    Рис. 13

    Теперь изобразим линии линейной регрессии и параболической регрессии на одной диаграмме, для наглядного сравнения (см. рисунок 14).


    Рис. 14

    Линейная регрессия изображена красным цветом, а параболическая -- синим. По диаграмме видно, что отличие в данном случае больше, чем при сравнении двух линий линейных регрессий. Требуется дальнейшее исследование, какая же регрессия лучше выражает зависимость между x и y, т. е. какой тип зависимости между x и y.