-
Notifications
You must be signed in to change notification settings - Fork 0
/
info_5_lab.txt
48 lines (40 loc) · 6.14 KB
/
info_5_lab.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
Из кода видно, что вычисление доверительных интервалов в вашем случае осуществляется с помощью метода `get_prediction(X).conf_int(alpha=0.05)` модели результатов `statsmodels`. Данная функция вычисляет доверительные интервалы для прогнозов.
```
predictions_interval = results.get_prediction(X).conf_int(alpha=0.05)
```
1. `results.get_prediction(X)` - это метод, который используется для получения прогнозов от модели OLS. OLS значит "метод наименьших квадратов", а `X` - это матрица предикторов, т.е. ваши независимые переменные.
2. `.conf_int(alpha=0.05)` - это функция, которая вычисляет доверительные интервалы для этих прогнозов. Доверительный интервал - это диапазон, в котором мы ожидаем, что окажется истинное значение параметра с определенной степенью уверенности. В данном случае уровень уверенности составляет 95% ( `alpha=0.05` означает, что вы оставляете 5% вероятности для случая, когда истинное значение может оказаться за пределами этого диапазона).
Полученный результат будет двумерным массивом, где каждая строка соответствует количество наблюдений и содержит два значения: нижнюю и верхнюю границы доверительного интервала для каждого прогноза.
В данном примере доверительные интервалы наносятся на график с помощью функции `fill_between` от matplotlib:
```python
plt.fill_between(X["hp"], predictions_interval[:,0], predictions_interval[:,1], color='pink', alpha=.2, label='95% доверительный интервал')
```
`fill_between` заполняет область между двумя горизонтальными кривыми, в данном случае между нижней и верхней границей доверительного интервала.
--------------------------------------------------------------------
Если значение params['hp'] отрицательное, это означает,
что у есть отрицательная корреляция между лошадиными силами и миль на галлон.
То есть, чем больше лошадиных сил у машины, тем меньше миль она может проехать на одном галлоне топлива,
что звучит достаточно правдоподобно.
график слева на право вниз (если hp ведет к уменьшению mpg), что и является графическим представлением отрицательной корреляции
--------------------------------------------------------------------
Если линия тренда нисходящая, т.е. угол наклона отрицательный,
это указывает на то, что с увеличением лошадиных сил расход топлива возрастает
(или, что то же самое, эффективность топлива снижается).
Это согласуется с реальностью, потому что мощные автомобили обычно потребляют больше топлива.
Распределение точек вокруг линии тренда покажет,
в какой степени мощность двигателя объясняет расход топлива.
Если точки близко к линии, значит есть сильная зависимость.
Если точки широко расположены, мощность может объяснять лишь незначительную часть изменчивости в расходе топлива.
Коэффициенты регрессии (и угол наклона линии тренда) отражают,
насколько изменение мощности в одину единицу изменяет предсказанный расход топлива.
Доверительный интервал может показать, насколько уверены мы в наших прогнозах.
Если доверительный интервал широкий, это может говорить о большой неопределенности прогнозов.
--------------------------------------------------------------------
График будет показывать отношение между мощностью двигателя (hp) и расходом топлива (mpg).
У вас есть точечный график, где каждая точка представляет отдельный автомобиль из набора данных.
Это данные об 'наблюдениях'.
Красная линия на графике представляет ваши прогнозы, полученные с помощью модели.
Это 'линия тренда'. Если модель хорошо аппрксимирует данные,
эта линия будет хорошо следовать за распределением точек.
Также присутствует розовая область, обозначающая 95% доверительный интервал.
Это означает, что мы можем ожидать, что новые наблюдения будут находиться в пределах этого интервала с вероятностью 95%.