Функция риска непрерывной случайной величины. Дискретные и непрерывные случайные величины

Функцией распределения случайной величины X называется функция F(x), выражающая для каждого х вероятность того, что случайная величина X примет значение , меньшее х

Пример 2.5. Дан ряд распределения случайной величины

Найти и изобразить графически ее функцию распределения. Решение. В соответствии с определением

F(jc) = 0 при х х

F(x) = 0,4 + 0,1 = 0,5 при 4 F{x) = 0,5 + 0,5 = 1 при х > 5.

Итак (см. рис. 2.1):


Свойства функции распределения:

1. Функция распределения случайной величины есть неотрицательная функция, заключенная между нулем и единицей:

2. Функция распределения случайной величины есть неубывающая функция на всей числовой оси, т.е. при х 2

3. На минус бесконечности функция распределения равна нулю, на плюс бесконечности - равна единице, т.е.

4. Вероятность попадания случайной величины X в интервал равна определенному интегралу от ее плотности вероятности в пределах от а до b (см. рис. 2.2), т.е.


Рис. 2.2

3. Функция распределения непрерывной случайной величины (см. рис. 2.3) может быть выражена через плотность вероятности по формуле:

F(x)= Jp (*)*. (2.10)

4. Несобственный интеграл в бесконечных пределах от плотности вероятности непрерывной случайной величины равен единице:

Геометрически свойства / и 4 плотности вероятности означают, что ее график - кривая распределения - лежит не ниже оси абсцисс , и полная площадь фигуры , ограниченной кривой распределения и осью абсцисс , равна единице.

Для непрерывной случайной величины X математическое ожидание М(Х) и дисперсия D(X) определяются по формулам:

(если интеграл абсолютно сходится); или

(если приведенные интегралы сходятся).

Наряду с отмеченными выше числовыми характеристиками для описания случайной величины используется понятие квантилей и процентных точек.

Квантилем уровня q (или q-квантилем) называется такое значение x q случайной величины , при котором функция ее распределения принимает значение , равное q, т. е.

  • 100q%-ou точкой называется квантиль X~ q .
  • ? Пример 2.8.

По данным примера 2.6 найти квантиль xqj и 30%-ную точку случайной величины X.

Решение. По определению (2.16) F(xo t3)= 0,3, т. е.

~Y~ = 0,3, откуда квантиль х 0 3 = 0,6. 30%-ная точка случайной величины X , или квантиль Х)_о,з = xoj » находится аналогично из уравнения ^ = 0,7 . откуда *,= 1,4. ?

Среди числовых характеристик случайной величины выделяют начальные v* и центральные р* моменты к-го порядка , определяемые для дискретных и непрерывных случайных величин по формулам:


Проверим, выполняется ли требование равномерной ограниченности дисперсии. Напишем закон распределения :

Найдём математическое ожидание
:

Найдём дисперсию
:

Эта функция возрастает, следовательно, чтобы вычислить константу, ограничивающую дисперсию, можно вычислить предел:

Таким образом, дисперсии заданных случайных величин неограниченны, что и требовалось доказать.

Б) Из формулировки теоремы Чебышева следует, что требование равномерной ограниченности дисперсий является достаточным, но не необходимым условием, поэтому нельзя утверждать, что к данной последовательности эту теорему применить нельзя.

Последовательность независимых случайных величин Х 1 , Х 2 , …, Х n , … задана законом распределения

D(X n)=M(X n 2)- 2 ,

учитывай, что M(X n)=0, найдем (выкладки предоставляются выполнить читателю)

Временно предположим, что n изменяется непрерывно (чтобы подчеркнуть это допущение, обозначим n через х), и исследуем на экстремум функцию φ(х)=х 2 /2 х-1 .

Приравняв первую производную этой функции к нулю, найдем критические точки х 1 =0 и х 2 =ln 2.

Отбросим первую точку как не представляющую интереса (n не принимает значения, равного нулю); легко видеть, что в точек х 2 =2/ln 2 функция φ(х) имеет максимум. Учитывая, что 2/ln 2 ≈ 2.9 и что N – целое положительное число, вычислим дисперсию D(X n)= (n 2 /2 n -1)α 2 для ближайших к числу 2.9 (слева и справа) целых чисел, т.е. для n=2 и n=3.

При n=2 дисперсия D(X 2)=2α 2 , при n=3 дисперсия D(Х 3)=9/4α 2 . Очевидно,

(9/4)α 2 > 2α 2 .

Таким образом, наибольшая возможная дисперсия равна (9/4)α 2 , т.е. дисперсии случайных величин Хn равномерно ограничены числом (9/4)α 2 .

Последовательность независимых случайных величин X 1 , X 2 , …, X n , … задана законом распределения

Применима ли к заданной последовательности теорема Чебышева?

Замечание. Поскольку случайные величины Х, одинаково распределены и независимы, то читатель, знакомый с теоремой Хинчина, может ограничиться вычислением лишь математического ожидания и убедиться, что оно кончено.

Поскольку случайные величины Х n независимы, то они подавно и попарно независимы, т.е. первое требование теоремы Чебышева выполняется.

Легко найти, что M(X n)=0, т.е.первое требование конечности математических ожиданий выполняется.

Остается проверить выполнимость требования равномерной ограниченности дисперсий. По формуле

D(X n)=M(X n 2)- 2 ,

учитывай, что M(X n)=0, найдем

Таким образом, наибольшая возможная дисперсия равна 2, т.е. дисперсии случайных величин Х n равномерно ограничены числом 2.

Итак, все требования теоремы Чебышева выполняются, следовательно, к рассматриваемой последовательности эта теорема применима.

Найти вероятность того, что в результате испытания величина Х примет значение, заключенное в интервале (0, 1/3).

Случайная величина Х задана на всей оси Ох функцией распределена F(x)=1/2+(arctg x)/π. Найти вероятность того, что в результате испытания величина Х примет значение, заключенное в интервале (0, 1).

Вероятность того, что Х примет значение, заключенное в интервале (a, b), равна приращению функции распределения на этом интервале: P(a

Р(0< Х <1) = F(1)-F(0) = x =1 - x =0 = 1/4

Случайная величина Х функцией распределения

Найти вероятность того, что в результате испытания величина Х примет значение, заключенное в интервале (-1, 1).

Вероятность того, что Х примет значение, заключенное в интервале (a, b), равна приращению функции распределения на этом интервале: P(a

Р(-1< Х <1) = F(1)-F(-1) = x =-1 – x =1 = 1/3.

Функция распределения непрерывной случайной величины Х (времени безотказной работы некоторого устройства) равна F(х)=1-е -х/ T (х≥0). Найти вероятность безотказной работы устройства за время х≥Т.

Вероятность того, что Х примет значение, заключенное в интервале x≥T, равна приращению функции распределения на этом интервале: P(0

P(x≥T) = 1 - P(T

Случайная величина Х задана функцией распределения

Найти вероятность того, что в результате испытания Х примет значение: а) меньшее 0.2; б) меньшее трех; в) не меньшее трех; г) не меньшее пяти.

а) Так как при х≤2 функция F(х)=0, то F(0, 2)=0, т.е. P(х < 0, 2)=0;

б) Р(Х < 3) = F(3) = x =3 = 1.5-1 = 0.5;

в) события Х≥3 и Х<3 противоположны, поэтому Р(Х≥3)+Р(Х<3)=1. Отсюда, учитывая, что Р(Х<3)=0.5 [см. п. б.], получим Р(Х≥3) = 1-0.5 = 0.5;

г) сумма вероятностей противоположных событий равна единице, поэтому Р(Х≥5)+Р(Х<5)=1. Отсюда, используя условие, в силу которого при х>4 функция F(x)=1, получим Р(Х≥5) = 1-Р(Х<5) = 1-F(5) = 1-1 = 0.

Случайная величина Х задана функцией распределния

Найти вероятность того, что в результате четырех независимых испытаний величина Х ровно три раза примет значение, принадлежащее интервалу (0.25, 0.75).

Вероятность того, что Х примет значение, заключенное в интервале (a, b), равна приращению функции распределения на этом интервале: P(a

P(0.25< X <0.75) = F(0.75)-F(0.25) = 0.5

Следовательно, , или Отсюда , или.

Случайная величина X задана на всей оси Ox функцией распределения . Найти возможное значения , удовлетворяющее условию: с вероятностью случайная X в результате испытания примет значение большее

Решение. События и - противоложные, поэтому . Следовательно, . Так как , то .

По определению функции распределения, .

Следовательно, , или . Отсюда , или.

Дискретная случайная величина X задана законом распределения

Итак, искомая функция распределения имеет вид

Дискретная случайная величина X задана законом распределения

Найти функцию распределения и начертить ее график.

Дана функция распределения непрерывной случайной величины X

Найти плотность распределения f(x).

Плотность распределения равна первой производной от функции распределения:

При x=0 производная не существует.

Непрерывная случайная величина X задана плотностью распределения в интервале ; вне этого интервала . Найти вероятность того, что X примет значение, принадлежащее интервалу .

Воспользуемся формулой . По условию ,и . Следовательно, искомая вероятность

Непрерывная случайная величина X задана плотностью распределения в интервале ; вне этого интервала . Найти вероятность того, что X примет значение, принадлежащее интервалу .

Воспользуемся формулой . По условию ,и . Следовательно, искомая вероятность

Плотность распределения непрерывной случайной величины Х в интервале (-π/2, π/2) равна f(x)=(2/π)*cos2x ; вне этого интервала f(x)=0. Найти вероятность того, что в трех независимых испытаниях Х примет ровно два раза значение, заключенное в интервале (0, π/4).

Воспользуемся формулой Р(a

Р(0

Ответ: π+24π.

fx=0, при x≤0cosx, при 0

Используем формулу

Если х ≤0, то f(x)=0, следовательно,

F(x)=-∞00dx=0.

Если 0

F(x)=-∞00dx+0xcosxdx=sinx.

Если x≥ π2 , то

F(x)=-∞00dx+0π2cosxdx+π2x0dx=sinx|0π2=1.

Итак, искомая функция распределения

Fx=0, при x≤0sinx, при 0 π2.

Задана плотность распределения непрерывной случайной величины Х:

Fx=0, при x≤0sinx, при 0 π2.

Найти функцию распределения F(x).

Используем формулу

Плотность распределения непрерывной случайной величины Х задана на всей оси Ох равеством . Найти постоянный параметр С.

.

. (*)

.

Таким образом,

Плотность распределения непрерывной случайной величины задана на всей оси равенством Найти постоянный параметр С.

Решение. Плотность распределения должна удовлетворять условию . Потребуем, чтобы это условие выполнялось для заданной функции:

.

. (*)

Найдем сначала неопределенный интеграл:

.

Затем вычислим несобственный интеграл:

Таким образом,

Подставив (**) в (*), окончательно получим .

Плотность распределения непрерывной случайной величины X в интервале равна ; вне этого интервала f(х) = 0. Найти постоянный параметр С.

.

. (*)

Найдем сначала неопределенный интеграл:

Затем вычислим несобственный интеграл:

(**)

Подставив (**) в (*), окончательно получим .

Плотность распределения непрерывной случайной величины Х задана в интервале равенством ; вне этого интервала f(х) = 0. Найти постоянный параметр С.

Решение. Плотность распределения должна удовлетворять условию , но так как f(x) вне интервала равна 0 достаточно, чтобы она удовлетворяла: Потребуем, чтобы это условие выполнялось для заданной функции:

.

. (*)

Найдем сначала неопределенный интеграл:

Затем вычислим несобственный интеграл:

(**)

Подставив (**) в (*), окончательно получим .

Случайная величина X задана плотностью распределения ƒ(x) = 2x в интервале (0,1); вне этого интервала ƒ(x) = 0. Найти математическое ожидание величины X.

Решение. Используем формулу

Подставив a = 0, b = 1, ƒ(x) = 2x, получим

Ответ: 2/3.

Случайная величина X задана плотностью распределения ƒ(x) = (1/2)x в интервале (0;2); вне этого интервала ƒ(x) = 0. Найти математическое ожидание величины X.

Решение. Используем формулу

Подставив a = 0, b = 2, ƒ(x) = (1/2)x, получим

М (Х) = = 4/3

Ответ: 4/3.

Случайная величина X в интервале (–с, с) задана плотностью распределения

ƒ(x) = ; вне этого интервала ƒ(x) = 0. Найти математическое ожидание величины X.

Решение. Используем формулу

Подставив a = –с, b = c, ƒ(x) = , получим

Учитывая, что подынтегральная функция нечетная и пределы интегрирования симметричны относительно начала координат, заключаем, что интеграл равен нулю. Следовательно, М(Х) = 0.

Этот результат можно получить сразу, если принять во внимание, что кривая распределения симметрична относительно прямой х = 0.

Случайная величина Х в интервале (2, 4) задана плотностью распределения f(x)=

. Отсюда видно, что при х=3 плотность распределения достигает максимума; следовательно, . Кривая распределения симметрична относительно прямой х=3, поэтому и .

Случайная величина Х в интервале (3, 5) задана плотностью распределения f(x)=; вне этого интервала f(x)=0. Найти моду, математическое ожидание и медиану величины Х.

Решение. Представим плотность распределения в виде . Отсюда видно, что при х=3 плотность распределения достигает максимума; следовательно, . Кривая распределения симметрична относительно прямой х=4, поэтому и .

Случайная величина Х в интервале (-1, 1) задана плотностью распределения ; вне этого интервала f(x)=0. Найти: а) моду; б) медиану Х.

В теории вероятностей приходится иметь дело со случайными величинами, все значения которых нельзя перебрать. Например, нельзя взять и «перебрать» все значения случайной величины $X$ - время службы часов, поскольку время может измеряться в часах, минутах, секундах, миллисекундах, и т.д. Можно лишь указать некоторый интервал, в пределах которого находятся значения случайной величины.

Непрерывная случайная величина - это случайная величина, значения которой целиком заполняют некоторый интервал.

Функция распределения непрерывной случайной величины

Поскольку перебрать все значения непрерывной случайной величины не представляется возможным, то задать ее можно с помощью функции распределения.

Функцией распределения случайной величины $X$ называется функция $F\left(x\right)$, которая определяет вероятность того, что случайная величина $X$ примет значение, меньшее некоторого фиксированного значения $x$, то есть $F\left(x\right)=P\left(X < x\right)$.

Свойства функции распределения:

1 . $0\le F\left(x\right)\le 1$.

2 . Вероятность того, что случайная величина $X$ примет значения из интервала $\left(\alpha ;\ \beta \right)$, равна разности значений функции распределения на концах этого интервала: $P\left(\alpha < X < \beta \right)=F\left(\beta \right)-F\left(\alpha \right)$.

3 . $F\left(x\right)$ - неубывающая.

4 . ${\mathop{lim}_{x\to -\infty } F\left(x\right)=0\ },\ {\mathop{lim}_{x\to +\infty } F\left(x\right)=1\ }$.

Пример 1
0,\ x\le 0\\
x,\ 0 < x\le 1\\
1,\ x>1
\end{matrix}\right.$. Вероятность попадания случайной величины $X$ в интервал $\left(0,3;0,7\right)$ можем найти как разность значений функции распределения $F\left(x\right)$ на концах этого интервала, то есть:

$$P\left(0,3 < X < 0,7\right)=F\left(0,7\right)-F\left(0,3\right)=0,7-0,3=0,4.$$

Плотность распределения вероятностей

Функция $f\left(x\right)={F}"(x)$ называется плотностью распределения вероятностей, то есть это производная первого порядка, взятая от самой функции распределения $F\left(x\right)$.

Свойства функции $f\left(x\right)$.

1 . $f\left(x\right)\ge 0$.

2 . $\int^x_{-\infty }{f\left(t\right)dt}=F\left(x\right)$.

3 . Вероятность того, что случайная величина $X$ примет значения из интервала $\left(\alpha ;\ \beta \right)$ - это $P\left(\alpha < X < \beta \right)=\int^{\beta }_{\alpha }{f\left(x\right)dx}$. Геометрически это означает, что вероятность попадания случайной величины $X$ в интервал $\left(\alpha ;\ \beta \right)$ равна площади криволинейной трапеции, которая будет ограничена графиком функции $f\left(x\right)$, прямыми $x=\alpha ,\ x=\beta $ и осью $Ox$.

4 . $\int^{+\infty }_{-\infty }{f\left(x\right)}=1$.

Пример 2 . Непрерывная случайная величина $X$ задана следующей функцией распределения $F(x)=\left\{\begin{matrix}
0,\ x\le 0\\
x,\ 0 < x\le 1\\
1,\ x>1
\end{matrix}\right.$. Тогда функция плотности $f\left(x\right)={F}"(x)=\left\{\begin{matrix}
0,\ x\le 0 \\
1,\ 0 < x\le 1\\
0,\ x>1
\end{matrix}\right.$

Математическое ожидание непрерывной случайной величины

Математическое ожидание непрерывной случайной величины $X$ вычисляется по формуле

$$M\left(X\right)=\int^{+\infty }_{-\infty }{xf\left(x\right)dx}.$$

Пример 3 . Найдем $M\left(X\right)$ для случайной величины $X$ из примера $2$.

$$M\left(X\right)=\int^{+\infty }_{-\infty }{xf\left(x\right)\ dx}=\int^1_0{x\ dx}={{x^2}\over {2}}\bigg|_0^1={{1}\over {2}}.$$

Дисперсия непрерывной случайной величины

Дисперсия непрерывной случайной величины $X$ вычисляется по формуле

$$D\left(X\right)=\int^{+\infty }_{-\infty }{x^2f\left(x\right)\ dx}-{\left}^2.$$

Пример 4 . Найдем $D\left(X\right)$для случайной величины $X$ из примера $2$.

$$D\left(X\right)=\int^{+\infty }_{-\infty }{x^2f\left(x\right)\ dx}-{\left}^2=\int^1_0{x^2\ dx}-{\left({{1}\over {2}}\right)}^2={{x^3}\over {3}}\bigg|_0^1-{{1}\over {4}}={{1}\over {3}}-{{1}\over {4}}={{1}\over{12}}.$$

Математическое ожидание

Дисперсия непрерывной случайной величины X , возможные значения которой принадлежат всей оси Ох, определяется равенством:

Назначение сервиса . Онлайн калькулятор предназначен для решения задач, в которых заданы либо плотность распределения f(x) , либо функция распределения F(x) (см. пример). Обычно в таких заданиях требуется найти математическое ожидание, среднее квадратическое отклонение, построить графики функций f(x) и F(x) .

Инструкция . Выберите вид исходных данных: плотность распределения f(x) или функция распределения F(x) .

Задана плотность распределения f(x):

Задана функция распределения F(x):

Непрерывная случайна величина задана плотностью вероятностей
(закон распределения Релея – применяется в радиотехнике). Найти M(x) , D(x) .

Случайную величину X называют непрерывной , если ее функция распределения F(X)=P(X < x) непрерывна и имеет производную.
Функция распределения непрерывной случайной величины применяется для вычисления вероятностей попадания случайной величины в заданный промежуток:
P(α < X < β)=F(β) - F(α)
причем для непрерывной случайной величины не имеет значения, включаются в этот промежуток его границы или нет:
P(α < X < β) = P(α ≤ X < β) = P(α ≤ X ≤ β)
Плотностью распределения непрерывной случайной величины называется функция
f(x)=F’(x) , производная от функции распределения.

Свойства плотности распределения

1. Плотность распределения случайной величины неотрицательна (f(x) ≥ 0) при всех значениях x.
2. Условие нормировки:

Геометрический смысл условия нормировки: площадь под кривой плотности распределения равна единице.
3. Вероятность попадания случайной величины X в промежуток от α до β может быть вычислена по формуле

Геометрически вероятность попадания непрерывной случайной величины X в промежуток (α, β) равна площади криволинейной трапеции под кривой плотности распределения, опирающейся на этот промежуток.
4. Функция распределения выражается через плотность следующим образом:

Значение плотности распределения в точке x не равно вероятности принять это значение, для непрерывной случайной величины речь может идти только о вероятности попадания в заданный интервал. Пусть равна приращению функции распределения вероятностей на этом интервале.

P{Б?X<В}=F(В)-F(Б).

4. F(x2)? F(x1), если x2, > x1, т.е. функция распределения вероятностей является неубывающей функцией.

5. Функция распределения вероятностей непрерывна слева.

FШ(xo-0)=limFШ(x)=FШ(xo) при х> xo

Различия между функциями распределения вероятностей дискретной и непрерывной случайных величин хорошо иллюстрировать графиками. Пусть, например, дискретная случайная величина имеет n возможных значений, вероятности которых равны

P{X=xk}=pk, k=1,2,..n.

Если x ? x1, то F(Х)=0, так как левее х нет возможных значений случайной величины. Если x1< x ? x2 , то левее х находится всего одно возможное значение, а именно, значение х1.

Значит, F(x)=P{X=x1}=p1.При x2< x ? x3 слева от х находится уже два возможных значения, поэтому F(x)=P{X=x1}+P{X=x2}=p1+p2. Рассуждая аналогично, приходим к выводу, что если хk< x? xk+1, то F(x)=1, так как функция будет равна сумме вероятностей всех возможных значений, которая по условию нормировки равна единице. Таким образом, график функции распределения дискретной случайной величины является ступенчатым. Возможные значения непрерывной величины располагаются плотно на интервале задания этой величины, что обеспечивает плавное возрастания функции распределения F(x), т.е. ее непрерывность.

Рассмотрим вероятность попадания случайной величины в интервал

Дx>0: P{x?X< x+Дx}=F(x+ Дx)-F(x).

Перейдем к пределу при Дx>0:

lim(Дx>0)P{x? X < x+Дx}=lim(Дx>0)F(x+Дx)-F(x).

Предел равен вероятности того, что случайная величина примет значение, равное х. Если функция F(x) непрерывна в точке х, то

lim(Дx>0)F(x+Дx)=F(x), т.е. P{X=x}=0.

Если F(x) имеет разрыв в точке х, то вероятность P{X=x} будет равна скачку функции в этой точке. Таким образом, вероятность появления любого возможного значения для непрерывной величины равна нулю. Выражение P{X=x}=0 следует понимать как предел вероятности попадания случайной величины в бесконечно малую окрестность точки х при

P{Б< X? В},P{Б? X< В},P{Б< X< В},P{Б? X? В}

равны, если Х - непрерывная случайная величина.

Для дискретных величин эти вероятности неодинаковы в том случае, когда границы интервала Б и(или) В совпадают с возможными значениями случайной величин. Для дискретной случайной величины необходимо строго учитывать тип неравенства в формуле P{Б?X<В}=F(В)-F(Б).

Свойства функции распределения

Любая функция распределения обладает следующими свойствами:

Она не убывает: если, то;

Существуют пределы и;

Она в любой точке непрерывна слева:

Доказательство свойства (1). Для любых чисел событие влечёт событие, т.е. . Но вероятность - монотонная функция событий, поэтому

Для доказательства остальных свойств нам понадобится свойство непрерывности вероятностной меры.

Доказательство свойства (2). Заметим сначала, что существование пределов в свойствах (2), (3) вытекает из монотонности и ограниченности функции. Остается лишь доказать равенства

Для этого в каждом случае достаточно найти предел по какой-нибудь подпоследовательности, так как существование предела влечёт совпадение всех частичных пределов.

Докажем, что при. Рассмотрим вложенную убывающую последовательность событий:

Пересечение всех этих событий состоит из тех и только тех, для которых меньше любого вещественного числа. Но для любого элементарного исхода значение вещественно, и не может быть меньше всех вещественных чисел. Иначе говоря, пересечение событий не содержит элементарных исходов, т.е. . По свойству непрерывности меры, при.

Точно так же докажем остальные свойства.

Покажем, что при, т.е. . Обозначим через событие. События вложены:

а пересечение этих событий снова пусто - оно означает, что больше любого вещественного числа. По свойству непрерывности меры,

Доказательство свойства (3). Достаточно доказать, что

при. Иначе говоря, доказать сходимость к нулю следующей разности:

вероятность распределение регрессионный анализ

Регрессионный анализ

Регрессионный анализ - метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ - раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Регрессия - зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть. Регрессионным анализом называется поиск такой функции f, которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

где f - функция регрессионной зависимости, а v - аддитивная случайная величина с нулевым матожиданием. Предположение о характере распределения этой величины называется гипотезой порождения данных. Обычно предполагается, что величина v имеет гауссово распределение с нулевым средним и дисперсией.

Задача нахождения регрессионной модели нескольких свободных переменных ставится следующим образом. Задана выборка - множество значений свободных переменных и множество соответствующих им значений зависимой переменной. Эти множества обозначаются как D, множество исходных данных. Задана регрессионная модель - параметрическое семейство функций f(w,x) зависящая от параметров и свободных переменных x. Требуется найти наиболее вероятные параметры:

Функция вероятности p зависит от гипотезы порождения данных и задается Байесовским выводом или методом наибольшего правдоподобия.

Линейная регрессия предполагает, что функция f зависит от параметров w линейно. При этом линейная зависимость от свободной переменной x необязательна,

В случае, когда функция линейная регрессия имеет вид

здесь - компоненты вектора x.

Значения параметров в случае линейной регрессии находят с помощью метода наименьших квадратов. Использование этого метода обосновано предположением о гауссовском распределении случайной переменной.

Разности между фактическими значениями зависимой переменной и восстановленными называются регрессионными остатками (residuals). В литературе используются также синонимы: невязки и ошибки. Одной из важных оценок критерия качества полученной зависимости является сумма квадратов остатков:

Здесь SSE - Sum of Squared Errors.

Дисперсия остатков вычисляется по формуле

Здесь MSE - Mean Square Error, среднеквадратичная ошибка.

Нелинейные регрессионные модели - модели вида, которые не могут быть представлены в виде скалярного произведения

Где - параметры регрессионной модели, x - свободная переменная из пространства Rn, y - зависимая переменная, v - случайная величина и - функция из некоторого заданного множества.

Задача

По двум независимым выборкам объемом n1=30 и n2=15, извлеченным из нормальных генеральных совокупностей, найдены выборочные средние =25 и =27. Дисперсии генеральных совокупностей известны =1,3 и =1,6. На уровне значимости =0,1 проверить гипотезу Н0: м1= м2 при конкурирующей гипотезе Н1: м1м2.

Найдем отношение большой исправленной дисперсии к меньшей Fнабл=1.6/1.3=1.23.

По условию конкурирующая гипотеза имеет вид м1м2 поэтому критическая область - двусторонняя. В соответствии с правилом 2 при отыскании критической точки следует брать уровень значимости вдвое меньше заданного.

По таблице приложения 7, по уровню значимости a/2=0.1/2=0.05 и числом степеней свободы k1=15-1=14 и k2=30-1=29, находим критическую точку Fкр(0,05;14;29)=2,38.

Так как Fнабл>Fкр - нулевую гипотезу о равенстве генеральных дисперсий отвергаем.

Список используемой литературы

1. Ахтямов А.М. «Теория вероятностей». - М.: Физматлит, 2009.

2. Булдык Г.М. «Теория вероятностей и математическая статистика», Мн., Высш. шк., 1989.

3. Гнеденко Б.В. «Курс теории вероятностей», УРСС. М.: 2001.

4. Мацкевич И.П., Свирид Г.П. «Высшая математика. Теория вероятностей и математическая статистика», Мн.: Выш. шк., 1993.

5. Севастьянов Б.А. «Курс теории вероятностей и математической статистики», - М.: Наука, 1982.