Случайное событие — это любой исход эксперимента, который при реализации определенных условий может произойти или не произойти. Пример: банкротство предприятия в текущем квартале или резкое изменение курса валют.
Вероятность — числовая мера объективной возможности наступления события ($0 \le P(A) \le 1$). В статистике она интерпретируется как предел относительной частоты появления события при бесконечном повторении испытаний.
Правило сложения: для любых событий $P(A+B) = P(A) + P(B) - P(AB)$. Правило произведения: для зависимых событий $P(AB) = P(A) \cdot P(B|A)$, для независимых $P(AB) = P(A) \cdot P(B)$.
События называются независимыми, если вероятность наступления одного не влияет на вероятность другого. Пример: изменение цены на акции технологической компании в США и количество осадков в сельском хозяйстве Узбекистана.
Условная вероятность — это вероятность события $A$, вычисленная при условии, что событие $B$ уже произошло. Вычисляется по формуле: $P(A|B) = \frac{P(AB)}{P(B)}$, где $P(B) > 0$.
Формула полной вероятности позволяет найти вероятность события $A$, которое может произойти только вместе с одной из гипотез $H_i$: $P(A) = \sum P(H_i) \cdot P(A|H_i)$. Она суммирует вероятности всех возможных путей реализации события.
В анализе кредитных рисков событие $A$ (невозврат кредита) может зависеть от состояния экономики (гипотезы $H_1$ — рост, $H_2$ — кризис). Формула позволяет оценить общий риск дефолта портфеля с учетом вероятности наступления каждого сценария.
Формула Байеса позволяет переоценить вероятности гипотез после того, как стало известно, что событие $A$ уже произошло: $P(H_i|A) = \frac{P(H_i)P(A|H_i)}{P(A)}$. Применяется для уточнения прогнозов при получении новой рыночной информации.
Схема Бернулли описывает серию из $n$ независимых испытаний с двумя исходами (успех/неудача). Формула Бернулли: $P_n(k) = C_n^k p^k q^{n-k}$ находит вероятность того, что успех наступит ровно $k$ раз.
Используются дискретные (дефолт эмитента, изменение рейтинга) и непрерывные события (колебания цен активов, волатильность). Также выделяют экстремальные события («черные лебеди»), имеющие малую вероятность, но огромный ущерб.
Игнорирование зависимости ведет к недооценке системного риска. В экономике события часто взаимосвязаны (эффект домино): падение одной отрасли может вызвать кризис в смежных отраслях.
Случайная величина (СВ) — это переменная, которая принимает числовые значения в зависимости от исхода опыта. Задается законом распределения (таблицей, рядом распределения, функцией или плотностью).
Дискретная СВ принимает отдельные значения из счетного множества (количество сделок). Непрерывная СВ может принимать любые значения из некоторого интервала (годовой доход, цена золота).
Основными параметрами являются: математическое ожидание (среднее значение), дисперсия (квадрат разброса), среднее квадратическое отклонение и мода (наиболее вероятное значение).
Принцип основан на использовании функции плотности вероятности. Считается, что значения показателя распределены бесконечно плотно (например, время или доход), что позволяет использовать методы интегрального исчисления для оценки вероятностей.
Функция распределения показывает вероятность того, что значение показателя $X$ будет меньше заданного числа $x$. Например, вероятность того, что убытки компании не превысят миллион рублей.
Плотность распределения $f(x)$ позволяет вычислить вероятность попадания доходности в заданный интервал. Площадь под графиком плотности на участке $[a, b]$ — это вероятность того, что прибыль составит от $a$ до $b$.
Мат. ожидание $E(X)$ — средневзвешенное значение СВ, центр распределения. Дисперсия $D(X)$ — средний квадрат отклонения величины от её ожидания, мера изменчивости и риска.
Биномиальное распределение — распределение числа успехов в серии испытаний Бернулли. Параметры: $n$ (общее число испытаний) и $p$ (вероятность успеха в одном испытании).
Распределение Пуассона описывает количество редких событий, произошедших за фиксированный интервал времени или пространства. Пример: число страховых случаев в месяц или число заходов покупателей в магазин в час.
Они объясняют, почему при агрегировании большого количества малых случайных факторов поведение системы становится предсказуемым. Это фундамент для перехода от индивидуального поведения к рыночным закономерностям.
ЦПТ утверждает, что сумма или среднее значение большого числа независимых СВ распределены нормально. Она позволяет использовать нормальное распределение даже если исходные данные распределены иначе.
Поскольку ошибка регрессии является результатом влияния множества неучтенных факторов, согласно ЦПТ, эта ошибка должна иметь нормальное распределение, что критически важно для проверки гипотез.
Формирование спроса: общий объем покупок хлеба в городе за день — это сумма тысяч мелких независимых решений горожан. Итог этой суммы будет подчиняться нормальному закону.
ЗБЧ гарантирует, что при большом числе покупателей выборочная средняя выручка будет очень близка к истинному среднему. Это делает финансовое планирование стабильным и точным.
Неравенство Чебышева дает верхнюю границу вероятности того, что СВ отклонится от среднего. Используется для гарантированной оценки рисков, когда точный закон распределения неизвестен.
Генеральная совокупность — все потенциально возможные объекты исследования. Выборка — подмножество объектов, реально отобранных для наблюдения и анализа.
Точечная оценка — это конкретное число, оценивающее параметр. Свойства: несмещенность (ожидание оценки равно параметру), эффективность (минимальная дисперсия), состоятельность.
В экономике невозможно изучить все объекты (например, опросить всех потребителей). Выборка позволяет с определенной точностью и надежностью судить о всей совокупности в условиях неполной информации.
Используется формула: $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ (при известной дисперсии) или $\bar{x} \pm t \cdot \frac{s}{\sqrt{n}}$ (при неизвестной, с использованием критерия Стьюдента). Это диапазон, накрывающий истинное значение с заданной вероятностью.
Ширина интервала обратно пропорциональна $\sqrt{n}$. Чем больше объем выборки, тем меньше стандартная ошибка среднего, и тем точнее (уже) наш прогноз.
Нулевая гипотеза ($H_0$) — утверждение об отсутствии эффекта, связи или различий. Например: «изменение налоговой ставки не повлияло на объем инвестиций».
P-value — это вероятность получить такие же или более сильные отклонения при условии верности $H_0$. Если $p < 0.05$, мы отвергаем нулевую гипотезу как неправдоподобную.
T-критерий Стьюдента используется для сравнения средних значений прибыли в двух группах или проверки того, значимо ли средняя прибыль отличается от прогнозного значения на малых выборках.
Они не требуют предположения о нормальности распределения данных. Это важно для экономических показателей с «тяжелыми хвостами» или при наличии большого количества выбросов.
Корреляция — статистическая взаимосвязь между величинами. Положительная означает одновременный рост, отрицательная — рост одной при падении другой. Важно: корреляция не означает причинно-следственную связь.
Ковариационная матрица содержит информацию о волатильности каждого актива и связях между ними. С её помощью находят совокупный риск портфеля, учитывая эффект диверсификации.
Анализ данных позволяет перейти от интуитивных решений к доказательной стратегии. Он помогает находить скрытые рыночные ниши, оптимизировать издержки и предсказывать поведение конкурентов.
С помощью графиков (диаграммы рассеяния, ящики с усами) можно мгновенно увидеть точки, выпадающие из общего тренда. Это могут быть ошибки ввода или уникальные рыночные события (выбросы).
Цель — устранение «шума»: пропусков, дубликатов и неверных значений. Чистые данные критически важны, так как низкое качество входа ведет к ошибочным моделям (принцип GIGO — Garbage In, Garbage Out).
Алгоритм, который присваивает объекту определенную категорию. В экономике это: «вернет кредит / не вернет», «уйдет клиент / останется».
Они анализируют исторические данные, учитывая сезонность, цены конкурентов, праздники и погодные условия, находя сложные нелинейные закономерности, недоступные классической статистике.
Сегментация клиентской базы: автоматическое разделение покупателей на группы (например, «экономные», «лояльные», «премиум») для разработки таргетированного маркетинга.
Скорость обработки огромных массивов информации (Big Data), исключение человеческого фактора (ошибок) и возможность проводить анализ в режиме реального времени.
Признаки (фичи) — это характеристики объектов (доход клиента, возраст, средний чек). Их экономический смысл определяет интерпретируемость модели и качество прогноза.
Это классическая форма ЦПТ для последовательности независимых одинаково распределенных СВ с конечной дисперсией. Она гарантирует сходимость к нормальному распределению.
Методы, которые опираются на предположение о том, что данные следуют определенному известному распределению (обычно нормальному). К ним относятся Z-тест, t-тест, F-тест.
Он ограничивает параметр только с одной стороны (сверху или снизу). Например, когда нам важно знать только максимально возможный уровень убытков с вероятностью 95%.
Несмещенность означает, что при многократном повторении эксперимента среднее значение всех полученных оценок будет в точности равно истинному значению параметра.
Часто используется F-критерий Фишера. В экономике это нужно для сравнения рискованности двух финансовых инструментов (активов) через сравнение их волатильности.
Масштабирование: приведение дохода (в миллионах) и возраста (в десятках) к единой шкале $[0, 1]$. Без этого модель может «подумать», что доход важнее возраста просто из-за величины чисел.
Если мы исследуем предпочтения молодежи Узбекистана, то генеральная совокупность — это абсолютно все граждане страны в возрасте от 18 до 30 лет.