ИК Анализ Данных: Теория

1. Дайте определение случайного события и приведите пример из экономики. ▸

Случайное событие — это любой исход эксперимента, который при реализации определенных условий может произойти или не произойти. Пример: банкротство предприятия в текущем квартале или резкое изменение курса валют.

2. Что такое вероятность и как она интерпретируется в статистике? ▸

Вероятность — числовая мера объективной возможности наступления события ($0 \le P(A) \le 1$). В статистике она интерпретируется как предел относительной частоты появления события при бесконечном повторении испытаний.

3. Сформулируйте правило сложения и произведения событий. ▸

Правило сложения: для любых событий $P(A+B) = P(A) + P(B) - P(AB)$. Правило произведения: для зависимых событий $P(AB) = P(A) \cdot P(B|A)$, для независимых $P(AB) = P(A) \cdot P(B)$.

4. Что такое независимые события? Приведите пример. ▸

События называются независимыми, если вероятность наступления одного не влияет на вероятность другого. Пример: изменение цены на акции технологической компании в США и количество осадков в сельском хозяйстве Узбекистана.

5. Что такое условная вероятность и как она вычисляется? ▸

Условная вероятность — это вероятность события $A$, вычисленная при условии, что событие $B$ уже произошло. Вычисляется по формуле: $P(A|B) = \frac{P(AB)}{P(B)}$, где $P(B) > 0$.

6. Сформулируйте и объясните формулу полной вероятности. ▸

Формула полной вероятности позволяет найти вероятность события $A$, которое может произойти только вместе с одной из гипотез $H_i$: $P(A) = \sum P(H_i) \cdot P(A|H_i)$. Она суммирует вероятности всех возможных путей реализации события.

7. Как формула полной вероятности применяется для анализа кредитных рисков? ▸

В анализе кредитных рисков событие $A$ (невозврат кредита) может зависеть от состояния экономики (гипотезы $H_1$ — рост, $H_2$ — кризис). Формула позволяет оценить общий риск дефолта портфеля с учетом вероятности наступления каждого сценария.

8. Что представляет собой формула Байеса и где она применяется? ▸

Формула Байеса позволяет переоценить вероятности гипотез после того, как стало известно, что событие $A$ уже произошло: $P(H_i|A) = \frac{P(H_i)P(A|H_i)}{P(A)}$. Применяется для уточнения прогнозов при получении новой рыночной информации.

9. Последовательность независимых экспериментов и формула Бернулли. ▸

Схема Бернулли описывает серию из $n$ независимых испытаний с двумя исходами (успех/неудача). Формула Бернулли: $P_n(k) = C_n^k p^k q^{n-k}$ находит вероятность того, что успех наступит ровно $k$ раз.

10. Какие типы случайных событий используются при моделировании рыночных рисков? ▸

Используются дискретные (дефолт эмитента, изменение рейтинга) и непрерывные события (колебания цен активов, волатильность). Также выделяют экстремальные события («черные лебеди»), имеющие малую вероятность, но огромный ущерб.

11. Почему при прогнозировании в экономике важно учитывать зависимость событий? ▸

Игнорирование зависимости ведет к недооценке системного риска. В экономике события часто взаимосвязаны (эффект домино): падение одной отрасли может вызвать кризис в смежных отраслях.

12. Что такое случайная величина и как она задается? ▸

Случайная величина (СВ) — это переменная, которая принимает числовые значения в зависимости от исхода опыта. Задается законом распределения (таблицей, рядом распределения, функцией или плотностью).

13. Объясните различие между дискретной и непрерывной случайной величиной. ▸

Дискретная СВ принимает отдельные значения из счетного множества (количество сделок). Непрерывная СВ может принимать любые значения из некоторого интервала (годовой доход, цена золота).

14. Какие параметры характеризуют дискретную случайную величину? ▸

Основными параметрами являются: математическое ожидание (среднее значение), дисперсия (квадрат разброса), среднее квадратическое отклонение и мода (наиболее вероятное значение).

15. В чём состоит принцип моделирования экономических показателей как непрерывных величин? ▸

Принцип основан на использовании функции плотности вероятности. Считается, что значения показателя распределены бесконечно плотно (например, время или доход), что позволяет использовать методы интегрального исчисления для оценки вероятностей.

16. Что показывает функция распределения $F(x)$ в экономических задачах? ▸

Функция распределения показывает вероятность того, что значение показателя $X$ будет меньше заданного числа $x$. Например, вероятность того, что убытки компании не превысят миллион рублей.

17. Как плотность распределения используется при оценке доходностей активов? ▸

Плотность распределения $f(x)$ позволяет вычислить вероятность попадания доходности в заданный интервал. Площадь под графиком плотности на участке $[a, b]$ — это вероятность того, что прибыль составит от $a$ до $b$.

18. Дайте определение математического ожидания и дисперсии. ▸

Мат. ожидание $E(X)$ — средневзвешенное значение СВ, центр распределения. Дисперсия $D(X)$ — средний квадрат отклонения величины от её ожидания, мера изменчивости и риска.

19. Определите биномиальное распределение и его параметры. ▸

Биномиальное распределение — распределение числа успехов в серии испытаний Бернулли. Параметры: $n$ (общее число испытаний) и $p$ (вероятность успеха в одном испытании).

20. Что описывает распределение Пуассона? ▸

Распределение Пуассона описывает количество редких событий, произошедших за фиксированный интервал времени или пространства. Пример: число страховых случаев в месяц или число заходов покупателей в магазин в час.

21. В чем заключается смысл предельных теорем для экономики? ▸

Они объясняют, почему при агрегировании большого количества малых случайных факторов поведение системы становится предсказуемым. Это фундамент для перехода от индивидуального поведения к рыночным закономерностям.

22. Что такое центральная предельная теорема (ЦПТ) и её значение? ▸

ЦПТ утверждает, что сумма или среднее значение большого числа независимых СВ распределены нормально. Она позволяет использовать нормальное распределение даже если исходные данные распределены иначе.

23. Как ЦПТ обосновывает использование нормального распределения в эконометрике? ▸

Поскольку ошибка регрессии является результатом влияния множества неучтенных факторов, согласно ЦПТ, эта ошибка должна иметь нормальное распределение, что критически важно для проверки гипотез.

24. Приведите пример экономической задачи, где работает ЦПТ. ▸

Формирование спроса: общий объем покупок хлеба в городе за день — это сумма тысяч мелких независимых решений горожан. Итог этой суммы будет подчиняться нормальному закону.

25. Почему закон больших чисел важен для анализа средней выручки? ▸

ЗБЧ гарантирует, что при большом числе покупателей выборочная средняя выручка будет очень близка к истинному среднему. Это делает финансовое планирование стабильным и точным.

26. Неравенство Чебышева и его экономическое применение. ▸

Неравенство Чебышева дает верхнюю границу вероятности того, что СВ отклонится от среднего. Используется для гарантированной оценки рисков, когда точный закон распределения неизвестен.

27. Что такое генеральная совокупность и выборка? ▸

Генеральная совокупность — все потенциально возможные объекты исследования. Выборка — подмножество объектов, реально отобранных для наблюдения и анализа.

28. Что такое точечная оценка и какими свойствами она должна обладать? ▸

Точечная оценка — это конкретное число, оценивающее параметр. Свойства: несмещенность (ожидание оценки равно параметру), эффективность (минимальная дисперсия), состоятельность.

29. Почему выборочные оценки необходимы при анализе неопределённости? ▸

В экономике невозможно изучить все объекты (например, опросить всех потребителей). Выборка позволяет с определенной точностью и надежностью судить о всей совокупности в условиях неполной информации.

30. Как построить доверительный интервал для математического ожидания? ▸

Используется формула: $\bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}$ (при известной дисперсии) или $\bar{x} \pm t \cdot \frac{s}{\sqrt{n}}$ (при неизвестной, с использованием критерия Стьюдента). Это диапазон, накрывающий истинное значение с заданной вероятностью.

31. Почему ширина доверительного интервала зависит от объёма выборки? ▸

Ширина интервала обратно пропорциональна $\sqrt{n}$. Чем больше объем выборки, тем меньше стандартная ошибка среднего, и тем точнее (уже) наш прогноз.

32. Что представляет собой нулевая гипотеза в экономическом исследовании? ▸

Нулевая гипотеза ($H_0$) — утверждение об отсутствии эффекта, связи или различий. Например: «изменение налоговой ставки не повлияло на объем инвестиций».

33. Какова роль p-value при проверке статистических гипотез? ▸

P-value — это вероятность получить такие же или более сильные отклонения при условии верности $H_0$. Если $p < 0.05$, мы отвергаем нулевую гипотезу как неправдоподобную.

34. Как t-критерий используется для проверки гипотез о прибыли? ▸

T-критерий Стьюдента используется для сравнения средних значений прибыли в двух группах или проверки того, значимо ли средняя прибыль отличается от прогнозного значения на малых выборках.

35. В чём преимущества непараметрических критериев? ▸

Они не требуют предположения о нормальности распределения данных. Это важно для экономических показателей с «тяжелыми хвостами» или при наличии большого количества выбросов.

36. Что означает корреляция между двумя экономическими показателями? ▸

Корреляция — статистическая взаимосвязь между величинами. Положительная означает одновременный рост, отрицательная — рост одной при падении другой. Важно: корреляция не означает причинно-следственную связь.

37. Как с помощью ковариационной матрицы оценить риск портфеля? ▸

Ковариационная матрица содержит информацию о волатильности каждого актива и связях между ними. С её помощью находят совокупный риск портфеля, учитывая эффект диверсификации.

38. Объясните роль анализа данных в экономической стратегии. ▸

Анализ данных позволяет перейти от интуитивных решений к доказательной стратегии. Он помогает находить скрытые рыночные ниши, оптимизировать издержки и предсказывать поведение конкурентов.

39. Как визуализация помогает выявлять аномалии? ▸

С помощью графиков (диаграммы рассеяния, ящики с усами) можно мгновенно увидеть точки, выпадающие из общего тренда. Это могут быть ошибки ввода или уникальные рыночные события (выбросы).

40. В чем заключается цель очистки данных? ▸

Цель — устранение «шума»: пропусков, дубликатов и неверных значений. Чистые данные критически важны, так как низкое качество входа ведет к ошибочным моделям (принцип GIGO — Garbage In, Garbage Out).

41. Что такое модель классификации в машинном обучении? ▸

Алгоритм, который присваивает объекту определенную категорию. В экономике это: «вернет кредит / не вернет», «уйдет клиент / останется».

42. Как алгоритмы машинного обучения прогнозируют спрос? ▸

Они анализируют исторические данные, учитывая сезонность, цены конкурентов, праздники и погодные условия, находя сложные нелинейные закономерности, недоступные классической статистике.

43. Приведите пример задачи кластеризации в экономике. ▸

Сегментация клиентской базы: автоматическое разделение покупателей на группы (например, «экономные», «лояльные», «премиум») для разработки таргетированного маркетинга.

44. Какие преимущества даёт автоматизация анализа данных? ▸

Скорость обработки огромных массивов информации (Big Data), исключение человеческого фактора (ошибок) и возможность проводить анализ в режиме реального времени.

45. Каково содержание признаков в моделях машинного обучения? ▸

Признаки (фичи) — это характеристики объектов (доход клиента, возраст, средний чек). Их экономический смысл определяет интерпретируемость модели и качество прогноза.

46. Что такое теорема Леви? ▸

Это классическая форма ЦПТ для последовательности независимых одинаково распределенных СВ с конечной дисперсией. Она гарантирует сходимость к нормальному распределению.

47. Параметрические статистические методы проверки гипотез. ▸

Методы, которые опираются на предположение о том, что данные следуют определенному известному распределению (обычно нормальному). К ним относятся Z-тест, t-тест, F-тест.

48. Что описывает односторонний доверительный интервал? ▸

Он ограничивает параметр только с одной стороны (сверху или снизу). Например, когда нам важно знать только максимально возможный уровень убытков с вероятностью 95%.

49. Характеристики точечных оценок: несмещенность. ▸

Несмещенность означает, что при многократном повторении эксперимента среднее значение всех полученных оценок будет в точности равно истинному значению параметра.

50. Проверка гипотез о дисперсиях. ▸

Часто используется F-критерий Фишера. В экономике это нужно для сравнения рискованности двух финансовых инструментов (активов) через сравнение их волатильности.

51. Пример предварительной обработки данных. ▸

Масштабирование: приведение дохода (в миллионах) и возраста (в десятках) к единой шкале $[0, 1]$. Без этого модель может «подумать», что доход важнее возраста просто из-за величины чисел.

52. Что такое генеральная совокупность в опросах? ▸

Если мы исследуем предпочтения молодежи Узбекистана, то генеральная совокупность — это абсолютно все граждане страны в возрасте от 18 до 30 лет.