Медіана є середнім значенням у відсортованому наборі даних. Це один із трьох основних показників центральної тенденції — поряд із середнім і модою — і він особливо корисний, коли ваші дані містять викиди або спотворені значення.
Що таке медіана?
Медіана ділить набір даних точно навпіл: 50% значень знаходяться нижче, а 50% – вище. На відміну від середнього, на медіану не впливають крайні значення.
Приклад. Середня зарплата в 50 000 доларів США більше розповість про типового працівника, ніж середня зарплата в 90 000 доларів США, отримана кількома керівниками, які заробляють мільйони.
Як знайти медіану: непарна кількість значень
Крок 1: Відсортуйте всі значення в порядку зростання (від найменшого до найбільшого).
Крок 2: Знайдіть середнє значення — те, що має однакову кількість значень з кожного боку.
Приклад: Набір даних: 7, 3, 5, 1, 9
- Сортування: 1, 3, 5, 7, 9
- Середнє значення 5 (2 значення нижче, 2 значення вище)
Медіана становить 5.
Як знайти медіану: парна кількість значень
Якщо є парна кількість значень, немає жодного середнього значення — у вас є два. Медіана – це середнє значення цих двох середніх значень.
Крок 1: Відсортуйте всі значення в порядку зростання.
Крок 2: Визначте два середніх значення.
Крок 3: Додайте їх разом і поділіть на 2.
Приклад: Набір даних: 4, 8, 6, 2, 10, 3
- Сортування: 2, 3, 4, 6, 8, 10
- Два середніх значення – 4 і 6
- Медіана = (4 + 6) / 2 = 5
Медіана становить 5.
Пошук середньої позиції
Для будь-якого набору даних із n значень середня позиція:
- Непарне n: Позиція = (n + 1) / 2
- Even n: Середні позиції n/2 і (n/2) + 1
| n значень | Середня позиція |
|---|---|
| 5 | Позиція 3 |
| 7 | Позиція 4 |
| 10 | Середнє значення позицій 5 і 6 |
| 12 | Середнє 6 і 7 позицій |
Спрацьований приклад: більший набір даних
Набір даних: 14, 23, 8, 31, 17, 5, 29, 11, 20, 18, 25, 9
Крок 1: Кількість: 12 значень (парних)
Крок 2: Сортування: 5, 8, 9, 11, 14, 17, 18, 20, 23, 25, 29, 31
Крок 3: Середні позиції – це 6-е та 7-е значення = 17 і 18
Крок 4: Медіана = (17 + 18) / 2 = 17,5
Медіана проти середнього: що слід використовувати?
| Ситуація | Краще міряйте |
|---|---|
| Дані мають викиди | Медіана |
| Дані спотворені (наприклад, дохід) | Медіана |
| Симетричний розподіл | Або (точніше означає) |
| Категориальні або порядкові дані | Медіана |
| Необхідно використовувати в подальших розрахунках | Середній |
Емпіричне правило: якщо середнє значення та медіана сильно відрізняються, ваші дані спотворені. Повідомте медіану як більш репрезентативне значення.
Медіана згрупованих даних
Коли дані представлені в таблицях частот або згрупованих інтервалах, ви можете оцінити медіану за допомогою інтерполяції.
Приклад:
| Оцінка | Частота | Кумулятивна частота |
|---|---|---|
| 0–20 | 3 | 3 |
| 21–40 | 7 | 10 |
| 41–60 | 12 | 22 |
| 61–80 | 8 | 30 |
| 81–100 | 5 | 35 |
Разом: 35 значень. Медіана — 18-е значення (позиція = (35+1)/2 = 18).
18-те значення потрапляє в групу 41–60 (сукупна частота досягає 22 у цій групі, а до неї була 10).
Median ≈ L + [(n/2 − F) / f] × h
Де:
- L = нижня межа середнього класу = 41
- n = загальна частота = 35
- F = кумулятивна частота перед середнім класом = 10
- f = частота медіанного класу = 12
- h = ширина класу = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
≈ 41 + [7.5 / 12] × 20
≈ 41 + 12.5
≈ 53.5
Зважена медіана
Якщо точки даних мають різну вагу або важливість, використовуйте зважену медіану — значення, за якого кумулятивна вага досягає 50%.
Приклади з реального світу
Ціни на житло. Середня ціна житла в місті краще представляє «типовий» будинок, ніж середнє значення, яке може спотворюватися кількома розкішними об’єктами нерухомості.
Тестові результати: Якщо більшість студентів набрали 60–70 балів, але деякі набрали 100 балів, середній бал більш інформативний, ніж середній.
Час відповіді: у веб-продуктивності середній час відповіді показує, що відчуває типовий користувач, тоді як середнє значення може бути знижено випадковими повільними запитами.
Поширені помилки
Не сортування спочатку — Ви повинні відсортувати дані, перш ніж знайти середнє значення.
Один на позиції — для 9 значень медіана знаходиться в позиції 5, а не в позиції 4,5.
Використання середнього значення для парних наборів даних — для парної кількості значень завжди усереднюйте два середніх значення.