Количественные характеристики
Числовой набор — это неупорядоченная коллекция данных. Для описания числовых массивов часто применяют средние значения (меры центра или меры центральной тенденции). Формально любое число из числового набора можно рассматривать как меру центральной тенденции.
К основным статистическим характеристикам набора данных (данные, которые мы собираемся исследовать) относятся:
объем числового массива,
Данная выборка представлена 11 элементами (x1=183; x2=194; x3=187; ...; x11=181). Таким образом, объем выборки (n) равен 11.
2. Размах числового массива – разность между максимальным и минимальным значениями элементов массива. Или, размах массива =xmax−xmin
Размах представленного массива составляет xmax−xmin=194−176=18 см.
3. Среднее арифметическое набора чисел (наиболее употребительное среднее) – это частное от деления суммы этих чисел на их количество (объем массива). Или, xcp.=(x1+x2+x3+...+xn)/n
Мы уже разбирались, что x1=183; x2=194; x3=187; ...; x11=181; n=11.
Можем сразу смело все подставлять в нашу формулу. И получим, что средний рост игрока сборной составляет 183,8 см.
Важным свойством среднего арифметического является то, что оно в одинаковой степени зависит от всех чисел в наборе. Среднее арифметическое используется для описания однородных суммируемых данных. С механической точки зрения среднее арифметическое — центр масс, точка равновесия.
4. Мода числового массива - число, наиболее часто встречающееся в данном массиве.
Обратимся снова к нашему примеру. Чему в данном примере равна мода? Какое число наиболее часто встречается в этом наборе? Это число 181, так как два игрока имеют рост 181 см; рост же остальных игроков не повторяется.
5. Медиана упорядоченного набора чисел с нечетным числом членов - число, которое окажется посередине.
Медиана упорядоченного набора чисел с четным числом членов - среднее арифметическое двух чисел, записанных посередине.
Медиана известна из курса геометрии. В геометрии медиана (в переводе с латинского- «средняя») - отрезок внутри треугольника, соединяющий вершину треугольника с серединой противоположной стороны. Ключевое слово СЕРЕДИНА. Поэтому легко запомнить, что такое медиана в статистике.
Вернёмся к нашему примеру.
Заметили в определении медианы важный момент, который нам еще здесь не встречался? Конечно, «если этот набор чисел упорядочить»! Для того, чтобы в наборе чисел был порядок, можно расположить значения роста футболистов как в порядке убывания, так и в порядке возрастания. Давайте выстроим этот набор в порядке возрастания (от самого маленького к самому большому). Вот, что получилось:
Набор упорядочили, какой еще есть важный момент в определении медианы? Правильно, четное и нечетное количество членов в массиве чисел. У нас нечётное число игроков 11! Ищем число, которое оказалось посередине в нашем упорядоченном наборе. Чисел у нас 11, значит, по краям остается по пять чисел, а рост 183 см будет медианой в нашем наборе.
Главное свойство медианы — устойчивость относительно слишком больших и слишком малых значений, сильно отличающихся от большинства прочих значений массива (выбросов). Также медиана хорошо отвечает на вопрос о типичном представителе совокупности. Недостатком медианы является то, что она определяется лишь одним или двумя типичными представителями. При вычислении медианы теряется очень много информации о числах в наборе.
6. Частота - число повторений определенного значения параметра в наборе.
В нашем случае, это можно считать вот так. Сколько игроков имеет рост 176? Все верно, один игрок. Таким образом, частота встречи игрока с ростом 176 в нашем наборе равна 1. Сколько игроков имеет рост 178? Да, опять же один игрок. Частота встречи игрока с ростом 178 в нашем наборе равна 1. Задавая такие вопросы и отвечая на них, можно составить вот такую табличку:
Всё довольно просто. Главное помните, что сумма частот должна равняться количеству элементов в числовом наборе (объему числового массива). То есть в нашем примере: 1+1+1+2+1+1+1+1+1+1=11
7. Относительная частота – это отношение частоты к общему числу данных в массиве.
Обратимся опять к нашему примеру с футболистами. Частоты для каждого значения мы рассчитали, общее количество данных в массиве мы тоже знаем (n=11). Рассчитываем относительную частоту для каждого значения роста и получаем вот такую таблицу:
Графическое изображение данных.
Для наглядности удобно представлять данные в виде соответствующих диаграмм/графиков
Вот основные из них:
столбчатая диаграмма,
круговая диаграмма,
гистограмма,
полигон
Столбчатая диаграмма
Столбчатые диаграммы используют тогда, когда хотят продемонстрировать динамику изменения данных во времени или распределения данных, полученных в результате статистического исследования. Например, у нас есть вот такие данные об оценках написанной контрольной работы в одном классе:
Количество получивших такую оценку – это у нас и есть частота. Зная это, мы можем составить вот такую вот табличку:
Теперь мы можем построить наглядные столбчатые графики на основе такого показателя как частота (на горизонтальной оси отражены оценки (2,3,4,5), на вертикальной оси откладываем количество учеников, получивших соответствующие оценки):
Или же можем построить соответствующий столбчатый график на основе относительной частоты:
Круговая диаграмма
Для наглядного изображения соотношения между частями исследуемого набора удобно использовать круговые диаграммы.
По нашей табличке с относительными частотами распределения оценок в классе мы можем построить круговую диаграмму, разбив круг на секторы, пропорциональные относительным частотам.
Вот так:
Круговая диаграмма сохраняет свою наглядность и выразительность только при небольшом числе частей совокупности. В нашем случае, таких частей четыре (в соответствии с возможными оценками 2,3,4,5), поэтому применение такого типа диаграммы достаточно эффективно.
Полигон
Динамику изменения статистических данных во времени часто изображают с помощью полигона. Для построения полигона отмечают в координатной плоскости точки, абсциссами которых служат моменты времени, а ординатами – соответствующие им статистические данные. Соединив последовательно эти точки отрезками, получают ломанную, которую называют полигоном.
Полигон, используют также для наглядного изображения распределения данных, полученных в результате статистического исследования.
Вот построенный полигон на основе нашего примера с распределением оценок:
Гистограмма
Интервальные ряды данных изображают с помощью гистограммы. Гистограмма представляет собой ступенчатую фигуру, составленную из сомкнутых прямоугольников. Основание каждого прямоугольника равно длине интервала, а высота – частоте или относительной частоте. Таким образом, в гистограмме, в отличие от обычной столбчатой диаграммы, основания прямоугольника выбираются не произвольно, а строго определены длиной интервала.