Ранее мы писали про контрольные карты Шухарта – прекрасный инструмент статистического управления процессами, который призван помочь нам принимать взвешенные и обоснованные решения на основании проведённых измерений. Именно благодаря этому инструменту мы можем переводить данные в информацию и знания, постепенно приобретая мудрость. Но в то же время контрольные карты Шухарта являются отличным примером визуализации информации – и именно о визуализации мы поговорим в этой статье.
Визуализация данных и информации – это представление в графическом виде какого-либо текста или чисел. Но нас, в первую очередь, будут интересовать результаты различных измерений, которые обычно хранятся в виде таблиц или, возможно, даже простого текста. Наверняка многим из вас приходилось строить различные диаграммы, рисовать графики и т. д., и уж совсем точно, каждый из вас так или иначе сталкивался с таким представлением информации на работе или в обычной жизни.
Давайте же разберёмся, зачем мы это делаем, какие интересные инструменты для этого существуют и какие подводные камни нас могут ожидать на пути визуализации.
Несмотря на то, что мало кто задаётся вопросом целесообразности графического представления информации, мы всё-таки решили начать именно с этого – с ответа на вопрос «зачем?».
Мы выделили три основных момента:
Конечно, за всем этим по-прежнему стоит одна глобальная цель – принятие правильных, взвешенных, рациональных решений по итогам анализа данных. И как раз выполнение трёх указанных выше задач визуализации и позволит нам более эффективно проводить анализ данных.
«Рецепт мозга выглядит так: 78% воды, 15% жира, а остальное – белки,
гидрат калия и соль. Нет ничего более сложного во Вселенной из того, что мы знаем и что сопоставимо с мозгом вообще»
Татьяна Черниговская, профессор СПбГУ,
нейролингвист и экспериментальный психолог,
доктор филологии и биологии,
член-корреспондент Норвежской академии наук.
Мы привыкли думать, что у мозга есть правая и левая части, каждая из которых отвечает за какой-то свой тип мышления. Есть даже распространённые названия – логическое (аналитическое) и креативное (творческое) мышление, за каждое из которых якобы отвечает определённое полушарие. На самом деле, если верить Татьяне Черниговской, ведущему российскому учёному в области изучения мозга и сознания, «по последним исследованиям разница между полушариями не настолько жёсткая, как казалось раньше, мозг всегда всё равно работает целиком, стенок, отделяющих полушария, внутри нет». Да, в мозгу есть функциональные блоки и какая-то локализация функций. Но практически в любой осмысленной деятельности принимают участие все участки мозга. Как говорит Татьяна Черниговская: «Одним словом, во время выполнения какой-либо задачи в мозге не активируется какой-то отдельный участок – мозг всегда работает весь. То есть участки, которые за что-то отвечают, вроде бы есть, и в то же время их как бы нет».
Тогда почему же так важно визуализировать данные и информацию? Вот лишь несколько причин.
Эффект превосходства картинки. Зрение главенствует над всеми нашими чувствами восприятия окружающего мира. Мы прекрасно помним образы и картинки. Различные исследования показывают разные данные, но вывод всегда один – картинка действует в разы сильнее, чем текст. Почему? Потому что всю свою «человеческую» жизнь наш биологический вид добывал себе еду, искал партнёра для продолжения рода и обнаруживал угрозы (чтобы спастись от них) в первую очередь именно при помощи зрения. По словам доктора Джона Медины, «различные исследования показывают, что распознавание и понимание информации удваиваются, если мы используем картинки, а не текст».
Кроме того, мы должны учитывать, что мозгу требуется дополнительная работа (а значит, и потребляемая энергия), чтобы сложить буквы в слова, слова – в фразы, фразы – в текст, а потом извлечь оттуда образ и смысл. Картинка сразу даёт образ. Текст просто неэффективен для нашего мозга. Поэтому в большинстве случаев, независимо от обстоятельств, люди гораздо лучше усваивают и запоминают картинки, нежели слова.
Ещё одно интересное исследование, подтверждающее, что наша способность обрабатывать конкретные образы гораздо выше, нежели перерабатывать абстрактные знания, описано в книге датского научного публициста Тора Норретрандерса «Иллюзия пользователя. Преуменьшение важности сознания». В ней приводится цитата из нейрофизиологического исследования, во время которого замерялась пропускная способность различных органов чувств. Обобщённые результаты показаны на рис. 1.
Рис. 1. Пропускная способность сознательного и бессознательного восприятия
Обратите внимание: данные на второй диаграмме представлены в кбит/с, что в 1024 раза быстрее, чем при измерении в бит/с, как на первой диаграмме. Получается, мы преимущественно бессознательно обрабатываем поступающие данные: бессознательная пропускная способность зрения в 256 000 раз мощнее, чем сознательная составляющая этого же канала получения информации. И зрение всегда впереди остальных способов восприятия.
Вероятно, вы знаете старую английскую поговорку: «Одна картинка стоит тысячи слов». И уж точно вам знаком её русский аналог: «Лучше один раз увидеть, чем сто раз услышать». Наглядные пособия в виде образов и картинок как раз и рассчитаны на зрительную пропускную способность, причём в большей степени на бессознательную. Текст же, который усваивается главным образом сознательно, мало того что перегружает мозг, так ещё и поступает в него по гораздо более медленному (в 256 000 раз!) каналу.
Зрительная кора и отрезки прямых линий. Вячеслав Дубынин, профессор МГУ, биолог, в своей лекции о нейроэстетике рассказал, что в соответствии с результатами научных исследований, проведённых ещё в 1970 году [1], «первое, что узнаёт зрительная кора – это короткие отрезки прямых линий». То есть первое, на что реагирует наша зрительная система, – это короткие отрезки прямых под разными углами к горизонту. И что самое интересное, эта функция – не результат обучения, а врождённая особенность нейросети.
В лекции Дубынина по нейроэстетике дальше идёт переход к кубизму, который может и не нравиться человеку, но всё равно привлекает внимание, а для нас с вами важно, что наш мозг будет отлично реагировать на диаграммы (столбики, линии и т. д.) и пытаться их сразу обработать. Потому что именно первичная зрительная кора скажет: «Ух ты! Прямые линии! Я хочу это рассматривать».
Эмоции. А вот это самая удивительная часть. Мы прекрасно понимаем, что картинки будят в нас эмоции, гораздо более яркие, чем текст или цифры. Эмоции могут быть сильными и не очень, плохими или хорошими, адекватными и не совсем, но главное в них то, что, оказывается, решения принимаются человеком только в процессе эмоционального переживания. То есть без эмоций наш мозг практически не способен принимать решения [2]. «Чистый разум» Декарта не работает, увы!
Поэтому, если вы хотите, чтобы на основании ваших измерений и данных были приняты разумные, обоснованные решения – используйте хорошие и правильные картинки. Это поможет «включить» и заставить работать на полную катушку мозг тех, кто должен принимать эти решения.
Нет, конечно же, речь сейчас не о big data. Давайте возьмём простой пример – курс доллара по отношению к рублю за последний год. Это более 200 точек. Если попытаться представить все эти точки в текстовом или табличном виде, то помимо того, что этого не допустят редакторы, такой объём число-буквенных данных всё равно невозможно будет обработать/понять, просто посмотрев на эти числа – слишком много данных для нашего восприятия. А вот картинка – это наглядно и понятно (см. рис. 2).
Рис. 2. Динамика курса доллара США с 3 октября 2017 г. по 2 октября 2018 г.
А причём тут ITSM, процессы управления услугами и вообще ИТ? Хорошо, давайте возьмём пример из «нашей» жизни. На рисунке 3 показана ежедневная статистика по зарегистрированным инцидентам за 2017 год.
Рис. 3. Статистика зарегистрированных инцидентов за 2017 год
Никаким другим способом, кроме как при помощи графика, охватить одним взглядом 365 точек просто не получится.
Невидимое в виде текста, цифр и таблиц и в то же время очевидное в виде графиков. Простой пример: давайте специально рассмотрим те же данные, что были использованы в прошлой статье – это статистика вовремя решённых инцидентов, собранная за 20 недель.
Вот так она выглядит в текстовом виде:
Неделя 1 – 91%; неделя 2 – 92%; неделя 3 – 89,5%; неделя 4 – 88,3%; неделя 5 – 89,7%; неделя 6 – 91,2%; неделя 7 – 91,4%; неделя 8 – 88%; неделя 9 – 86,3%; неделя 10 – 87%; неделя 11 – 89%; неделя 12 – 93,5%; неделя 13 – 92%; неделя 14 – 89,5%; неделя 15 – 89,2%; неделя 16 – 88,3%; неделя 17 – 92%; неделя 18 – 91,1%; неделя 19 – 88,2%; неделя 20 – 86,8%.
А вот так – в виде таблицы:
Скажите, удаётся понять какие-то тренды, выявить максимум/минимум?
Думаю, что нет. А теперь обратимся к графику (рис. 4).
Рис. 4. Процент вовремя решённых инцидентов, статистика за 20 недель. График хода процесса
И сразу становится понятно, как работает этот процесс. По крайней мере, нам так кажется. На самом деле, чтобы понять, что происходит и хорошо это или плохо, надо построить контрольную карту Шухарта, но об этом мы уже рассказывали в деталях в статье «Когда пора сбивать высокую температуру? Умеем ли мы принимать правильные решения»
Кстати, этот график называется «график хода процесса» – пожалуй, самый простой и самый недооценённый инструмент визуализации. Но при этом один из самых важных. Не знаете, какую картинку построить – начните с графика хода процесса. И если вы обратите внимание на график на рис. 3, то сразу увидите, что данные на нём неоднородные (постоянные провалы в ноль – это выходные и праздники). При дальнейшем анализе данных целесообразно сначала разделить данные (провести стратификацию) на будние дни и выходные, а уже затем работать по отдельности с каждым массивом.
А вот ещё интересный пример по тем же данным, что использованы в рис. 3: на одном графике отображено количество инцидентов в неделю (синяя линяя) и среднее время решения одного инцидента за эту же неделю (оранжевая линяя) – см. рис. 5.
Рис. 5. Количество зарегистрированных за неделю инцидентов и среднее время решения инцидента
Вот и думайте теперь, почему при снижении количества инцидентов во вторую неделю июня среднее время решения выросло в 2-3 раза. С другой стороны, за исключением майских праздников, летних отпусков (июнь-июль) и новогодних каникул, когда достаточно большое количество персонала уходит в отпуск, на протяжении остального года картина выглядит достаточно ровной и стабильной.
Все мы знаем про линейные графики, столбиковые и круговые диаграммы и многие другие простейшие инструменты визуализации. Но есть гораздо менее распространённые и при этом очень полезные, эффективные и совсем несложные инструменты, которые позволяют легче анализировать данные в определённых условиях.
Рассмотрим три из них:
Знаменитое правило 80/20 у всех на слуху, многие отлично его понимают и применяют на практике. Но, как показывает опыт, мало кто пользуется диаграммой Парето, основывающейся на этом правиле.
Итак, диаграмма Парето – это визуальный метод ранжирования приоритетов, основанный на принципе 80/20: только 20% возможных причин приводят к 80% конечных результатов, поэтому именно этими 20% и стоит заниматься в первую очередь. Все остальные нужно отложить.
Диаграмму Парето можно строить по любым данным, если есть какие-либо категории группировки этих данных. Чтобы построить диаграмму Парето, категории нужно упорядочить по убыванию числа объектов в каждой категории. Далее по этим убывающим числам строится простая столбиковая диаграмма. Затем необходимо посчитать, какой процент от полной суммы всех объектов составляет каждый столбик, и по этим процентам построить кривую накопленного процента: то есть процент, который составляет первая категория, потом процент, который составляют первая и вторая категории вместе, потом первая, вторая и третья категории вместе и т. д. Эта кривая обязательно должна закончиться в точке 100%. Для ломаной накопленного процента используется независимая шкала (ось графика): слева обычно располагается шкала, по которой построены столбики с абсолютными значениями, а справа – по которой строятся точки накопленных процентов.
Рассмотрим два примера диаграммы Парето (рис. 6 и 7). В диаграмме Парето для расходов на автомобиль по типу расходов, наверное, нет ничего удивительного – 80% расходов составляют страховка, топливо, ремонт и ТО (рис. 6).
Рис. 6. Диаграмма Парето для расходов на автомобиль по типу расходов
Теперь давайте посмотрим на пример из области ITSM – процесс управления инцидентами, показатель «причина возникновения инцидента» (рис. 7, он построен по тем же данным, что были использованы для рис. 3 и 5).
Рис. 7. Диаграмма Парето для причин возникновения инцидентов
По этому графику мы прекрасно понимаем, что, скорее всего, наши ИТ-сотрудники не очень хотят разбираться в причине и заполнять это обязательное поле корректно. Потому что причина «Другая» в разы превосходит остальные. И это при том, что есть вариант «Причина не установлена». Поэтому наша первоочередная задача – добиться корректного заполнения этого поля, а уже затем можно смело браться за нашу инфраструктуру и прикладное ПО (если, конечно, расклад не поменяется кардинально после распределения «Других» по остальным категориям) – так мы избавимся от наибольшей части инцидентов. После чего уже можно будет переходить к работе с пользователями. Хотя, если объединить категории «Ошибка пользователя» и «Нарушение правил пользования», то новая категория почти догонит категорию «Ошибка в настройке ПО». Но на общий расклад это никак не повлияет.
Это столбиковая диаграмма, но не совсем обычная. К сожалению, часто под видом гистограмм нам показывают просто столбиковые диаграммы, что приводит к искажению информации. Но об этом мы поговорим в конце статьи. А пока вернёмся к настоящим гистограммам.
В гистограмме высота столбиков равна числу объектов, попадающих внутрь границ данного столбика – тут всё как обычно. А вот дальше начинаются особенности. Во-первых, гистограмму можно строить, если у вас есть более 100 точек. Во-вторых, чтобы построить гистограмму, нужно сначала выбрать, сколько столбиков в ней будет. Рекомендуется строить гистограммы с числом столбиков больше 5 и меньше 20. Внутри этого диапазона нужно выбирать так, чтобы границы интервалов были удобными. И главное – гистограмма строится с равными значениями ширины столбиков [3]. Если это правило не соблюдать, картинка будет обманывать.
Для примера мы снова вернёмся к затратам на автомобиль. На рисунке 8 показана гистограмма ежемесячных расходов (построенная по данным из рис. 6).
Рис. 8. Гистограмма распределения ежемесячных расходов на автомобиль.
По оси абсцисс указаны равные интервалы в тысячах рублей. Получается, что 60 месяцев из всей выборки на машину тратили от 0 до 10 тыс. руб., 14 месяцев – от 10 до 20 тыс. руб. и т. д. Что видно из такого графика? Во-первых, распределение вообще несимметрично – ежемесячно на автомобиль расходуются небольшие суммы, но очень редко бывают месяцы со значительными затратами. И вот этот так называемый хвост даёт достаточно большое среднее значение – 20 409 руб., что попадает в третью колонку на нашем графике. Во-вторых, тут и в помине нет никакого нормального распределения, поэтому многие аналитические модели, базирующиеся на нём, просто не будут работать в этом случае.
Но давайте вновь обратимся к управлению инцидентами и построим гистограмму по времени решения инцидентов за год (рис. 9). Это всё та же самая статистика, что ранее была использована для рис. 3, 5 и 7. Для наглядности были взяты данные только для инцидентов, решённых менее чем за двое суток.
Рис. 9. Гистограмма распределения времени решения инцидентов
График показывает не только то, что большинство инцидентов устраняется в первые два часа, но и интересное волнообразное распределение с суточным интервалом. В данной организации это связано с тем, что ИТ-сотрудники работают только в офисное время, поэтому те инциденты, которые не были устранены в первый же рабочий день, откладываются на следующий, затем ещё на один – и т. д., пока не будут решены. Для этих данных отдельный интерес может представлять гистограмма, построенная по первым двум и даже только по первому часу решения инцидентов. Но рассмотреть все возможные варианты в рамках данной статьи просто не представляется возможным.
Это, пожалуй, самый сложный инструмент из рассматриваемых в этой статье. Но так как последние версии Excel, а уж тем более все статистические пакеты ПО, справляются с построением этой диаграммы автоматически, то сложность данного инструмента ни в коей мере не должна вас пугать.
«Ящик с усами» (ЯСУ) – это диаграмма, показывающая вариабельность (разброс) данных в грубом приближении с помощью пяти реперных точек. Чтобы построить диаграмму ЯСУ, сначала нужно упорядочить данные. Далее в уже упорядоченных данных надо найти медиану – число, стоящее посередине упорядоченного ряда. Если число данных чётное, то медиана равна полусумме двух чисел, стоящих посередине.
Рассмотрим пример: пусть у нас есть следующий набор чисел {3, 11, 2, 7, 15}. Чтобы найти медиану, упорядочим их: 2, 3, 7, 11, 15. Медиана равна 7.
Если бы в исходном наборе не было числа 15, то упорядоченный ряд имел бы вид: 2, 3, 7, 11. Тогда медиана была бы равна (3+7)/2 = 5.
Медиана и среднее
Обратите внимание, что медиана – это серединное, а не среднее значение. То есть это такое число в выборке, что ровно половина из элементов выборки не меньше его, а другая половина не больше. Для уже упорядоченного ряда это означает, что половина значений находится справа от медианы, а половина – слева. Медиана и среднее – это разные величины, имеющие разное смысловое наполнение.
Например, для гистограммы на рис. 8 среднее равно 20 409 руб., а медиана –
6 991 руб. Для гистограммы на рис. 9 среднее равно 5 ч 14 мин, в то время как медиана – 1 ч 5 мин.
Каждое из этих чисел рассказывает что-то про наши данные, и дальше весь вопрос в том, что именно мы хотим узнать и для чего. Например, для данных по времени решения инцидентов медиана со значением 1 ч 5 мин будет говорить о том, что половину инцидентов за год (из выборки инцидентов, решённых в срок менее двух суток) ИТ-сотрудники решили не дольше чем за 1 ч 5 мин, а ещё половину – не меньше чем за 1 ч 5 мин. А половина в данном случае – это 24 274 инцидента. Согласитесь, это даёт чуть лучшее представление о времени решения инцидентов, нежели среднее значение по тем же данным (5 ч 14 мин, для которого 78,5% всех данных (38 092 инцидента) лежит слева от этого значения, т. е. решается быстрее).
Далее необходимо найти медианы каждой половины данных – это будут первая и третья квартили, т. е. одна четвёртая часть данных и три четверти данных. Их принято обозначать Q1 и Q3. Квартили дают нам значения границ ящика, медиана лежит где-то внутри ящика, а границы усов при самом простом способе построения соответствуют минимальному и максимальному значениям наших данных.
Диаграмма «ящик с усами» обладает рядом таких качеств, которые делают её незаменимым инструментом анализа любых данных. Основные достоинства этой диаграммы:
Давайте рассмотрим пример диаграммы ЯСУ как раз для определения нагрузки на первую линию поддержки в части инцидентов в зависимости от времени суток. Для этого возьмём данные за октябрь 2017 г. (это те же данные, что ранее использовались для построения рис. 3, 5, 7 и 9) и посмотрим, какое количество инцидентов регистрируется каждый час в течение дня – и так для всей рабочей недели (рис. 10).
Рис. 10. Количество зарегистрированных инцидентов с разбивкой по часам за одну рабочую неделю
На этой диаграмме, с одной стороны, достаточно хорошо видны общие тренды (пиковая нагрузка, спад обращений в обеденное время и т. д.), с другой стороны, даже пять кривых на одном графике – это явный перебор. Да и контрастные цвета уже почти закончились. А теперь представьте, что мы хотим проанализировать картину за весь октябрь, а это 22 кривых.
Но мы вполне можем это сделать при помощи диаграммы «ящик с усами» (рис. 11).
Рис. 11. Количество зарегистрированных инцидентов с разбивкой по часам за октябрь 2017 г. в рабочие дни
Область внутри ящиков показывает нам половину всех точек для каждого часа из 22 дней. Остальные 50% – это усы снизу и сверху от ящика (по 25% точек соответственно). И такую картинку наш мозг вполне способен воспринять. Для того чтобы, например, в дальнейшем принимать решение, какое количество сотрудников в какое время должно быть в нашей техподдержке для максимально быстрой регистрации и последующего устранения инцидентов.
Картинки – это очень сильный инструмент воздействия. И если правильные картинки помогают нам принимать правильные решения, то неправильные картинки могут как просто сбить с толку и запутать, так и сильно навредить и привести к принятию неправильных решений.
Вообще, если вы хотите глубже изучить эту тему, то самым правильным источником информации, возможно, правильнее даже будет сказать – первоисточником, будет книга Даррелла Хаффа «Как лгать при помощи статистики». Мы же с вами рассмотрим всего несколько примеров неправильных картинок.
Начнём с самых простых инструментов визуализации. Хотите сделать так, чтобы никто не понял, что изображено на картинке, где какие данные и как они соотносятся друг с другом? Используйте трёхмерные графики (рис. 12). Добавьте прозрачности. И побольше, побольше разных массивов данных!
Рис. 12. Количество зарегистрированных инцидентов с разбивкой по часам за две рабочие недели
Это, кстати, те же данные, что были использованы для рис. 10 и 11 (только выборка за две недели). Почему-то многие думают, что любовь к трёхмерным играм и трёхмерному кино обязательно должна экстраполироваться на диаграммы в отчётах. В лучшем случае это может вызвать снисходительную улыбку, в худшем – недоумение и раздражение руководства.
Или рассмотрим столбиковые диаграммы. Казалось бы, уж их-то вряд ли можно чем-то испортить, если не использовать 3D. Но нет ничего невозможного, благо нам с радостью подсовывают вот такие шаблоны (рис. 13).
Рис. 13. Количество зарегистрированных инцидентов с разбивкой по часам за одну рабочую неделю
А это точно те же данные, что и на рис. 10!
Скажите спасибо, что мы не стали использовать объёмные конусы или пирамиды с вертикальным распределением всех массивов данных в одном объекте ;)
Помните принцип «Keep it simple»? Так вот, он очень важен во всём – в том числе и в вопросах визуализации.
Мы рассмотрели примеры диаграмм, которые вообще не стоит использовать (к ним также относятся круговые диаграммы и в некоторых случаях пузырьковые [4]). Но даже простым линейным графиком из двух точек и одной кривой можно изрядно озадачить читателя. Или попросту обмануть. Давайте попробуем: на рисунке 14 показан график снижения среднего времени решения инцидентов.
Рис. 14. График снижения среднего времени решения инцидентов. Сравнение 2016 и 2017 гг.
Казалось бы, отличный прогресс! Но наблюдательный читатель сразу обратит внимание на ось ординат. И с лёгкостью построит правильный график по тем же данным (рис. 15).
Рис. 15. График снижения среднего времени решения инцидентов. Сравнение 2016 и 2017 гг.
Правильный график
И сразу становится ясно, что картина не такая уж и радужная, а наши успехи не столь значительны, как могли показаться на рис. 14.
Справедливости ради стоит заметить, что на первом графике (рис. 14) нас вроде бы даже и не обманывают – мы же видим шкалу и значения по оси ординат. Только вот большинство, увидев значительный спад на самой картинке, порадуется ему и вряд ли будет внимательно изучать диаграмму и искать точку отсчёта (ноль) на этом графике. Потому что картинка – это сильный инструмент воздействия. И не все пользуются им правильно и честно – кто-то намеренно, а кто-то просто по незнанию или неопытности.
Ну и, наконец, обещанный в середине статьи пример гистограммы, которая вовсе не гистограмма (рис. 16). Что самое обидное – это официальная статистика [5], которая преподносится нам, чтобы нас как-то подбодрить и поддержать.
Рис. 16. Распределение наёмных работников по зарплате в 2016 г., %. Исходная картинка
Давайте построим этот же график, убрав всё лишнее (рис. 17).
Рис. 17. Распределение наёмных работников по зарплате в 2016 г., %.
Просто столбиковая диаграмма
А что будет, если эти данные превратить в настоящую гистограмму (с допущением, что внутри указанных выше «двойных» и пограничного интервалов распределение процентов равномерное)? Результат показан на рисунке 18.
Рис. 18. Распределение наёмных работников по зарплате в 2016 г., %.
Гистограмма
Выводы по этим графикам делайте сами. Главное – используйте для этого гистограмму, а не то, что приводится первоисточником в качестве неё.
Действительно, картинки имеют великую силу влияния на людей. И мы должны уметь её использовать – но использовать правильно и честно. Поэтому:
Как не дать себя обмануть? Наверное, так же, как и в обычной жизни: используйте здравый смысл и критическое мышление. Плюс тренируйтесь самостоятельно анализировать данные и строить правильные картинки. Если вы будете хорошо понимать, как это работает изнутри, никто не сможет ввести вас в заблуждение.
Начинать анализ любой картинки, которую вам предлагают, всегда можно с самых простых вещей. Приведём лишь небольшой список того, что стоит держать в голове:
На самом деле, чтобы не стать жертвой статистикуляции (статической манипуляции), вам нужно всего лишь быть внимательным и уметь задавать (себе или выступающему) правильные вопросы. Не забывайте об этом!
И помните, картинки не дают нам ответов на вопросы, что происходит в процессе, они всего лишь позволяют глубже его понять и лучше проанализировать. Это практический инструмент визуального, статистического и системного мышления, овладев которыми вы получите конкурентное преимущество в нашем сложном и быстро меняющемся мире. За счёт способности принимать правильные решения вовремя!
[1] За это открытие авторы получили Нобелевскую премию.
[2] Мы намеренно не раскрываем дальше детали, так как на эту тему можно написать отдельную статью. Кто хочет углубиться в эту область, обратитесь к исследованиям доктора Антонио Дамазио.
[3] Строго говоря, если масштаб по оси ординат выражается числом объектов, попадающих в интервал, то полученная картинка называется ненормированной гистограммой. Чтобы нормировать гистограмму, масштаб по оси ординат должен быть таким, чтобы её площадь равнялась единице (тогда ось ординат станет выражаться в процентах, а не в абсолютных величинах). Практически для этого нужно каждую ординату разделить на объём выборки (полное число объектов), умноженный на ширину одного столбика гистограммы. Но в рамках этой статьи мы будем рассматривать только ненормированные гистограммы.
[4] Мы не рассматривали эти два типа диаграмм в предыдущем разделе («Вредные советы»), хотя они достаточно популярны и регулярно используются не по назначению. Любопытный читатель без труда сможет найти информацию, в чём недостаток этих графиков и почему от их использования лучше отказаться вообще (или использовать крайне редко и строго в определённых ситуациях).