Искусство статистики. Как находить ответы в данных

Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.

Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.

На русском языке публикуется впервые.

Читать онлайн Искусство статистики. Как находить ответы в данных


Издано с разрешения Penguin Books Ltd и Andrew Nurnberg Literary Agency


Все права защищены.

Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.


Original English language edition first published by Penguin Books Ltd, London

Text copyright © David Spiegelhalter 2019

The author has asserted his moral rights.

All rights reserved.

© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2021

Статистикам всего мира – педантичным, отзывчивым, добросовестным людям, стремящимся использовать данные наилучшим образом


Введение

Цифры сами по себе не умеют говорить. Именно мы говорим за них. Мы наполняем их смыслом.

Нейт Сильвер, «Сигнал и шум»[1],[2]
Зачем нужна статистика?

Психологический портрет Гарольда Шипмана, более известного как Доктор Смерть, не похож на серийного убийцу, тем не менее этот человек поставил рекорд по убийствам. Тихий семейный врач, работавший в пригороде Манчестера, в период с 1975 по 1998 год ввел как минимум 215 пожилым пациентам смертельную дозу опиатов. Но в конце концов он «прокололся», подделав завещание одной из своих жертв, которая якобы оставила ему часть наследства, что весьма насторожило ее дочь-адвоката. Проверка компьютера врача показала, что он задним числом изменял информацию в медицинских картах пациентов, чтобы состояние их здоровья казалось хуже, чем было на самом деле. Он считался увлеченным поборником технологий, но не был достаточно технически подкован, чтобы понимать, что время каждого внесенного изменения фиксируется (кстати, хороший пример метаданных, раскрывающих скрытый смысл данных).

В результате эксгумации пятнадцати тел его пациентов (из тех, которых не кремировали) в них были обнаружены смертельные дозы диаморфина, медицинской формы героина. В 1999 году Шипмана судили за пятнадцать убийств и приговорили к пожизненному заключению. Он не защищался и не произнес на суде ни слова. Впоследствии было инициировано публичное расследование, чтобы определить, какие еще преступления он мог совершить, помимо рассмотренных в суде, и можно ли было разоблачить его раньше. Я был одним из нескольких статистиков, которых тогда привлекали к расследованию. Оно пришло к выводу, что он определенно убил 215 пациентов, а, возможно, и еще 45[3].

Эта книга посвящена применению статистики[4] для поиска ответов на вопросы (некоторые из них выделены), которые возникают, когда мы пытаемся лучше понять мир. Чтобы получить представление о мотивах поведения Шипмана, вполне закономерно спросить:

Каких людей убивал Гарольд Шипман, и когда они умирали?

В ходе упомянутого расследования была представлена информация о возрасте, поле и дате смерти каждой жертвы. Рис. 0.1 – довольно сложная визуализация этих данных, отображающая возраст и дату смерти жертвы, при этом цвет точек указывает на пол – мужской или женский. На осях добавлены гистограммы, демонстрирующие распределение по возрасту (с интервалом в пять лет).


Рис. 0.1

Диаграмма рассеяния, показывающая возраст и год смерти 215 подтвержденных жертв Гарольда Шипмана. По осям добавлены гистограммы, демонстрирующие распределение по возрасту и году совершения убийства


Даже беглый взгляд на рисунок позволяет сделать некоторые выводы. Черных точек больше, чем белых, а значит, жертвами Шипмана в основном были женщины. Гистограмма справа демонстрирует, что возраст большинства жертв – 70–80 лет, но разброс точек показывает, что, хотя изначально все жертвы были пожилыми, впоследствии появилось несколько более молодых пациентов. Гистограмма сверху четко показывает промежуток примерно в 1992 году, когда убийств не происходило. Оказывается, до этого Шипман имел общую практику с другими врачами, но затем – возможно, чтобы избежать подозрений, – стал работать один. После чего его деятельность активизировалась, что и отображено на верхней гистограмме.


Вам будет интересно
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать ...
Читать онлайн
В своей уникальной книге известный социолог, писатель и публицист С.Г. Кара-Мурза приводит огромное количество фактов, касающихся народного хозяйства СССР, благосостояния советского народа. Все факты строго выверены и основаны на данных государственной статистики Советского Союза, что придает особую ценность этой работе.Постсоветское общество расколото, и ни дубинкой, ни деньгами его не собрать, считает автор. Надо обращаться к разуму, совести и памяти людей, к нашему историческому опыту.В форма...
Читать онлайн
Статистика помогает улучшить жизнь человечества в целом и отдельных групп людей. Современный бизнес немыслим без статистики. Она используется для изучения потребителей, спроса на конкретные товары, а также прогнозирования продаж, подсказывает наиболее конструктивные решения. Статистика используется в медицине и помогает эффективнее лечить болезни. Статистика распространена в экономической, политической, социальной и других сферах, она показывает множество конкретных явлений в виде таблиц, график...
Читать онлайн
Географ Джеймс Чешир и дизайнер Оливер Уберти превратили разрозненные данные в наглядные графики, карты и диаграммы, которые отражают тенденции в различных областях нашей жизни. Созданный ими атлас позволяет увидеть реальность, которая обычно скрыта от наших глаз: графики счастья в разных странах, уровень ежедневной загруженности мужчин и женщин, уровни рождаемости и смертности, закономерности таяния ледников. Визуализированные данные могут стать полезным инструментом для людей, находящихся у вл...
Читать онлайн
Всё просто – это рассказы о том, что было, что будет…Часть 6, "Сказки-рассказки" – они и есть. Очень люблю сказки, и иногда представляю, как бы они звучали сегодня....
Читать онлайн
Кириния жила мирной жизнью в своей деревушке на окраине долины… пока на её двор прямо с Великих небес не упал Мегилл – существо, вселяющее в сердце людей страх одним лишь упоминанием. И он перевернул привычный мир девушки с ног на голову....
Читать онлайн
Творческая биография Владимира Рецептера много лет была связана с петербургским БДТ и его создателем Г.А. Товстоноговым. Это книга о театре и об актерах, чьи имена вызывают и восхищение, и живейший интерес.В книгу вошли все жанры прозы Владимира Рецептера – роман «Жизнь и приключения артистов БДТ», повесть «Булгаковиада» и рассказ «У меня в ушах бананы…»....
Читать онлайн
«Последний акмеист», «последний царскосел», «последний поэт серебряного века» – так именовали критики Дмитрия Иосифовича Кленовского (наст. фам. Крачковский; 1892—1976). Выпустив первую книгу перед самой революцией, Кленовский в советские годы замолчал и вновь начал писать стихи лишь четверть века спустя, уже в эмиграции, где он оказался в 1942 году. Однако в отличие от ранних изящных и утонченных стихов, напоминающих стихи Кузмина, эмигрантские сборники Кленовского представляют собой философску...
Читать онлайн