«Голая статистика»: как супермаркет может определить беременность лишь по списку покупок?
520
просмотров
Как работают лотереи? Как определить, какие школы мошенничают с результатами тестов?

На эти и другие вопросы может ответить статистика. О том, как использовать ее в повседневной жизни, рассказывается в новой книге «Голая статистика» Чарльза Уилана. Мы публикуем отрывки из нее.

Как Netflix выбирает фильмы?

Как Netflix выбирает фильмы?

Netflix — американская компания, которая поставляет фильмы и сериалы на основе потоковых мультимедиа. Ее рекомендации каждому конкретному зрителю отличаются высокой степенью попадания в яблочко. Все дело в мастерском использовании статистических данных.

Процесс происходит следующим образом. Кинозритель выставляет рейтинг фильму, а программа запоминает оценку. Затем она ищет тех, кто поставил фильму такую же оценку, и уже из их просмотренных картин выбирает те, которые были оценены ими так же высоко. Данные фильмы и рекомендуются к просмотру этому телезрителю.

Как супермаркет узнает о беременности?

Как супермаркет узнает о беременности?

Эта история еще интереснее. В супермаркет однажды зашел мужчина, чтобы пожаловаться менеджеру на навязчивую рекламу. В их почтовый ящик стали постоянно приходить буклеты с предложением различных товаров для будущих мам. Но дочери этого мужчины едва исполнилось 18, поэтому в их семье о беременности не шло и речи. Менеджер принес свои извинения.

Но через несколько дней этот мужчина перезвонил и уже сам извинился, потому что его дочь все-таки оказалась беременной. Как специалисты компании могли узнать все раньше, чем члены семьи? Это тоже работа со статистикой. В компании был составлен список из двух десятков товаров, приобретаемых беременными женщинами, которые входили в отдельный реестр постоянных клиентов магазина. Покупки каждого нового клиента анализировались и сопоставлялись с данным списком товаров. Если позиции начинали совпадать, это и позволяло сделать соответствующий вывод.

Как решить «Загадку Монти Холла»?

Как решить «Загадку Монти Холла»?

Монти Холл — ведущий популярного игрового шоу, в финале которого победителю предлагалось выбрать одну из трех дверей, и за одной из них находился главный приз. После того как участник указывал на дверь, ведущий открывал одну из двух других, за которой ничего не было, а потом задавал свой коронный вопрос: хочет ли участник изменить свой первоначальный выбор в пользу второй закрытой двери?

Эта непростая задачка из области теории вероятностей, входящей в статистику. Оказывается, изменив свой выбор, финалист имел 66% шансов на успех по сравнению с первоначальными 33%.

Зачем нужны сложные пароли?

Зачем нужны сложные пароли?

Пример с паролями аккаунтов и электронной почты — один из самых простых, но и наиболее доступно рассказывающих о прикладной ценности статистики. Если ваш аккаунт никогда не взламывался, то это наверняка когда-либо происходило у ваших знакомых.

Дело в том, что многие до сих пор используют простой шестизначный пароль, например дату рождения. Подобрать такую комбинацию компьютер сможет за долю секунды, ведь потребуется всего миллион вариантов. Вероятность высчитывается перемножением возможных цифр. То есть шесть цифр пароля и десять значений каждой цифры от 0 до 9 дают формулу 10х10х10х10х10х10=10 000 000 комбинаций. Поэтому ввод в пароль букв и символов существенно усложняют задачу, доводя количество комбинаций до многих триллионов.

Как Голливуд делает рейтинги фильмам?

Как Голливуд делает рейтинги фильмам?

Теперь посмотрим, как можно манипулировать статистикой в свою пользу. Например, в списке самых кассовых голливудских фильмов на 2011-й год на первом месте стоит «Аватар», а пятое занимает «Шрек». А как же классика кинематографа и такие шедевры, как «Крестный отец» или «Унесенные ветром»?

Задача Голливуда — показать, что каждое его новое творение круче предыдущего. Тем самым создается имидж и бесперебойно пополняется бюджет. Для того чтобы выявить истинную картину, необходимо учитывать такой фактор, как поправка на инфляцию. С этой — настоящей — точки зрения список возглавили бы «Унесенные ветром». «Аватар» оказался бы на 14-м месте, а «Шрек» вообще начинал бы четвертый десяток фильмов этого списка.

В истории США был случай, когда один человек дважды выигрывал в лотерею главный приз — миллион долларов. Вероятность такого совпадения примерно 1 к 27 триллионам! Что ж, бывает и такое тоже, хотя счастливчика стоило бы проверить на предмет родственных связей с организаторами лотереи.

В остальном, что касается лотерей, вероятность выигрыша в них подсчитывается путем сложения вероятностей всех категорий призов — от минимального до главного. Например, если билет стоит 1 доллар, а главный приз в 1000 долларов выпадает 1 раз из 4000, то средний выигрыш будет составлять около 56 центов. Вполне возможно, что вы случайно выиграете 20 или 200 долларов, купив один или два билета. Но если вы купите тысячу билетов, то статистика одержит верх над гипотетической удачей и, скорее всего, общий выигрыш составит лишь 560 долларов.

Результаты тестов в школе

Результаты тестов в школе

Статистика не дает однозначные ответы, которые могут использоваться как железные доказательства. Но зато она определяет степень возможности тех или иных результатов, основываясь на теории вероятностей. Например, если в тестах учеников есть какое-то количество исправлений неправильных ответов на правильные, это не говорит о каких-либо махинациях со стороны преподавателей. Но как только происходит существенное превышение нормы, это может послужить сигналом их недобросовестной работы.

Другим примером может служить случай, когда множество учеников ответили на вопросы одинаково неправильно. Это с гораздо большей степенью вероятности говорит о том, что все списали неправильный ответ у одного из учеников, чем если бы все ответы были верными.

Помогает ли престижный диплом в дальнейший жизни?

Помогает ли престижный диплом в дальнейший жизни?

Такие вопросы являются одними из самых сложных в статистике и дают интереснейшую пищу для ума. В исследованиях, проводившихся среди выпускников Гарварда, главной трудностью стало выявление контрольной группы: тех абитуриентов, которые имели возможность поступить, но не воспользовались ею по каким-либо причинам.

Контрольная группа всегда требуется для сравнения их результатов с подопытной группой. А как найти контрольную группу, когда принципом ее отбора является вопрос: что случилось бы при противоположном развитии событий? То есть если в подопытную группу взять конкретного человека, поступившего в Гарвард, то в контрольной группе должен быть абсолютно такой же человек, но непоступивший. Только тогда можно говорить о правильности полученных выводов.

В данном случае исследователи отметили прямую связь между учебой в Гарварде и успехами в жизни лишь у детей из малообеспеченных семей. В остальном вывод оказался вполне нетривиальным: название вуза в дипломе в меньшей степени определяет дальнейший успех, чем способности, мотивация и амбиции.

Что еще может статистика?

Статистика — непростая наука, но она дает поразительные возможности для ориентирования в современной жизни. Например:

  • Как выделять рациональные зерна из информации о среднем доходе жителей страны, когда эти данные статистически верны, но не отражают реальной ситуации?

  • Как на основании опроса тысячи человек получить данные обо всем населении?

  • Как определить, что именно вызывает болезни, но при этом не проводить эксперименты на людях?

  • Как рассчитать, приводит ли увеличение количества полицейских или врачей к снижению уровня преступности или числа заболевших людей?

Ваша реакция?


Мы думаем Вам понравится