Наука о данных

Наука о данных

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.

Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.

«Наука о данных» уже переведена на японский, корейский и китайский языки.

Жанр: Базы данных
Цикл: Не является частью цикла
Год публикации: 2020

Читать онлайн Наука о данных


Переводчик Михаил Белоголовский

Научный редактор Заур Мамедьяров

Главный редактор С. Турко

Руководитель проекта А. Василенко

Корректоры Е. Аксенова, Т. Редькина

Компьютерная верстка А. Абрамов

Художественное оформление и макет Ю. Буга

Иллюстрация на обложке shutterstock.com

Права на публикацию на русском языке получены при содействии Агентства Александра Корженевского (Москва).


© 2018 Massachusetts Institute of Technology

© Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020


Все права защищены. Данная электронная книга предназначена исключительно для частного использования в личных (некоммерческих) целях. Электронная книга, ее части, фрагменты и элементы, включая текст, изображения и иное, не подлежат копированию и любому другому использованию без разрешения правообладателя. В частности, запрещено такое использование, в результате которого электронная книга, ее часть, фрагмент или элемент станут доступными ограниченному или неопределенному кругу лиц, в том числе посредством сети интернет, независимо от того, будет предоставляться доступ за плату или безвозмездно.

Копирование, воспроизведение и иное использование электронной книги, ее частей, фрагментов и элементов, выходящее за пределы частного использования в личных (некоммерческих) целях, без согласия правообладателя является незаконным и влечет уголовную, административную и гражданскую ответственность.

* * *

Предисловие

Цель науки о данных – улучшить процесс принятия решений, основывая их на более глубоком понимании ситуации с помощью анализа больших наборов данных. Как область деятельности наука о данных включает в себя ряд принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших наборах данных. Она тесно связана с глубинным анализом данных и машинным обучением, но имеет более широкий охват. Сегодня наука о данных управляет принятием решений практически во всех сферах современного общества. В повседневной жизни вы ощущаете на себе воздействие науки о данных, когда видите отобранные специально для вас рекламные объявления, рекомендованные фильмы и книги, ссылки на предполагаемых друзей, отфильтрованные письма в папке со спамом, персональные предложения от мобильных операторов и страховых компаний. Она влияет на порядок переключения и длительность сигналов светофоров в вашем районе, на то, как были созданы новые лекарства, продающиеся в аптеке, и то, как полиция вычисляет, где может потребоваться ее присутствие.

Рост использования науки о данных в обществе обусловлен появлением больших данных и социальных сетей, увеличением вычислительной мощности, уменьшением размеров носителей компьютерной памяти и разработкой более эффективных методов анализа и моделирования данных, таких как глубокое обучение. Вместе эти факторы означают, что сейчас процесс сбора, хранения и обработки данных стал как никогда ранее доступен для организаций. В то же время эти технические новшества и растущее применение науки о данных означают, что этические проблемы, связанные с использованием данных и личной конфиденциальностью, тоже вышли на первый план. Цель этой книги – познакомить с наукой о данных на уровне ее основных элементов и с той степенью погружения, которая обеспечит принципиальное понимание вопроса.

Глава 1 очерчивает область науки о данных и дает краткую историю ее становления и эволюции. В ней мы также рассмотрим, почему наука о данных стала такой востребованной сегодня, и перечислим факторы, стимулирующие ее внедрение. В конце главы мы развенчаем несколько мифов, связанных с темой книги. Глава 2 вводит фундаментальные понятия, относящиеся к данным. В ней также описаны стандартные этапы проекта: понимание бизнес-целей, начальное изучение данных, подготовка данных, моделирование, оценка и внедрение. Глава 3 посвящена инфраструктуре данных и проблемам, связанным с большими данными и их интеграцией из нескольких источников. Одна из таких типичных проблем заключается в том, что данные в базах и хранилищах находятся на одних серверах, а анализируются на других. Поэтому колоссальное время тратится на перемещение больших наборов данных между этими серверами. Глава 3 начинается с описания типичной инфраструктуры науки о данных для организации и некоторых свежих решений проблемы перемещения больших наборов данных, а именно: метода машинного обучения в базе данных, использования Hadoop для хранения и обработки данных, а также разработки гибридных систем, в которых органично сочетаются традиционное программное обеспечение баз данных и решения, подобные Hadoop. Глава завершается описанием проблем, связанных с интеграцией данных в единое представление для последующего машинного обучения. Глава 4 знакомит читателя с машинным обучением и объясняет некоторые из наиболее популярных алгоритмов и моделей, включая нейронные сети, глубокое обучение и деревья решений. В главе 5 основное внимание уделяется использованию опыта в области машинного обучения для решения реальных задач, приводятся примеры анализа стандартных бизнес-проблем и того, как они могут быть решены с помощью машинного обучения. В главе 6 рассматриваются этические вопросы науки о данных, последние разработки в области регулирования и некоторые из новых вычислительных методов защиты конфиденциальности в процессе обработки данных. Наконец, в главе 7 описаны сферы, на которые наука о данных окажет наибольшее влияние в ближайшем будущем, изложены принципы, позволяющие определить, будет ли данный конкретный проект успешным.


Вам будет интересно
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихс...
Читать онлайн
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать ...
Читать онлайн
Как выжать все из своих данных? Как принимать решения на основе данных? Как организовать анализ данных (data science) внутри компании? Кого нанять аналитиком? Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня? На эти и многие другие вопросы Роман Зыков знает ответ, потому что занимается анализом данных почти двадцать лет. В послужном списке Романа – создание с нуля собственной компании с офисами в Европе и Южной Америке, ставшей лидером по п...
Читать онлайн
Вести работу в бизнесе и в жизни быстрее с Access! Программа Access есть в любом доме. Её можно легко приобрести. Но не каждый может ею пользоваться и делает работу вручную. Microsoft Access применяется для автоматизации несчётного количества процессов в медицине, бухгалтерии, складских службах, МВД, бизнесе: туристическом, гостиничном, книжном, торговом, библиотечном, музыкальном. Освоив азы этой науки по предложенному изданию, вы сможете Создавать базы данных в своём производстве, в любых жизн...
Читать онлайн
Что такое данные и как они появляются? Как их хранить и преобразовывать? Как извлечь ценность из имеющихся информационных ресурсов и непрерывно ее повышать? Как ускорить импортозамещение? Как наладить управление данными, чтобы достойно противостоять дизруптивным воздействиям? Все это и многое другое вы найдете в книге «Ценность ваших данных».Книга состоит из двух частей. В первой прослеживается смена парадигм в отношении к данным, происходившая от первой научной революции до четвертой промышленн...
Читать онлайн
Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.В формате PDF A4 сохранен издательский макет книги....
Читать онлайн
Систематичный и последовательный курс изучения языка SQL с первых шагов до уровня специалиста с трёхлетним стажем. Весь материал сопровождается практическими примерами и самостоятельными задачами, с вариантами их решений для самоконтроля. Книга написана простым и понятным языком....
Читать онлайн
События, описанные в романе, непременно произойдут – если не в нашей реальности, то в какой-нибудь другой. 19 июля 2032 года адвокат Шеффилд вскроет в Вашингтоне конверт, оставленный на хранение полвека назад известным физиком Хью Эвереттом. То, что он обнаружит в конверте, станет причиной необыкновенных и таинственных событий. Мир может погибнуть. Мир может спастись. Который из миров? Может быть – наш, мир, в котором мы живем.Встречайте новый роман от классика жанра Павла Амнуэля – сверхтвёрдая...
Читать онлайн
Огород в мешках – прекрасная альтернатива традиционным грядкам родом из Африки.Владимир Сопшин разработал уникальную конструкцию мешков, которая позволяет создать максимально благоприятные для растений условия без особых усилий. Из этой книги вы узнаете: как изготовить мешки для овощей, компостеры, мини-парники и теплицы для мешков; как сделать мобильный огород прямо на газоне без прополки и окучивания; как автоматизировать систему полива и проветривания; как получать гарантированный урожай даже...
Читать онлайн
Первый век до Рождества Христова. Римская республика стремительно расширяет свои границы, аппетиты патрициев растут, а вместе с ними – амбициозность, алчность и вседозволенность. Из-за самоуправства Рима вспыхивает первая гражданская война, в которой вчерашние союзники с неимоверной жестокостью принялись истреблять друг друга. В этой войне отличился молодой претор Луций Корнелий Сулла, получивший в награду должность консула. Но всего лишь два года спустя, во время войны с Митридатом, он был объя...
Читать онлайн
Середина XIII века. Большая часть Руси несет на себе тяжкое бремя данника Золотой Орды. Ханские баскаки бесчинствуют в городах и селах. За малейшее неповиновение людей угоняли в рабство и продавали на невольничьих рынках. Вот так и попал в далекую Османскую Порту молодой русич Андрей, сначала как раб, потом стал воином-инородцем Сандом. Через много лет, пройдя сквозь сотни сражений, не раз посмотрев смерти в лицо, Андрей-Санд встретил товарища по несчастью, молодого графа Раймунда Тулузского…О д...
Читать онлайн