Технология хранения и обработки больших данных Hadoop

Технология хранения и обработки больших данных Hadoop

Apache Hadoop – это платформа для распределенной обработки больших наборов данных на кластерах компьютеров с использованием простых моделей программирования. В этой книге вы познакомитесь с общей архитектурой платформы, компонентами стека, такими как HDFS и MapReduce, приложениями Hadoop.

Жанры: Интернет, Программирование, Книги о компьютерах
Цикл: Не является частью цикла
Год публикации: 2021

Читать онлайн Технология хранения и обработки больших данных Hadoop


Введение



Hadoop – это программная платформа с открытым исходным кодом Apache для хранения и крупномасштабной обработки больших наборов данных в распределенной среде кластеров компьютеров с использованием простых моделей программирования.



Hadoop предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых обеспечивает локальные вычисления и хранилище.

Фреймворк Hadoop был создан Дагом Каттингом и Майком Кафареллой в 2005 году.

Первоначально этот фреймворк был разработан для поддержки распространения проекта Nutch Search Engine построения поисковых систем.

Даг, который в то время работал в Yahoo, а сейчас является главным архитектором в Cloudera, назвал этот проект в честь слона своего сына.

Его сын назвал своего игрушечного слона Hadoop, и Даг использовал это имя, чтобы так назвать свой проект.

Давайте посмотрим, что делает фреймворк Hadoop таким интересным, масштабируемым и удобным в использовании.

Hadoop начинался как простая среда пакетной обработки.

Идея, лежащая в основе Hadoop, заключается в том, что вместо перемещения данных в вычисления мы переносим вычисления в данные.

И в основе системы Hadoop лежит масштабируемость.

Все модули в Hadoop разработаны с фундаментальным предположением о том, что аппаратное обеспечение рано или поздно выходит из строя.

То есть предположением, что отдельная машина или стойка машин, или большой кластер или суперкомпьютер, все они в какой-то момент выйдут из строя, или некоторые их компоненты выйдут из строя.

И компоненты Apache Hadoop – MapReduce и HDFS изначально были созданы на основе Google MapReduce и файловой системы Google.

Еще одна очень интересная вещь, которую приносит Hadoop, – это новый подход к данным.

Новый подход заключается в том, что мы можем сохранить все данные, которые у нас есть, и мы можем взять эти данные и читать данные, создавая схему, во время чтения.

Вместо того, чтобы тратить время на создание схемы, пытаясь подогнать данные к схеме, которую мы создали заранее, мы сохраняем все данные в приблизительном формате, а затем проецируем их в схему на лету, пока мы эти данные читаем.



Фреймворк Apache Hadoop содержит четыре основных компонента.

Это Hadoop Common, распределенная файловая система Hadoop или HDFS, Hadoop MapReduce и Hadoop YARN.

Hadoop Common содержит библиотеки и утилиты, необходимые для других модулей Hadoop.

Распределенная файловая система Hadoop хранит данные на обычном компьютере, обеспечивая очень высокую совокупную пропускную способность по всему кластеру компьютеров.

Hadoop YARN – это платформа управления ресурсами, которая отвечает за управление вычислительными ресурсами в кластере и их использование в при планировании пользователей и приложений.

И Hadoop MapReduce – это модель программирования, которая масштабирует данные по множеству процессов.

И все модули фреймворка Hadoop разработаны с фундаментальным предположением, что аппаратное обеспечение выходит из строя.



Если вы посмотрите на HDFS, YARN, MapReduce и всю платформу в целом, она состоит из многочисленных приложений, и каждое из этих приложений создано с учетом этого предположения.

У нас есть различные приложения, такие как Apache PIG, Apache Hive, HBase и другие.

И для конечного пользователя, через Java-код MapReduce, он может получить доступ к любому из этих приложений.

И мы можем строить различного вида системы из этих приложений.

Проекты Apache PIG и Apache Hive предоставляют интерфейсы высокого уровня, обеспечивая доступ к данным через пользовательский интерфейс.

Сам фреймворк Hadoop в основном написан на языке программирования Java и проект также содержит несколько приложений на нативном языке C и утилиты командной строки.


Вам будет интересно
С этой книгой Вы познакомитесь с чат-ботами и поймете как создавать чат-ботов без программирования с использованием таких облачных служб как Google Dialogflow и IBM Watson.Также Вы узнаете как реализовать для чат-бота Webhook – механизм получения уведомлений об определённых событиях, чтобы выполнять внешнюю бизнес-логику.Вы узнаете как можно интегрировать вашего чат-бота с другими платформами.Познакомитесь с библиотеками ChatterBot и Rasa и узнаете как создавать чат-ботов на языке Python....
Читать онлайн
Эта книга будет интересна всем, кто хочет научиться применять Python 3 при разработке в области искусственного интеллекта и машинного обучения.С этой книгой Вы познакомитесь с основными терминами и понятиями ИИ, такими как машинное обучение, глубокое обучение и нейронные сети.Научитесь создавать чат-ботов с использованием IBM Watson на платформе Watson Assistant.Узнаете как можно использовать искусственный интеллект IBM Watson для своих собственных разработок.На реальных примерах познакомитесь с...
Читать онлайн
Изучите основы веб-разработки, создавая веб-страницы с помощью HTML, CSS и JavaScript. С этой книгой Вы научитесь использовать HTML для создания веб-страницы с абзацами, divs, изображениями, ссылками и списками, добавлять стили на веб-страницу с помощью идентификаторов и классов CSS, делать веб-страницу интерактивной с помощью команд JavaScript. Вы узнаете как создать веб-страницу, которая будет так же удобна на мобильном телефоне, как и на настольном компьютере. Научитесь работать с объектной м...
Читать онлайн
Эта книга познакомит с практическим использованием языка MetaQuotes Language 5 (MQL5) программирования технических индикаторов, торговых роботов и вспомогательных приложений для автоматизации торговли на финансовых рынках с помощью торговой платформы MetaTrader 5.Вы научитесь создавать MQL5 приложения, используя как процедурное программирование, так и объектно-ориентированное программирование.Познакомитесь с общей структурой и свойствами технических индикаторов и советников, научитесь использова...
Читать онлайн
Эта книга ориентирована на тех, кто уже знаком с языком программирования Java и хотел бы углубить свои знания и изучить объектно-ориентированный анализ и проектирование программного обеспечения. Вы познакомитесь с основными принципами и паттернами объектно-ориентированного дизайна, используемыми при разработке программных систем Java. Вы научитесь моделировать системы Java с помощью UML диаграмм, познакомитесь с основными понятиями и принципами объектно-ориентированного подхода, изучите порождаю...
Читать онлайн
Хотите понять, как основные поисковые системы ранжируют Ваш сайт в своих результатах поиска и как привлечь трафик? Научитесь поисковой оптимизации SEO.С этой книгой Вы познакомитесь с основными элементами поисковой оптимизации и изучите основные стратегии и тактики SEO для продвижения веб-сайтов, а также тактики, которых следует избегать, чтобы предотвратить наказание со стороны поисковых систем.Вы узнаете, как создать эффективную стратегию SEO и как определить возможности улучшения поисковой оп...
Читать онлайн
В коллективной монографии предпринята попытка междисциплинарного анализа коммуникативно-цивилизационной природы феномена фейков и постправды, включая оценочно-эмоциональные факторы в формировании и динамике смысловой картины мира, с учетом современных медийных технологий. Детально рассмотрены семантика и прагматика фейков, их зависимость от целевых контекстов, социально-культурных практик, порождение и применение фейков в сетевой коммуникации, конфликтах исторической памяти и информационных войн...
Читать онлайн
Мерси Шелли – псевдоним писателя, журналиста и футуролога Алексея Андреева, который известен любителям фантастики по романам «Паутина» и «2048», ставшим классикой русского киберпанка. В сборнике рассказов «Сетевое окружение» автор вновь обращается к теме влияния высоких технологий на нашу жизнь – здесь есть и социальная сеть для алкоголиков, и трудности знакомства с девушками во время эпидемии, и борьба со свихнувшимся искусственным интеллектом, и даже метод достижения бессмертия с помощью креве...
Читать онлайн
Под руководством Марка Цукерберга и Шерил Сэндберг самая влиятельная компания мира стала каналом дезинформации, языка вражды и политической пропаганды. Технический гигант не только объединял мир, но и нарушал конфиденциальность личных данных пользователей, распространял фейковые новости и опасные поляризующие ненавистнические высказывания. Отмеченные наградами репортеры The New York Times Шира Френкель и Сесилия Кэнг подробно рассказывают, как с помощью агрессивных лоббистских действий, политиче...
Читать онлайн
Книга о том, как справлять с негативными чувствами, которые вызывают социальные сети и о том, как в этом информационном шуме не потеряться: научиться отличать правду от фейка, побороть зависимость от соцсетей, не уронить свою самооценку сравнивая себя с другими и не рассориться с теми, чье мнение противоположно твоему. Читатель узнает несколько интересных фактов, а так же получит вопросы для самопознания, которые помогают юзеру соцсети хорошо узнать себя благодаря тем процессам, которые запускаю...
Читать онлайн
The theme of the book "Suprematistic QR code: The essence of the legend" is relevant for considering modern reality as a natural stage in the chronological development of human civilization. Here the suprematist movement created by K. Malevich is comprehensively considered, which embodiment is the famous "Black Square" (1915) – the pearl of the avant-garde. The book contains facts of the synthesis of science and art, including metaphysical ones, manifested in our everyday life. This approach bri...
Читать онлайн
Еще совсем недавно бытовало мнение, что создание собственного сайта – непростое дело и при этом достаточно трудозатратное и дорогое. Сегодня мир интернета открывает совершенно новые технологические возможности ведения онлайн-бизнеса, среди которых – возможность совершенно бесплатно создать свой собственный ресурс.С помощью платформы Яндекс.Турбо любой, даже неискушенный, пользователь может самостоятельно и очень быстро создать собственный сайт и запустить его в рекламу. Любую бизнес-идею можно н...
Читать онлайн
Задумывались ли вы, что каждый день сталкиваетесь с чем-то супрематическим? QR code стал «вторым паспортом» со 100-летней историей. Откройте для себя увлекательные факты о достоянии человечества ‒ творениях супрематизма ‒ и отыщите скрытые аллюзии: выставка «0,10» ‒ двоичность всех экранов ЭВМ. Четыре квадрата ‒ четыре кодировки. Квадрат – и матрица экрана, и пиксели. Интернет ‒ отражение беспредметного мира К. Малевича. Читая книгу, Вы осознаёте, что каждый из нас ‒ это творец открытых плодов с...
Читать онлайн
Представьте, что вы оказались в мире без интернета. Некуда загрузить фотографию, не с кем поделиться смешной картинкой, негде быстро получить нужную информацию. Кажется, что сегодня такое практически невозможно, но иногда это результат единственного решения и нескольких нажатий на кнопку.Интернет начинался как развиваемый энтузиастами островок свободы, но с тех пор им научились управлять – как государства, так и крупные корпорации. Фраза «интернет помнит все» обрела второй смысл – контент стал п...
Читать онлайн
Роман Надежды Антоновой – это путешествие памяти по смерти отца, картины жизни, реальные и воображаемые, которые так или иначе связаны с родителями, их образом. Книга большой утраты, оборачивающейся поиском света и умиротворения. Поэтичная манера письма Антоновой создает ощущение стихотворения в прозе. Чтение медитативное, спокойное и погружающее в мир детства, взросления и принятия жизни.Поэт Дмитрий Воденников о романе «От отца» Надежды Антоновой:«У каждого текста своё начало. Текст Надежды Ан...
Читать онлайн
Переезжая с семьёй в новый (но о-о-очень старый) дом, Харпер была совсем не рада, но и представить не могла, какой ужас их там ждёт! Похоже, эта развалина таит много старых секретов, от которых мурашки пробегают по коже. А уж когда младший брат Харпер Майкл начинает рассказывать о воображаемом друге, а затем с каждым днём ведёт себя всё более странно и жестоко, девочка понимает: она должна во что бы то ни стало разобраться, что не так со старым поместьем, и помочь брату. Может, именно в прошлом ...
Читать онлайн
Супружескую жизнь прожить – не поле перейти. И не простое поле, а минное. Судите сами… Бубликовы – мать и сын – прямо-таки на дыбы встали, когда детективы Василий Куликов и Василиса Селезнева отказались продолжить поиски Ирины Бубликовой. Еще бы! Ведь если Ирина не вернется, тогда Кеша Бубликов будет вынужден найти работу, а его родительница лишится приличного содержания, которое мятежная невестка обеспечивала бездельникам в обмен на прописку. А Василию и Василисе вовсе не хочется влезать в семе...
Читать онлайн
Согласно старинной легенде казацкий атаман Степан Разин владел чудесным вырезанным из слоновой кости городом с восьмиугольным храмом на холме. Этот артефакт делал атамана абсолютно неуязвимым. После гибели Разина он достался его потомкам и много лет передавался по наследству… Профессор Сперанский мечтает увидеть маленький прекрасный город, но не в силах отправиться на его поиски, так как стар и тяжело болен. Поэтому перед смертью он рассказывает об артефакте своей ученице Вете, которой и предсто...
Читать онлайн