Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагруженного RSS-агрегатора.

Жанры:	Книги о компьютерах, Прочая образовательная литература
Цикл:	Не является частью цикла
Год публикации:	Неизвестен

Читать онлайн Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Переводчик Денис Александрович Кирьянов

Корректор Анастасия Лобанова

ISBN 978-5-0064-3419-6

Создано в интеллектуальной издательской системе Ridero

Термины и определения

В данной книге применяются следующие термины с соответствующими определениями:

Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.

Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.

Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.

Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.

Токенизация (англ. tokenization) – процесс разделения текста на составляющие.

Naive Estimator – наивная оценка.

Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».

Перечень сокращений и обозначений

В данной книге применяются следующие сокращения и обозначения:

БД – база данных.

API, АПИ (англ. Application Programming Interface) – аппаратно-программный интерфейс.

DNS (англ. Domain Name System) – система доменных имен.

FOAF (англ. Friend of a Friend) – спецификация для описания пользователя в социальных сетях.

HTML (англ. Hyper Text Markup Language) – язык гипертекстовой разметки.

JSON (англ. JavaScript Object Notation) – текстовый формат обмена данными, основанный на языке программирования JavaScript.

MNA (англ. Matrix-based News Analysis) – метод матричного анализа новостей.

MLE (англ. Maximum Likelihood Estimator) – подход оценки максимального правдоподобия.

MME (англ. Moment Matching Estimator) – метод определения вероятности изменения агрегированных данных.

NLP (англ. Natural Language Processing) – обработка естественного языка.

REST (англ. Representational State Transfer) – архитектурный стиль взаимодействия компонентов распределенного приложения в сети.

RSS (англ. Rich Site Summary) – обогащенная сводка сайта.

SVM (англ. Support Vector Machine) – метод опорных векторов.

TF-IDF (англ. Term Frequency – Inverse Document Frequency) – статистическая мера, используемая для оценки важности слова в контексте документа.

URL (англ. Uniform Resource Locator) – унифицированный указатель ресурса.

XML (англ. Extensible Markup Language) – расширяемый язык разметки.

YML (англ. Yandex Market Language) – стандарт передачи данных маркетплейса компании «Яндекс».

Предисловие

В этой книге представлены три мои статьи, объединенные одной темой: агрегация контента и его обработка. Данные статьи первоначально были опубликованы на английском языке в журнале из перечня ВАК «Программные системы и вычислительные методы» и использовались мной в дальнейшем в качестве основы при написании магистерской диссертации по программной инженерии на тему «Исследование методов построения архитектур агрегаторов информации в сети Интернет».

В текущий сборник вошел перевод этих статей, выполненный мной самим. К каждому из опубликованных переводов добавлена ссылка на оригинал, а также сохранена оригинальная аннотация на русском языке.

Статьи представлены в полном объеме, без сокращений. Кроме того, в приложении представлены архитектуры систем агрегации информации, дополняющие публикуемые статьи. Для того чтобы сделать иллюстрации читаемыми в черно-белой печати, мне пришлось в статье «Масштабируемая система агрегации, предназначенная для обработки 50 000 RSS-каналов» их переработать, заменив на черно-белые, без потери смысла.

Материал, представленный в данной книге, может быть полезен для студентов ИТ-специальностей, разработчиков ПО, ИТ-менеджеров, а также для широкого круга людей, интересующихся разработкой систем агрегации информации и построением сложных распределенных информационных систем.

Продолжить чтение

Вам будет интересно

Искусственный интеллект в салоне красоты. Ваш новый сотрудник – AI!

Ляля Садыкова

Он работает 24 часа в сутки, 7 дней в неделю. У него нет выходных. Ему не нужен отпуск. У него не бывает выгорания, и у него не болит голова. У него нет синдрома самозванца, и не снижается мотивация в жару или холод. И самое главное – ему не нужна зарплата. А вместо этого его достаточно просто похвалить. Мечта, а не сотрудник. Не правда ли?Знакомьтесь, ваш новый сотрудник – AI!...

Читать онлайн

Маркетинг без воды: путеводитель для начинающих покорителей рынка. 20-летний опыт за 1 час

Азер Назаров

Откройте для себя мир маркетинга с книгой «Маркетинг без воды: путеводитель для начинающего покорителя рынка». Этот практический гид, основанный на 20-летнем опыте автора, предлагает четкие ответы на важные вопросы: что такое маркетинг и зачем он нужен? Узнайте об основах, инструментах и современных трендах, которые помогут вам уверенно шагнуть в профессию. Каждая глава включает краткую теорию, интересные факты и советы от практикующего маркетолога. Станьте экспертом в маркетинге всего за час!...

Читать онлайн

Умные вещи

Николай Надеждин

Мы живем среди множества самых разнообразных вещей. Посмотрите вокруг. Возле стены, у самого окна, стоит аквариум. Рядом – телевизор и видеомагнитофон. На письменном столе лежат авторучка и старая курительная трубка… Нам кажется, что мы знаем об этих предметах все. Но все ли? Когда, к примеру, появилась на свет божий самая первая трубка? И где? Какая авторучка считается самой лучшей? А, скажем, диктофон? Оказывается, вопросов гораздо больше, чем ответов....

Читать онлайн

Организация работы прачечной и химчистки в гостинице

Юлия Полюшко

«Организация работы прачечной и химчистки в гостинице» – это незаменимый путеводитель для всех, кто хочет создать безупречную систему обслуживания гостей. Учебник подробно разбирает все аспекты организации прачечной и химчистки: от выбора оборудования до контроля качества. С ним вы научитесь оптимизировать процессы, снизить затраты и повысить удовлетворенность гостей....

Читать онлайн

Компьютерный «ликбез» для тех, кто пока не готов носить даже гордое имя «чайник»

Александр Махлов

Эта книга намеренно создавалась в электронном виде. Её не смогут приобрести те, для кого она предназначена – не умеющие и не желающие пользоваться компьютером, уверенные, что иметь собственный компьютер ни к чему, а Интернет – это "помойка с фейками".Она в помощь тем продвинутым пользователям ПК и Интернета, кого "достала компьютерная дремучесть" родственников, особенно старшего поколения. Кто хочет помочь им понять открывающиеся возможности и увлечься. Книга станет помощником тем, кто хочет при...

Читать онлайн

КонтрПлагиат методом перефразирования и рерайта для антиплагиат ВУЗ. Как повысить оригинальность текста за несколько часов и пройти проверку с первого раза

Вячеслав Мустакимов, Алексей Мустакимов

Обобщен многолетний опыт перефразирования и рерайта академических текстов для успешного прохождения антиплагиат-проверки.В монографии собрано и подробно представлено все лучшее из практики перефразирования научных текстов, с примерами.Технология КонтрПлагиат позволяет повышать уникальность академических текстов – бесплатно со скоростью 1000 знаков в минуту, исключает рутину, статус генеративного, «Подозрительного документа», оставляя время для настоящего научного творчества....

Читать онлайн

Промпт-инжиниринг. Язык будущего

Александр Костин

В мире, где искусственный интеллект становится неотъемлемой частью нашей жизни, умение говорить на его языке – ключ к невероятным возможностям. Эта книга раскрывает секреты промпт-инжиниринга, превращая читателя из обычного пользователя в виртуозного дирижера ИИ-оркестра. Вы научитесь формулировать идеи так, чтобы машины не просто понимали, но и воплощали их с невиданной точностью и креативностью. Добро пожаловать в будущее, где ваши слова обретают силу творить чудеса!...

Читать онлайн

Исследование новых и нестандартных видов модуляции на основе OFDM-технологии

Евгений Рычков

Рассмотрена технология ортогонального частотного разделения с мультиплексированием в контексте поиска новых алгоритмов для улучшения помехоустойчивости систем связи....

Читать онлайн

Что летом родится, зимой пригодится

Галина Кизима

Хотите, чтобы приготовление пищи не занимало у вас много времени, но при этом еда была вкусной, сытной и полезной? Воспользуйтесь рецептами садоводов-любителей, которые собрала для вас Галина Александровна Кизима – признанный специалист во всех аспектах ведения приусадебного хозяйства.Поскольку садоводы и огородники народ изобретательный, то и рецепты у них чаще всего оригинальные. Не обошлось, конечно, и без известных рецептов, но они включены в книгу, прежде всего, из-за своей простоты. Некото...

Читать онлайн

Дозвониться до Девы

Виталий Самуров

Таинственная карта памяти? Исчезновение друга… Неужели в деле замешаны пришельцы?Динамичная научная фантастика.Мятый почтовый конверт, клапан конверта заклеен. Бледно-синие линии шариковой ручки корявым почерком… Серебристые шарики капелек припоя на потёртом линолеуме… Тяжёлый треножник телескопной монтировки на полу у окна. Вместо телескопа – прямоугольная коробка с радиатором охлаждения и фотообъективом… Старинная книжная полка, прогнувшаяся под весом книг: И. С. Шкловский, «Вселенная, жизнь, ...

Читать онлайн

Сочувствую, что вы так чувствуете

Ребекка Уэйт

Для Элис и Ханны, святой и грешницы, взросление – это испытание. Мать в воспитании придерживается подхода «разделяй и властвуй», а отец придерживается тактики отсутствия. Еще есть старший брат Майкл, чье неодобрение – сила, с которой нужно считаться. И наконец, есть семейная катастрофа, о которой никогда не говорят, но которая сформировала всех в семье.Став взрослыми, Элис и Ханна продолжают свой путь по дороге разочарований, их жизнь так не похожа на то, что они представляли в детстве. Им так х...

Читать онлайн

Учитель. Назад в СССР 2

Аристарх Риддер, Дмитрий Буров

Сколько себя помню, я всегда был прямой как палка. Всегда говорил людям в лицо то, что они заслуживают. А вот мир последние лет сорок, наоборот, петлял как змея в траве.Но ведь было же и другое время. Время, когда белое было белым, а чёрное чёрным.Что ж, вокруг меня СССР времён своего расцвета, вторая половина шестидесятых.Давай, Егор, вот тебе второй шанс, смотри, не упусти его....

Читать онлайн