From cfbf57584518dd28f382078e6c5bdee286051f39 Mon Sep 17 00:00:00 2001 From: Mokhov Andrey Date: Wed, 18 Oct 2023 12:55:55 +0300 Subject: [PATCH] lab02: corrections --- labs/lab02.md | 16 +++++++++++++--- 1 file changed, 13 insertions(+), 3 deletions(-) diff --git a/labs/lab02.md b/labs/lab02.md index 3aa4c63..51806bc 100644 --- a/labs/lab02.md +++ b/labs/lab02.md @@ -13,10 +13,11 @@ ### Задачи -* Реализовать на языке Python алгоритм в парадигме MapReduce в соответствии с вариантом. +* Разработать на языке Python алгоритм в парадигме MapReduce в соответствии с вариантом. +* Разработку и тестирование допускается проводить в локальной системе. * Запустить разработанный алгоритм в среде Hadoop. * Убедиться в корректности полученных результатов. -* Сформировать отчет о выполненной работе +* Сформировать отчет о выполненной работе. В отчете показать финальный результат работы (или его часть). ### Варианты заданий @@ -125,19 +126,28 @@ __Требуется__: рассчитать веса PageRank по прошес -#### 3. TF-IDF +#### 4. TF-IDF __Дано__: [Текст трех произведений](assets/shakespear.txt). В начале каждой строки указан номер произведения. __Требуется__: рассчитать tf-idf вес каждого слова в каждом произведении. +Формат вывода: +``` +Слово1#1 0.123 +Слово1#2 0.234 +Слово2#1 0.678 +``` + +После слова через решетку идет номер документа, далее через отступ - tf-idf вес данного слова в данном документе. ### Вопросы 1. Какие этапы существуют у MapReduce задач? +2. Какие принцип должны закладываться в алгоритмы, написанные в парадигме MapReduce? 2. В каком виде осуществляется передача данных между Map и Reduce? 3. Как определяется число mapper-процессов в MapReduce задаче? 4. Как могут представляться графы в математическом виде? Как они обычно представляются в задачах MapReduce?