Mokhov Andrey 2 лет назад
Родитель 3f0bba56a5
Сommit cfbf575845

@ -13,10 +13,11 @@
### Задачи
* Реализовать на языке Python алгоритм в парадигме MapReduce в соответствии с вариантом.
* Разработать на языке Python алгоритм в парадигме MapReduce в соответствии с вариантом.
* Разработку и тестирование допускается проводить в локальной системе.
* Запустить разработанный алгоритм в среде Hadoop.
* Убедиться в корректности полученных результатов.
* Сформировать отчет о выполненной работе
* Сформировать отчет о выполненной работе. В отчете показать финальный результат работы (или его часть).
### Варианты заданий
@ -125,19 +126,28 @@ __Требуется__: рассчитать веса PageRank по прошес
#### 3. TF-IDF
#### 4. TF-IDF
__Дано__: [Текст трех произведений](assets/shakespear.txt). В начале каждой строки указан номер произведения.
__Требуется__: рассчитать tf-idf вес каждого слова в каждом произведении.
Формат вывода:
```
Слово1#1 0.123
Слово1#2 0.234
Слово2#1 0.678
```
После слова через решетку идет номер документа, далее через отступ - tf-idf вес данного слова в данном документе.
### Вопросы
1. Какие этапы существуют у MapReduce задач?
2. Какие принцип должны закладываться в алгоритмы, написанные в парадигме MapReduce?
2. В каком виде осуществляется передача данных между Map и Reduce?
3. Как определяется число mapper-процессов в MapReduce задаче?
4. Как могут представляться графы в математическом виде? Как они обычно представляются в задачах MapReduce?

Загрузка…
Отмена
Сохранить