| 
						
						
							
								
							
						
						
					 | 
				
				 | 
				 | 
				
					@ -14,12 +14,17 @@
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					5.	Применить стемминг, записав обработанные выборки (тестовую и обучающую) в новые переменные
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					6.	Провести векторизацию выборки:
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    1.	Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    1.	Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
						1.  Рассчитать сходство по коэффициенту Жаккара между тремя классами
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    1.	Применить процедуру отсечения стоп-слов и повторить пункты b-c.
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    1.	Провести пункты a – c для обучающей и тестовой выборки, для которой проведена процедура стемминга.
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    1.	Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    A.	Векторизовать обучающую и тестовую выборки простым подсчетом слов (CountVectorizer)
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    B.	Вывести и проанализировать первые 20 наиболее частотных слов всей выборки и каждого класса по-отдельности.
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
						C.  Рассчитать сходство по коэффициенту Жаккара между тремя классами
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    D.	Применить процедуру отсечения стоп-слов и повторить пункты B - C.
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
						E.	Провести пункты A – D для обучающей и тестовой выборки, для которой проведена процедура стемминга.
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					    
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
						F.	Векторизовать выборки с помощью TfidfTransformer (с использованием TF и TF-IDF взвешиваний).
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
						
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					7. Используя конвейер (Pipeline) реализовать модель Наивного Байесовского классификатора и выявить на основе показателей качества 
 | 
				
			
			
		
	
		
			
				
					 | 
					 | 
				
				 | 
				 | 
				
					(значения полноты, точности, f1-меры и аккуратности), какая предварительная обработка данных обеспечит наилучшие результаты классификации. 
 | 
				
			
			
		
	
	
		
			
				
					| 
						
							
								
							
						
						
						
					 | 
				
				 | 
				 | 
				
					
 
 |