2015 Теормин, страница 5
Описание файла
Документ из архива "2015 Теормин", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Онлайн просмотр документа "2015 Теормин"
Текст 5 страницы из документа "2015 Теормин"
>>> log2.registerTempTable('log2')
>>> sqlContext.sql('select count(*) from log2')
DataFrame[_c0: bigint]
>>> sqlContext.sql('select count(*) from log2').collect()
[Row(_c0=1000000)]
>>> sqlContext.sql('select * from log2 where domain like \'%lenta.ru\' order by dt desc limit 3').collect()
Row(domain='lenta.ru', dt=20141129, month=201411, times='84755', url='http://lenta.ru/news/2013/11/29/love/', user_id='1235907'), Row(domain='lenta.ru', dt=20141129, month=201411, times='74491', url='http://lenta.ru/news/2013/11/29/love/', user_id='1724463'), Row(domain='lenta.ru', dt=20141129, month=201411, times='73832', url='http://lenta.ru/news/2013/11/29/block/', user_id='1724463')]
>>> sqlContext.sql('select user_id, domain, month, count(domain) over (partition by month, domain), count(domain) over (partition by month, domain, user_id) from log2').show(3)
+-------+--------------------+------+---+---+
|user_id| domain| month|_c3|_c4|
+-------+--------------------+------+---+---+
| 385625| 10.0.110.245|201410| 1| 1|
| 447272|1119997.1001golos.ru|201410| 1| 1|
| 447272|1125714.1001golos.ru|201410| 1| 1|
+-------+--------------------+------+---+---+
>>>