当前位置:技术分享 > 技术参考 > 正文

如何用10个大数据技术方案解决一个问题2019-11-01 11:14:11 | 编辑:hely | 查看: | 评论:0

数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。

数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。

 

 Python现在很流行当然也有很多其他的选择。SQL大行其道,而其他一些老古董仍然存在。

本文试图为一个简单的挑战,提供10种不同技术编写的10个解决方案:

 

 

通过这些技术,使用Grouplens网站提供的两个CSV数据集列出十大最受欢迎的电影。

数据集

 

 

目标

我们将聚合收视率数据(u.data)来计算每个movie_id的平均收视率,并找到平均收视率最高的10部电影。

 

 

1. AWK

 

 

Step 1: Join the Datasets

Step 2: Sort, Cut and TR

 

 

Step 3: AWK

Step 4: Again AWK

Step 5: Sort, Head and TR

2. PERL

 

 

 

 

3. BASH

 

 

4. SQL(PostgreSQL)

 

 

 

 

 

 

5. Python with Pandas

 

 

6. MapReduce With MRJob in Python

 

 

7. Pig Latin

 

 

8. Hive

 

 

 

 

 

 

 

 

9. Spark with Scala

 

 

10. MongoDB

 

 

 

 

 

 

 

 

详细原文:https://dzone.com/articles/one-challenge-with-10-solutions

上一篇:你应该学习的20个Python代码段 银行数据平台进化的最佳路径是什么?下一篇:

公众平台

搜索"raincent"或扫描下面的二维码

?