当前位置:技术分享 > 技术参考 > 正文

在Python中处理JSON数据2019-10-16 15:00:20 | 编辑:hely | 查看: | 评论:0

作为一名程序员,我决定不使用multiple columns。相反,所有参数将存储在单个column中(作为数据库表中的字符串)。Spark应用程序将负责读取字符串并提取所需的参数。

我最近完成了两项工作——基于spark的数据摄取框架和基于spark的数据质量框架;都是元数据驱动的。通常,都是存储在RDBMS中。在数据摄取框架中,我需要存储源(用户名、密码、路径、格式等信息)、目标(用户名、密码、路径、格式等信息)、压缩等参数。在普通模式中,我看到这些参数被建模为表中的列。
 

by Bipin Patwardhan 来源:DZone

作为一名程序员,我决定不使用multiple columns。相反,所有参数将存储在单个column中(作为数据库表中的字符串)。Spark应用程序将负责读取字符串并提取所需的参数。

做出这个(看起来很简单的)决定之后,下一步是定义“参数”字符串的格式。为此,我毫不犹豫地选择了JSON。虽然解析类似于csv的格式很容易,但是JSON提供了很多灵活性——但是要付出一些代价。

在Spark中研究JSON解析的各种选项之后,我使用Scala解析库,开发了一个Scala类来实现这个目的,在编程世界中,完成一项任务的方法不止一种,即使是对于JSON解析,也有许多可用的库,如Json4s、Play JSON、Spray JSON等。

在使用Scala解析JSON之后,我想在Python中尝试一些类似的东西。我发现在Python中JSON解析很简单(本质上就是一个导入和一行代码)。

 

 

由于我们习惯于将简单的事情复杂化,所以我决定将JSON解析逻辑封装在一个名为CustomJSON的类中。

 

上一篇:HBase 2.0 在时序数据存储方向的应用 编程大神进阶之路:Python技巧小贴士下一篇:

公众平台

搜索"raincent"或扫描下面的二维码

?