活动简介
提起“大数据”就不得不提起有关数据的处理,虽然有人说过大数据在数据质量方面的要求不比传统数据的要求那么严格,当然这也是分场景的断言,但是无论何时数据处理在大数据的生态中始终处于不可缺少的地位。
一般而言,数据处理包括前期数据的规整,比如时间格式化,字段的补齐等;中期,比如为了统计出某个指标,需要多报表关联进行数据逻辑处理等。而现阶段的有关数据的处理,有传统的ETL工具利用多线程处理文件的方式;有写MapReduce,有利用Hive结合其自定义函数,以及最近比较热的利用spark进行数据清洗等,可以说每种方式都有各自的使用场景。因此,我们在实际的工作中,需要根据不同的特定场景来选择数据处理方式。
在本次主题为“大数据处理平台技术选型探讨”在线技术交流活动,我们将重点围绕选型过程的中的具体问题进行互动探讨。核心探讨议题如下:
1.传统ETL ,Mapreduce,Hive,Spark等处理数据文件的场景分析
2.Hive在数据逻辑处理中如何利用自定义函数
3.Mapreduce,Hive ,Spark处理数据的优化策略
4.大数据处理平台技术平台选择,是纯开源,还是纯商用,还是开源+商用?
推荐阅读:大数据处理平台技术产品选型探讨