认识达内从这里开始

认真做教育专心促就业

南昌达内培训算法工程师都需要掌握哪些编程知识

发布：南昌达内IT培训
来源：互联网
时间：2021-12-31 14:14

算法工程师是程序员经常会选择的一个职业发展方向，下面我们就通过案例分析来了解一下，算法工程师都需要掌握哪些编程知识。

南昌达内培训算法工程师都需要掌握哪些编程知识

hive

hive也是hadoop家族核心的一员，它的思想也很巧妙，做了一件非常有利于程序员的事情。

使用hdfs以及MapReduce其实就足够应付几乎所有大数据计算的场景了，但是足够应付并不代表应付起来很舒服。有些场景使用起来就不是很顺手，比如说我们要把两份数据关联在一起，一份是用户点击数据，一份是商品数据，我们想要得到用户点过的商品信息。大数据培训

你会发现使用MapReduce去做这样一件事情会非常蛋疼，要写很多代码。所以有人突发奇想，我们能不能利用hdfs以及MapReduce做一套好用一点的数据处理系统，比如说将数据全部格式化，然后像是数据库一样使用SQL来进行数据的查询和处理?于是就有了hive。

hive底层的运算框架就是MapReduce，只不过有了表结构之后，很多之前很复杂的操作被大大简化了。尤其是数据表之间的join、groupby等操作，之前需要写大量MapReduce的代码，现在几行SQL就搞定了。

不过hive毕竟不是数据库，它的使用还是有一些它自己专属的奇淫技巧。比如说避免数据倾斜的情况，比如说设置合理的内存分片，比如说udf的使用等等。

只是懂SQL的语法是写不好hive的，多少还需要做一些深入的了解。

spark

说到spark相信很多同学也是久仰大名，它是一个非常著名的开源集群计算框架，也可以理解成一个分布式计算框架。

spark在MapReduce的基础上对MapReduce当中的一些问题进行了优化，比如MapReduce每次运算结束之后都会把数据存储在磁盘上，这会带来巨大的IO开销。

而spark使用了存储器内运算技术，可以尽量减少磁盘的写入。这其中的技术细节看不懂没有关系，我们只需要知道它的运算性能比MapReduce快很多就可以了，一般来说运算速度是MapReduce的十倍以上。并且spark原生支持hdfs，所以大部分公司都是使用hdfs做数据存储，spark来进行数据运算。

在hadoop推出了hive之后，spark也推出了自己的sparkSQL。不过后来hive也支持使用spark作为计算引擎代替MapReduce了，这两者的性能上差异也就很小了，我个人还是更喜欢hive一点，毕竟写起来方便。

另外spark除了计算框架之外，当中也兼容了一些机器学习的库，比如MLlib，不过我没有用过，毕竟现在机器学习的时代都快结束了。很少再有使用场景了，大家感兴趣也可以了解一下。

【免责声明】本文系本网编辑部分转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与管理员联系，我们会予以更改或删除相关文章，以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销，赚更多好礼。

< 上一篇：南昌达内培训数字化转型发展都需要注意哪些问题

下一篇：南昌达内培训软件开发一致性都包含哪些要求 >