面试题之大数据
1.Apache Flink ?
一、Apache Flink 的定义、架构及原理:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。其他的还是不摘了,还是看下面的链接吧。
1.Apache Flink ?
2.常用的几种大数据架构剖析
1.传统大数据架构。
2.流式架构。
3.Lambda架构
4.Kappa架构
5.Unified架构
1.常用的几种大数据架构剖析
3.大数据基础知识
我就不班门弄斧了,大数据包含的知识很多,我觉得还是要从头开始学起来,这篇文章还是非常好的,从大数据生态的各个方面关系入手,一点点的总结
1.大数据学习 第一篇——基础知识
4.什么是流式计算?
大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。2.流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须实时计算给出秒级响应。流式计算,顾名思义,就是对数据流进行处理,是实时计算。批量计算则统一收集数据,存储到数据库中,然后对数据进行批量处理的数据计算方式。3.主要体现在以下几个方面:、数据时效性不同:流式计算实时、低延迟, 批量计算非实时、高延迟。2、数据特征不同:流式计算的数据一般是动态的、没有边界的,而批处理的数据一般则是静态数据。3、应用场景不同:流式计算应用在实时场景,时效性要求比较高的场景,如实时推荐、业务监控…批量计算一般说批处理,应用在实时性要求不高、离线计算的场景下,数据分析、离线报表等。4、运行方式不同,流式计算的任务持续进行的,批量计算的任务则一次性完成。
1.什么是流式计算?