大数据方面核心技术有哪些?
发表于2022-07-25 21:56:36

这个问题提问的很有深度,目前大数据是个比较广义的概念,涉及的方方面面很大,若要给个很官方的说法是比较难,简单说一下我知道的理解:

一是数据采集与预处理,也就是说你不管是任何的大数据分析,首先要有数据支撑,但是数据是很广的,你需要的数据得按关键词或者一定的分类把数据进行预处理,以便分析时提供调用。数据采集分很多很多种,可以是网络资源抓取、硬件采集、人工录入、数据对接、购买第三方资源等等,技术很多种Flume NG、NDC、Logstash、Sqoop、Strom、Zookeeper等。

二是数据存储,这是个很消耗硬件资源的本质问题,既然是大数据,说明是一个大型量化的过程,随着你分析需求,数据会随着时间的推移变得庞大,应用多技术方法有Hadoop、HBase、Phoenix、Yarm、Mesos、Redis、Atlas、Kudu等。

三是数据清洗,你的数据庞大会让你的整体响应速度受到极大考验,读写分离,负载均衡等等问题就需要你去想应对方案,应用到的查询引擎工作流调度引擎技术有MapReduce、Oozie、Azkaban等。

四是数据查询分析,这个依据你的业务数据需求,比如现在应用比较广泛成熟的有商城产品信息推送、头条新闻推送、广告推送等等,都是以收集用户历史信息唯独去分析,应用到的技术有Hive、Impala、Spark、Nutch、Solr、Elasticsearch等,当然还有一些机器学习语言,机器学习算法如贝叶斯、逻辑回归、决策树、神经网络和协同过滤等等。

五是数据可视化,这也是数据分析的最终目的,如何去更好的呈现你的数据,使你的数据变得有价值是你做这个分析平台的制高点,当下应用比较成熟的技术有BI Tableau、Qlikview、PowrerBI、SmallBI等。

总结起来就是你需要实现分析,首先要有来源,然后要有方法,其次要有目的,最后你要面向用户,这可能是个漫长而又考验技术的过程,人力物力环境时间都将可能是你面临的难题。

大数据可以解决的问题有哪些?

大数据具体可以分为数据采集、数据分析和数据展现等几个部分,由于大数据采用的是非结构化的数据,与传统的数据分析相比价值密度、数据量大,通俗来说就是传统的数据分析相当于顺藤摸瓜,大数据分析相当于画地为牢。

可以举几个大数据的实际应用场景,比如商业营销,商家通过统一的数据标准在平台采集客户信息,分析客户偏好,有针对性的制定营销策略,这个模式目前在每个行业营销领域都很常见,再比如人工智能、物联网方面,这两个方面都是本身数据就是非结构化的,利用传统的数据分析方式无法有效处理,只能通过大数据的手段进行分析。

总之,大数据解决的问题不是哪一个领域而是每一个领域,不是某一时刻影响我们的生活而是每一刻都在影响我们生活。大数据仍然需要统一的数据标准作为支撑,具体解决的问题以及落地场景,还在不断的完善,随着技术以及时间的推移,大数据应用越来越广泛,解决的问题也是越来越多,可能后续的问题就是大数据还有哪些不能解决的问题。

大数据技术目前主要解决两个问题,大量数据情况下,单台机器无法进行计算以及存储问题,所以此时需要大数据技术进行解决。

分布式计算解决单台机器无法计算大数据问题,常见的分布式计算分为离线计算和实时计算计算机使用数据进行计算时,会把数据加载到内存中,但是由于单台机器的内存限制有限,当数据量过于巨大时,比如 1024 G数据,全部加载到内存是不现实的,因为现在的机器内存一般不会太大,虽然有这样大内存的机器,但是成本太高,一般不会选择使用一台机器来进行处理。

此时使用分布式计算技术,使用多台机器进行数据处理,每台机器本质是处理总数据的一个子集。打个比方,1024 G 的数据,有64台机器,那其实每台机器处理 16GB 的数据即可,这是可以实现的,而且都是廉价机器,总体成本不会太高。像现在的 Hadoop 的 MapReduce 技术,就是通过将数据分割,每个Map任务处理总体数据的一个子集,来解决大数据计算的问题。

分布式存储解决单台机器无法存储大量数据的情况,解决单机磁盘限制问题,支持水平扩展大数据最终本质都会存储在计算机的磁盘上面,单台机器磁盘无论再大,其磁盘容量都是有限制的。而对于分布式存储来说,当一台机器的磁盘不够时,它支持水平扩展机器,可以从一台变成多台,那总的磁盘大小就是这些机器的和,从而解决了单台机器磁盘不足问题。

分布式存储也是通过将数据进行水平划分或者垂直划分,每台机器存储的是整体数据集的一个子集,协同进行存储。而单机就一台机器, 虽然其磁盘支持更换,但始终是有限的,当达到特别大的时候,在进行磁盘容量扩展,成本也会非常大。一般公司都会选择廉价的机器,分布式的进行存储数据,那台机器坏了,在添加新的机器即可。

投稿:99it.com.cn
Copyright © 2002-2022 99科技网