当前位置:首页 > 云计算 > 正文

基于云计算的分布式数据挖掘算法


一、请问大数据的关键技术有哪些?

分布式计算、非结构化数据库、分类、聚类等算法。

大数据包括结构化、半结构化和非结构化数据,其中非结构化数据日益成为数据的主要组成部分。IDC研究报告显示:企业中80%的数据是非结构化数据,并且该数据每年以60%的速度呈指数级增长。

大数据

大数据通常用于描述公司产生的大量非结构化和半结构化数据。太多时间。并且花费金钱将其加载到关系数据库中进行分析。

大数据分析通常与云计算联系在一起,因为大型数据集的实时分析需要诸如MapReduce之类的框架来将工作分配到数十、数百甚至数千台计算机上。

大数据需要特殊的技术才能在可接受的时间内有效地处理大量数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网、可扩展存储系统等。

来源:、大数据



二、什么是云计算?什么是大数据?二者有何联系?

云计算的关键词是“集成”。无论是使用现在已经非常成熟的传统虚拟机分区技术,还是Google后来使用的海量节点聚合技术,都是通过对大型服务器资源的整合。通过网络整合并调度分配给用户,解决用户因存储和计算资源不足而带来的问题。

大数据是数据快速增长带来的新课题,如何存储当今互联网时代产生的海量数据,如何有效利用和分析这些数据等。

你可以这样理解两者的关系,云计算技术是一个容器,大数据就是这个容器里的水,依靠云计算技术进行存储和处理。

更多信息:

云计算经常与网格计算、效用计算和自主计算相混淆。

计费,如通过计算和存储分开计量成本,如电力等传统公用事业;

自主计算:具有自我管理功能的计算机系统。

事实上,云计算的很多应用都依赖于计算机集群(但与网格的组成、架构、用途和工作方式有很大不同),同时也吸收了自主计算和效用计算的特点。

普遍接受的云计算特点如下:

(1)超大规模

“云”具有大规模的谷歌云计算已经拥有超过100万台服务器,亚马逊、IBM、微软、雅虎等的“云”也在不断壮大。都有数十万台服务器。企业私有云通常拥有数百或数千台服务器。“云”可以为用户提供前所未有的计算能力。

(2)虚拟

云计算支持用户在任意地点、使用多个终端获取应用服务。所请求的资源来自“云”而不是固定的有形实体。应用程序运行在“云”中的某个地方,但用户实际上不需要知道或担心应用程序运行的具体位置。只需一台笔记本电脑或手机,我们需要的一切都可以通过网络服务来实现,甚至是类似超级计算机的任务。

(3)高可靠性

“云”通过数据多副本、容错以及计算节点同构可互换等措施,保证服务的高可靠性,比使用你的更可靠本地计算机。

(4)多样性

云计算不针对特定应用有了“云”的支持,可以构建千变万化的应用同一个“云”可以同时支持不同的应用时间应用步行。

(5)高扩展性

“云”的规模可以动态扩展,以满足应用和用户规模增长的需求。

(6)按需服务

“云”是您按需购买的大量资源;云可以像自来水、电和煤气一样计费。

大数据的特点:

1体量:数据的大小决定了所考虑的数据的价值和信息潜力

2类型(各种)):数据类型多样

3速度:指获取数据的速度

4可变性:阻碍数据过程的有效处理和管理。

5真实性:数据质量

6复杂性:来自多个渠道的大量数据

7价值:合理利用大数据创造高价值低成本

想要系统认识大数据,就必须彻底、仔细地解读它,从三个层次开始:

第一个层次是理论是认知的唯一途径,这也是一个被广泛认可和传播的基线。在这里,我们将从大数据特征的定义中了解大数据的行业整体描述和特征;从大数据价值的讨论中深入分析大数据的价值;;并从特殊而重要的大数据隐私问题出发,透视人与数据之间的长期博弈。

第二个层次是技术,这是大数据价值的体现方式,也是进步的基础。这里将从云计算、分布式处理技术、存储技术和感知技术的发展角度来阐述大数据从采集、处理、存储到形成结果的整个过程。

第三个层次是实践,实践是大数据最终价值的体现。在这里,我们将从互联网大数据、政府大数据、企业大数据和个人大数据四个方面来描述大数据呈现的美丽风景以及实现大数据的行动计划。

参考资料:-大数据-云计算