数据采集系统由哪些部分组成,数据采集系统的特点介绍

   2023-04-14 互联网0
核心提示:大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。ETL,是英文 Extract-Transform-Load 的缩写,数据从数据来源端经过抽取(extrac

数据采集系统由哪些部分组成,数据采集系统的特点介绍

大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。ETL,是英文 Extract-Transform-Load 的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。

大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。ETL,是英文 Extract-Transform-Load 的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。

用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。

数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

由于采集的数据种类错综复杂,对于这种不同种类的数据。

我们进行数据分析,必须通过提取技术。将复杂格式的数据,进行数据提取,从数据原始格式中提取(extract)出我们需要的数据,这里可以丢弃一些不重要的字段。

对于数据提取后的数据,由于数据源头的采集可能存在不准确。

所以我们必须进行数据清洗,对于那些不正确的数据进行过滤、剔除。

针对不同的应用场景,对数据进行分析的工具或者系统不同,我们还需要对数据进行数据转换(transform)操作,将数据转换成不同的数据格式,最终按照预先定义好的数据仓库模型,将数据加载(load)到数据仓库中去。

在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。

对于大数据采集系统,主要分为以下三类系统:

1.系统日志采集系统。

许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。

为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。

系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。

目前常用的开源日志收集系统有Flume、Scribe等。Apache Flume是一个分布式、可靠、可用的服务,用于高效地收集、聚合和移动 大量的日志数据,它具有基于流式数据流的简单灵活的架构。

其可靠性机制和许多故障转移和恢复机制,使Flume具有强大的容错能力。

Scribe是Facebook开源的日志采集系统。Scribe实际上是一个分布式共享队列,它可以从各种数据源上收集日志数据,然后放入它上面的共享队列中。

Scribe可以接受thrift client发送过来的数据,将其放入它上面的消息队列中。然后通过消息队列将数据Push到分布式存储系统中,并且由分布式存储系统提供可靠的容错性能。

如果最后的分布式存储系统crash时,Scribe中的消息队列还可以提供容错能力,它会还日志数据写到本地磁盘中。Scribe支持持久化的消息队列,来提供日志收集系统的容错能力。

2.网络数据采集系统。

通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。

并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架。

Apache Nutch是一个高度可扩展和可伸缩性的分布式爬虫框架。

Apache通过分布式抓取网页数据,并且由Hadoop支持,通过提交MapReduce任务来抓取网页数据,并可以将网页数据存储在HDFS分布式文件系统中。

Nutch可以进行分布式多任务进行爬取数据,存储和索引。由于多个机器并行做爬取任务,Nutch利用多个机器充分利用机器的计算资源和存储能力,大大提高系统爬取数据能力。

Crawler4j、Scrapy都是一个爬虫框架,提供给开发人员便利的爬虫API接口。开发人员只需要关心爬虫API接口的实现,不需要关心具体框架怎么爬取数据。Crawler4j、Scrapy框架大大降低了开发人员开发速率,开发人员可以很快的完成一个爬虫系统的开发。

3.数据库采集系统。

一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。

除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。

通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。

针对大数据采集技术,目前主要流行以下大数据采集分析技术。Hive是Facebook团队开发的一个可以支持PB级别的可伸缩性的数据仓库。

这是一个建立在Hadoop之上的开源数据仓库解决方案。 Hive支持使用类似SQL的声明性语言(HiveQL)表示的查询,这些语言被编译为使用Hadoop执行的MapReduce作业。

另外,HiveQL使用户可以将自定义的map-reduce脚本插入到查询中。该语言支持基本数据类型,类似数组和Map的集合以及嵌套组合。

HiveQL语句被提交执行。首先Driver将查询传递给编译器compiler,通过典型的解析,类型检查和语义分析阶段,使用存储在metastore中的元数据。

编译器生成一个逻辑任务,然后通过一个简单的基于规则的优化器进行优化。

最后生成一组MapReduce任务和HDFS Task的DAG优化后的Task。 然后执行引擎使用Hadoop按照它们的依赖性顺序执行这些Task。

Hive简化了对于那些不熟悉Hadoop MapReduce接口的用户学习门槛,Hive提供了一些列简单的HiveQL语句,对数据仓库中的数据进行简要分析与计算。

用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。

数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

由于采集的数据种类错综复杂,对于这种不同种类的数据。

我们进行数据分析,必须通过提取技术。将复杂格式的数据,进行数据提取,从数据原始格式中提取(extract)出我们需要的数据,这里可以丢弃一些不重要的字段。

对于数据提取后的数据,由于数据源头的采集可能存在不准确。

所以我们必须进行数据清洗,对于那些不正确的数据进行过滤、剔除。

针对不同的应用场景,对数据进行分析的工具或者系统不同,我们还需要对数据进行数据转换(transform)操作,将数据转换成不同的数据格式,最终按照预先定义好的数据仓库模型,将数据加载(load)到数据仓库中去。

在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。

对于大数据采集系统,主要分为以下三类系统:

1.系统日志采集系统。

许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。

为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。

系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。

目前常用的开源日志收集系统有Flume、Scribe等。Apache Flume是一个分布式、可靠、可用的服务,用于高效地收集、聚合和移动 大量的日志数据,它具有基于流式数据流的简单灵活的架构。

其可靠性机制和许多故障转移和恢复机制,使Flume具有强大的容错能力。

Scribe是Facebook开源的日志采集系统。Scribe实际上是一个分布式共享队列,它可以从各种数据源上收集日志数据,然后放入它上面的共享队列中。

Scribe可以接受thrift client发送过来的数据,将其放入它上面的消息队列中。然后通过消息队列将数据Push到分布式存储系统中,并且由分布式存储系统提供可靠的容错性能。

如果最后的分布式存储系统crash时,Scribe中的消息队列还可以提供容错能力,它会还日志数据写到本地磁盘中。Scribe支持持久化的消息队列,来提供日志收集系统的容错能力。

2.网络数据采集系统。

通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。

并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架。

Apache Nutch是一个高度可扩展和可伸缩性的分布式爬虫框架。

Apache通过分布式抓取网页数据,并且由Hadoop支持,通过提交MapReduce任务来抓取网页数据,并可以将网页数据存储在HDFS分布式文件系统中。

Nutch可以进行分布式多任务进行爬取数据,存储和索引。由于多个机器并行做爬取任务,Nutch利用多个机器充分利用机器的计算资源和存储能力,大大提高系统爬取数据能力。

Crawler4j、Scrapy都是一个爬虫框架,提供给开发人员便利的爬虫API接口。开发人员只需要关心爬虫API接口的实现,不需要关心具体框架怎么爬取数据。Crawler4j、Scrapy框架大大降低了开发人员开发速率,开发人员可以很快的完成一个爬虫系统的开发。

3.数据库采集系统。

一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。

除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。

通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。

针对大数据采集技术,目前主要流行以下大数据采集分析技术。Hive是Facebook团队开发的一个可以支持PB级别的可伸缩性的数据仓库。

这是一个建立在Hadoop之上的开源数据仓库解决方案。 Hive支持使用类似SQL的声明性语言(HiveQL)表示的查询,这些语言被编译为使用Hadoop执行的MapReduce作业。

另外,HiveQL使用户可以将自定义的map-reduce脚本插入到查询中。该语言支持基本数据类型,类似数组和Map的集合以及嵌套组合。

HiveQL语句被提交执行。首先Driver将查询传递给编译器compiler,通过典型的解析,类型检查和语义分析阶段,使用存储在metastore中的元数据。

编译器生成一个逻辑任务,然后通过一个简单的基于规则的优化器进行优化。

最后生成一组MapReduce任务和HDFS Task的DAG优化后的Task。 然后执行引擎使用Hadoop按照它们的依赖性顺序执行这些Task。

Hive简化了对于那些不熟悉Hadoop MapReduce接口的用户学习门槛,Hive提供了一些列简单的HiveQL语句,对数据仓库中的数据进行简要分析与计算。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的入门知识和资讯信息,让我们一起携手,引领人工智能的未来

 
标签: 系统 爬虫 队列
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与爱美生活网(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 为什么玩美图秀秀电脑就死机(死机卸载系统垃圾)
    为什么玩美图秀秀电脑就死机(死机卸载系统垃圾
    1、显卡驱动不支持,下载驱动精灵,自动安装检测,修复显卡等的驱动。2、应用软件的冲突,在控制面板中找到卸载程序,卸载不常用的软件。3、系统垃圾引起的内存不足,用系统自带的360卫士,清除系统垃圾。4、病毒引起的死机,下载木马克星杀毒软件,杀
  • 使计算机进入睡眠状态是什么意思(睡眠内存系统状态)
    使计算机进入睡眠状态是什么意思(睡眠内存系统
    计算机睡眠是计算机由工作状态转为等待状态的一种新的节能模式 ,是在WindowsVista与Windows7操作系统中新添加的系统功能。其开启方式是在电脑系统的开始菜单中点击电源按钮右侧的下拉箭头选择睡眠按钮。开启睡眠状态时,系统的所有工作
  • 为什么全民k歌占了那么多内存(全民内存也会占用)
    为什么全民k歌占了那么多内存(全民内存也会占
    在全民k歌应用里,内存增多的原因是多方面的:用户发布的歌曲、本地歌曲以及点播的歌曲都会占用手机的存储空间;应用安装包本身也会占用一部分系统内存;用户k歌时下载的伴奏也会占用系统内存。建议经常性地清理手机缓存:打开手机界面,找到设置,再找到管
  • 超市的收银系统(超市收银系统软件排名)
    超市的收银系统(超市收银系统软件排名)
    收银软件是门店运营中必备的实用工具之一,收银软件的性能决定着一家门店经营管理效率的高低,那么从目前的收银软件市场来看,十大超市收银系统排名如何,下面是根据业内人士提供的相关信息整理的内容,一起来看看吧。 1、纳客会员收银系统 纳客10大核心
  • 系统还原只还原C盘吗
    系统还原只还原C盘吗
    系统还原只还原C盘。系统是装在默认是C盘,进行还原操作,默认还原C盘。计算机分区是活动的,还原系统后,其他盘的软件直接启动使用。一部分软件启动寻找注册表的配置,可能无法启动。还原系统后,其他盘的软件注册没有。有些软件启动后自动更新注册表,重
  • iosbeta怎么升级正式版(苹果公司操作系统)
    iosbeta怎么升级正式版(苹果公司操作系统)
    以ios11beta版为例,iosbeta升级正式版的方法如下:    1、去设置,通用,设备管理中删掉描述文件,然后重启手机,在设置,通用,软件更新中进行OTA升级。    2、用爱思助手一键刷机,勾选保资料,升级到iOS11正式版。  
  • 数码知识:homepodmini需要什么系统homepodmini支持什么系统
    数码知识:homepodmini需要什么系统homepodmini
    如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道homepodmini需要什么系统homepodmini支持什么系统,那么既然
  • 计算机系统软件有哪些
    计算机系统软件有哪些
    计算机系统软件有系统软件与应用软件。    电子计算机(electroniccomputer)通称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算、逻辑计算,具有存储记忆功能,能够按照程序运行,自动、高速处理海量数据。它由硬件系
  • 千米网怎么样(千米分销系统涵盖)
    千米网怎么样(千米分销系统涵盖)
    不错。千米网作为国家高新技术企业,成立于2013年,专注于为中小企业提供新分销及新零售的电商化运营之道。融合虚拟化、容器、微服务等先进技术和丰富的行业电商运营经验。千米网自主研发出千米电商云系统。千米电商云涵盖订货分销系统、零售商城系统、终
  • mysql数据库系统需求分析(建立数据库的步骤)
    mysql数据库系统需求分析(建立数据库的步骤)
    前言 和其他数据库系统相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥好的作用,但同时也会带来一点选择上的困难。MySQL并不完美,却足够灵活,能够适应高要求的环境,例如Web类应用。同时,MySQL既可以嵌入到应用程序
点击排行