热门标签:代写本科论文 写作发表 工程师论文 代写一篇论文多少钱
当前位置: 代写一篇论文多少钱 > 计算机论文 > 云计算环境下Web日志挖掘技术与模块分析

云计算环境下Web日志挖掘技术与模块分析

时间:2019-04-19 09:21作者:曼切
本文导读:这是一篇关于云计算环境下Web日志挖掘技术与模块分析的文章,本文基于云计算特点, 对Web日志挖掘技术进行描述, 同时对Web日志挖掘的数据模块及数据源进行分析, 以期获得较为科学的Web日志挖掘系统。

  摘    要: 文章介绍了基于云计算的Web日志挖掘技术的基本流程, 同时对Web日志挖掘的数据源、数据类型的深入研究与分析, 有针对性地进行了数据挖掘过程中每个具体模块的详细设计, 并利用Java语言对基于云计算Hadoop平台的Web日志挖掘系统进行了实现设计。

  关键词: 云计算; Web日志; 挖掘数据; 设计;

  Abstract: With an introduction to the basic process of weblog mining based on cloud computing, and also with deep research of data sources and data types in weblog mining, the paper designed the each module of the data mining processes, and implemented the designs of weblog mining system based on cloud computing using Java language.

  Keyword: cloud computing; weblog; data mining; design;

  云计算作为一种分布式计算模型, 通过网络“云”, 并运用分布式计算、效用计算、并行计算、网络存储、虚拟化等计算机技术, 将网络中的计算资源整合为一个巨大的虚拟资源池, 在资源池中, 大型的任务程序拆分成无数个较小的子任务程序, 并自动分配给资源池中的服务器或计算机, 最终将运算结果整合后返回给用户。无论从基本原理的外部特征还是从实际的应用场景来看, 云计算和互联网大数据始终是相伴相生的, 云计算很好的解决了互联网大数据挖掘在存储、运算、呈现过程中的问题, 且大幅度降低了数据挖掘所需的软硬件设施的采购成本和维护成本, 为互联网大数据的商业化提供了条件[1,2]。国内多个研究者针对Web日志挖掘系统设计与实现进行了研究, 如李雪峰等人针对Graph算法在云计算环境中的应用, 构建了网络图结构并搭建了其相应的云计算环境, 设计并优化了分布式网络图直径的计算方法, 研究结果表明了该算法在集群部署的情况下, 能够有效改进Graph数据挖掘的时间性能, 其在搜索引擎以及社交网络分析领域都具有很强的应用性[3]。本文基于云计算特点, 对Web日志挖掘技术进行描述, 同时对Web日志挖掘的数据模块及数据源进行分析, 以期获得较为科学的Web日志挖掘系统。

云计算环境下Web日志挖掘技术与模块分析

  1、 Web日志挖掘描述

  1.1、 Web日志挖掘概述

  自Web挖掘这一概念提出以来, Web日志挖掘技术经过了十多年的长足发展, 在各个研究领域都存在着大量应用。其中, 在商业范围内的应用大致可分为:系统性能研究与改进、站点功能架构升级、定制化的服务内容[3]。

  1.2、 Web日志挖掘基本流程

  Web日志挖掘是针对准备好的数据进行普通数据挖掘扩展和衍生的一个过程。基本流程包括数据收集与预处理、模式发现、模式分析三个主要步骤。

  (1) 数据收集与预处理

  利用Web服务器、Web浏览器或是网络爬虫等工具能够有效而迅速地对网络上的海量信息进行采集, 并以某种特定、统一的格式进行保存。在正式数据挖掘开始前, 需要对收集到的数据进行预处理操作, 包括数据归一化、数据清洗、数据去噪声等, 保证每条数据记录的规范性与完整性, 减少数据冗余所带来的后续不必要的计算负担。

  (2) 模式发现

  当数据预处理完成后, 对数据进行进一步的深入分析与研究过程称为模式发现, 其旨在发现或是总结数据中最具价值的知识信息。模式发现所得到的结果将对决定着数据挖掘算法的适配度, 帮助不同数据选择合适的挖掘算法。

  (3) 模式分析

  通过模式发现后的数据结果往往需要再次进行处理加工才能够得到最终所需要的数据挖掘结果。模式发现过程的输出为数字或是向量所构成的有效知识信息, 这些信息通过模式分析实现数据挖掘后方可得到真正的能够为人所用的有效内容。

  1.3、 Web日志挖掘系统模块设计

  Web日志挖掘系统分为三个主要模块, 与Web日志数据挖掘基本流程的主要步骤一一对应。系统主要分为日志数据预处理模块、日志数据存储模块以及日志数据挖掘模块。其中, 日志存储模块可直接利用云计算平台Hadoop中所自带的分布式文件存储系统 (HDFS) 实现数据的有效存储。

  2、 Web日志挖掘模块分析

  采用改进后的聚类算法进行数据挖掘的聚类分析, 并利用Hadoop平台实现海量数据记录的分布式并行处理, 旨在对Web日志数据实现有效数据挖掘, 获取不同类型用户群体对于站点内部的每个模块的兴趣度与关联度, 从而为网站各个模块优化及内容升级提供现实依据。

  2.1、 数据模块结构

  Web日志数据模块的大致结构流程如图1所示, 包括Master节点与Slave节点两个主要数据处理节点。首先, Master节点主机运行名字节点与任务追踪器, 进行HDFS文件管理系统框架中的文件命名空间管理。另外, 在有管理员权限的情况下, Master节点还能够实现框架中各类文件的增加、删除、修改以及查找等操作以及MapReduce模型中的作业任务调度工作。与此同时, 各个Slave节点通过运行数据节点与任务追踪器, 实现对已分割的数据记录进行存储并进行本地的算法运行, 直至输出最终数据挖掘所得结果。Master节点与Slave节点互相配合、相辅相成, 能够有效地实现数据挖掘模块的基本功能。

  图1 日志挖掘流程
图1 日志挖掘流程

  2.2、 数据挖掘模块实现

  将改进方案应用于MapReduce模型并行化思想, 此处使用Java语言将其进行具体实现。完整实现内容可分为四个主要阶段:基于改进方案的Map阶段、基于改进方案的Reduce阶段、基于k-means算法的Map阶段以及基于k-means算法的Reduce阶段。详细输入输出说明及部分关键代码描述如下:

  (1) 基于改进方案的Map阶段

  输入:待处理的数据集记录总数, 文本格式、可写入权限已给出;数据向量集合, 文本格式。

  输出:数据向量集合, 文本格式。

  while (i<sqrt (M) {if (P=NULL) {x=dis min (D) ;}else

  {x=disMaxInMin (D, P) ;}put (x, P) ;remove (x, D) ;}

  (2) 基于改进方案的Reduce阶段

  输入:待处理的数据集记录总数M, 文本格式、可写入权限已给出;数据向量集合P, 文本格式。

  输出:松散距离 (集合范围值) T1, 可写入权限已给出;数据向量集合Y, 文本格式。

  while (i<sqrt (M) {x=disMaxInMin (D, P) ;}

  while (i<k) {depthmax=DepthMax (P', j, depthmax) ;j++}

  (3) 基于k-means的Map阶段

  输入:数据记录条目数, 可写入权限已给出;数据向量记录, 文本格式;初始聚类向量中心数据点集合, 数组格式。

  输出:聚类中心集合所对应的ID, 可写入;数据向量记录, 文本格式。

  for (i=0;i<k;i++) {if (dis tan ce (point, cluster[i]<min_dis tan ce) ) }

  {min_dis tan ce=dis tan ce (piont, cluser[i]) ;currentCluster_ID=i}

  (4) 基于k-means的Reduce阶段

  输入:聚类中心集合所对应的ID, 可写入;数据向量记录, 文本格式。

  输出:类别向量中心集合, 数组格式。

  while (point s.hasNext () ) {Point Writable, currentPoint=point s.next () }

  num+=currentPoint.getNum () ;for (int, i=0;i<dim ension;i++)

  {Sum[i]+=currentPoint.point[i];}for (int, j=0;j<dim ension;j++)

  {mean[i]=sum[i]/num;}}

  3、 结束语

  本文首先通过对Web日志挖掘技术的基本流程、特性等方面进行了介绍, 并针对其进行了系统整体设计。其次, 通过对Web日志挖掘的数据源、数据类型的深入研究与分析, 有针对性地进行了数据挖掘过程中每个具体模块的详细设计, 并利用Java语言对基于云计算Hadoop平台的Web日志挖掘系统的设计从基于改进方案的Map阶段、基于改进方案的Reduce阶段、基于k-means算法的Map阶段以及基于k-means算法的Reduce阶段一共四个阶段进行了输入输出说明及部分关键代码描述。

  参考文献:

  [1]毕猛, 侯林, 倪盼, 等.基于马尔科夫模型和贝叶斯定理的Web用户浏览行为预测模型[J].东北大学学报 (自然科学版) , 2016, 37 (6) :775-80.
  [2]贺瑶, 王文庆, 薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展, 2013, 23 (2) :69-72.
  [3] 李雪锋.基于云计算环境的web数据挖掘算法研究[J].北京交通大学学报, 2010, 30 (2) :30-3.

联系我们
  • 写作QQ:79211969
  • 发表QQ:78303642
  • 服务电话:18930620780
  • 售后电话:18930493766
  • 邮箱:lunwen021@163.com
范文范例
网站地图 | 网站介绍 | 联系我们 | 服务承诺| 服务报价| 论文要求 | 期刊发表 | 服务流程
色视频网站2