数媒竞赛网 大赛介绍 新闻中心 竞赛作品 竞赛报名 报名文档下载

数媒竞赛网

位置:数媒竞赛网_全国大学生数字媒体科技作品及创意竞赛官网>新闻中心 > 作品介绍

基于Hadoop的用户行为分析平台

作品介绍 | 竞赛组委会| 2021-06-26 22:47:57

1、作品名称

基于Hadoop的用户行为分析平台

2、作品分类

数据可视化

3、作品描述

近年来,新型社交网络以及移动互联网技术促使网络用户数量的飞速增长,网络数据呈现爆炸式的增长。“大数据”成为一种关键技术,用来分析和挖掘网络数据的潜在规律和应用价值。网络数据的产生离不开用户的上网行为。准确、快速地从海量数据中挖掘用户的具体网络行为信息、提取用户行为特征对策略管控和智能服务以及推动未来智慧协同网络发展至关重要。对此,本团队设计出基于Hadoop的用户行为分析平台。 本产品采用基于Hadoop 分布式集群为基础的大数据平台结合数据分析算法对贴吧数据集进行清洗、规范化、分析与处理;模块化处理,增强了系统重用度;以并行的方式工作,提高了系统的运行速度;分布式计算平台可以更快捷的处理海量的用户行为数据。设计基于K-means算法模型,建立用户画像,分析判断访客来源、地域分布、系统环境等行为信息。设计实时数据流式计算模型,在这个框架下可以自由实现业务逻辑,加快分析速度,具有较高的并行计算扩展性。采用功能强大的HiveQL技术作为数据仓库处理手段,减小了数据调用的难度,加快系统的运行速度。最后利用H5对处理好的数据进行可视化展示,互动性强,视觉效果佳,用户的感官体验好,可以提高流量转化,加快获客的效率和速度。 系统分为数据采集层、数据存储层、和数据分析展示层三大模块。各个模块下的子系统互相协调,共同实现了网站用户数据的实时分析。该系统具有以下特点: ● 利用Hadoop分布式存储应对海量数据存储; ● 流式计算引擎能够对网站用户行为实时分析,并生成实时结果数据; ● 通过Web前端技术多维度可视化数据展示。 ● 容易进行水平扩展,动态的增加数据存储的能力和并行计算的能力。 ● 实现了无痕埋点,性能优秀,可靠性高,扩展性强,开发框架简单的系统。

4、创意来源

各行各业的互联网化和现实世界的数据化,使得数据量和计算量都呈指数级增长。据IDC数据统计显示,在2014年底,中国数据存储量已达到IZB,并且2014年一年的数据增长量为0.5ZB,占数据总量的一半,照此速度,到2020年底,国内数据量总量将会达到39ZB,每年数据增长量预计为15.5ZB。数据的爆炸式增长,使得传统的日志分析技术与工具已无法满足人们的需求,如何对海量日志数据进行分析,并将其中有价值的信息挖掘出来,为用户制定决策或确定发展方向提供帮助,已经是目前企业和个人非常关心的问题,基于Hadoop的分布式海量日志数据分析技术越来越受到关注。 在Facebook中,注册用户已达到9亿左右,庞大的用户群体使得其要存储和处理的日志数据呈爆炸式递增。为了满足数据的实时分析,促进海量数据分析处理向着实时化迈进,Facebook自主设计并开发Scribe日志了收集系统,用于收集数据,实现了Scribe和Hadoop的完美结合,并使用MapReduce分布式计算框架对数据进行定期处理,从中得到用户增长率报表、活跃用户留存率等实时信息,用于产品决策或提供个性化服务等。 Rackspace Hosting公司拥有超过100万的用户,每天产生的日志数据量大约为180GB。Rackspace基于Hadoop设计开发了新的日志分析系统,替换了传统的基于MySQL的日志处理方式,实现了对海量数据的并发处理。通过对日志数据挖掘分析,得出用户行为规律,以便对邮件托管系统的设计进行优化和扩展,提供个性化服务。 Oracle公司基于Hadoop等开源技术,设计了Elalytics、大数据机等海量数据处理分析平台,实现了对新型的社交网络Facebook、Twitter等产生的大量社交网络数据、亚马逊、淘宝网等在线交易系统保留的Web日志数据的处理,分析得到用户行为规律,帮助其提高服务质量。 基于Hadoop的用户行为分析技术在国内也到了充分的应用,尤以淘宝网、百度、腾讯等公司为代表。淘宝网作为一个电子商务交易平台,每天约有8000万左右的用户登录,PV量大约为20亿左右。为充分发挥海量数据的价值,淘宝网对全国用户的购物行为日志数据分析挖掘,并以中国淘宝地图的方式将用户购物规律展现出来,提高用户体验,提供更多的个性化服务。腾讯网站拥有上亿级的用户群体,每天产生的个人日志数据量是庞大的。它为QQ、微信等产品建立专门的数据分析团队,并提出了“大数据营销”的概念。基于Hadoop实现了用户行为日志数据的分析,挖掘出用户的兴趣偏好、不同用户间的关系等信息,为用户建立专属的智慧门户,提高企业收益。作为目前世界上最大的中文搜索引擎公司,百度搭建了3个Hadoop集群,约700台机器,用于对海量数据的处理,实现了对商业广告投放精准度、用户的推荐度等问题的挖掘分析。 由设备自身产生的用户行为数据和网络日志有着本质的区别,目前对于前者的研究还没有开展,本文针对用户使用联想计算机设备的行为分析进行研究,挖掘用户对计算机的使用习惯及操作规律,为生产商优化设备提供数据支撑。

5、运行环境(所需操作系统、硬件、软件等)

操作系统:windoows 硬件:电脑 软件:VMware Workstation、eclipse.exe、HeidiSQL、MATLAB R2016a等


Copyright © 2001 - 2021 全国大学生数字媒体科技作品及创意竞赛网版权所有

Copyright © 2001 - 2021 数媒竞赛网(http://www.shumeijingsai.com)版权所有