基于大数据的高校贴吧舆情分析系统

数媒竞赛获奖作品信息及简介
作品名称基于大数据的高校贴吧舆情分析系统
参赛院校江苏师范大学科文学院
指导老师田梦婕、陈祥
团队成员曹汉清、顾朗
奖项等级三等奖
竞赛年份2020

随着计算机存储能力的提升和复杂算法的发展,近年来数据量呈指数型发展。目前,百度贴吧栏目为全国大部分高校所拥有。在此栏目下,贴吧信息量大且比较分散,不便于高校管理部门作进一步分析。对此,我们设计出高校贴吧舆情分析系统。 本产品采用了基于Hadoop 分布式集群为基础的大数据平台结合数据分析算法对贴吧数据集进行清洗、规范化、分析与处理;模块化处理,增强了系统重用度;以并行的方式工作,提高了系统的运行速度;分布式计算平台可以更快捷的处理海量的贴吧数据信息。设计基于K-means算法模型,建立用户画像,分析判断贴吧用户地域、高校、男女关注度等信息并作数据统计。采用功能强大的HiveQL技术作为数据仓库处理手段,减小了数据调用的难度,加快系统的运行速度。最后利用H5对处理好的数据进行可视化展示,互动性强,视觉效果佳,用户的感官体验好,可以提高流量转化,加快获客的效率和速度。 本产品通过分析各高校百度贴吧数据信息,判断学校和学生舆论热点以及数据热点分布区域。处理过程主要分为四个阶段,数据抓取和提取、数据存储、数据分析、数据展示。具有方便、快捷、直观等优点,可以迅速准确的输出分析的结果,并给出有效的分析说明。在大数据时代的背景下,热点数据的提取变的尤为重要。本产品未来可应用于企业的客服,增加与客户信息的交流,从而得到用户需求,更有利于抓住市场痛点,推动商业、服务业等产业人性化发展。