DOI:10.3969/j.issn.1006-6403.2015.01.004
基于Spark的用户上网WAP日志分析[龚静]
摘要
在移动互联网时代,越来越活跃的用户手机上网行为带来了流量的迅猛发展。对电信运营商而言,用户上网日志包含了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好的了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于 X86的 Hadoop平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。文章主要以用户 WAP日志为例,详细阐述如何利用大数据技术处理海量的非结构化数据,进而挖掘和分析用户上网行为。
关键词:大数据分布式 Hadoop Spark通信热点
龚静中国移动通信集团南方基地IT工程师,主要研究方向为业务支撑系统中的大数据应用。
1
引言随着4G时代的来临、智能终端的普及、移动互联业务
WAP日志作为新型数据源引入经营分析系统,使其越来越具备大数据平台的特征,主要包括如下: (1)数据规模方面:WAP日志的条数和数据量已经超过了语音详单,且还处在不断增长的趋势。 (2)数据类型方面:从结构化数据,过渡到结构化数据和互联网网页、上网日志等非结构化数据和半结构化数据共存。 (3)对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。对数据访问的及时性增强。传统数据仓库基础架构[2]难以满足海量、多样化数据以及高速响应的需求。传统IT系统采用Scale-up设计路线,扩展性较弱,难以处理海量数据;小型机 Unix系统
1.1移动互联网时代引入上网日志分析的快速发展,用户手机上网行为越来越活跃,流量收入在运营商的收入中的占比逐年增多。依靠传统CDR话单分析已无法全面把握用户需求,从海量的日志数据中挖掘用户需求来迎合市场的发展,成为运营商需要迫切解决的问题。 WAP[1]日志中蕴含着大量的用户上网行为信息,包含了用户爱好、需求,可以更好的理解业务价值、客户价值,促进精细化营销,制定相应策略与控制。从而降低流量成本和提升流量收入,促进流量业务发展。
1.2引入大数据技术处理非结构化数据 16
基于Spark的用户上网WAP日志分析
的封闭性导致系统扩容时难以利旧,且拥有成本高[3]。为此,我们引入了大数据技术。
所存储的块 (block)的列表。 HDFS采用可扩展的系统结构,利用多台服务器并行计算,提供高吞吐量的应用程序数据访问,它不但提高了系统的可靠
性、可用性和存取
2
需求分析(1)数据源:用户上网WAP日志,每天200G。 (2)数据处理需求:①数据存储前客户隐私数据加密;② ETL处理;③用户上网时间特征分析;④热门网站分析;⑤用户内容偏好分析;⑥热点内容跟踪;⑦热点搜索内容分析;⑧访问内容分类流量监控。
效率,还易于扩展。
2.1主要业务需求
图1分布式存储系统构成元素 Map/Reduce是Google发明的一种编程模型。用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理,生成一系列新的键/值对作为中间结果;shffle过程将同属于一个键( key )的值( value )组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,通信热点
2.2系统能力配置(1)服务器:13台HP DL585; (2)配置:CPU cpu:2*4核;内存32G;硬盘4T;千兆电口4个。
3
方案选择为了应对大数据时代业务需求的挑战,行业内涌现[4]
生成最终处理结果输出。 Spark是由UC伯克利大学的AMPLab发起构建的一个开源的用于数据分析的分布式并行计算框架,其核心是弹性分布式数据集RDD[9],RDD可以Cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。Spark除拥有Hadoop MapReduce所具有的优点之外,还提供了更加丰富的模型,可以快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算[10-17]。
出大量的大数据技术及解决方案。主要包括 HDFS、 Map/Reduce[5]、Spark[6]等。一个HDFS集群由元数据节点(NameNode[7])、多个数据节(DataNode[8])点、客户端(Client)构成。数据被分割成特定大小的块存储其中。 Namenode用来维护文件系统所有的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。 Datanode根据 Client或者是 Namenode的调度存储和检索数据,并且定期向 Namenode发送他们注:
2015.01.广东通信技术
17
通信热点
系统整体的体系架构,如图4。
4.1数据采集层数据采集:主要功能是通过 FTP方式,采集 WAP网关服务器上的数据文件和消息到接口服务器的内存中。每一分钟进行一次采集,并保留一周存储时间。然后将按照校验规则对采集到的数据做文件数据内容校验,并按协议做目标文件输出的分类、最后将小文件合并成大文件输出文件,消息缓存输出。处理完成后,推送到 Hadoop集群上。
图2 Map/Reduce运行环境
18
通信热点
图5数据预处理
逻辑架构
4.2数据处理层图3 Spark处理逻辑综合考虑到成本、效率、可扩展性等因素,我们选择了HDFS作为底层文件系统,Map/Reduce、Spark作为计算架构来实现项目需求。数据处理分为预处理层、计算与存储层、数据管理层。
4总体架构设计
图6数据采集过程 4.2.1预处理 (1)实例库匹配将用户访问 URL与已经积累过的 URL库进行匹配,如果库中已经存在,则直接输出网页分类结果。如果库中没有该URL,则爬去网页内容进行语义解析和分类。 (2)网页解析图4 wap日志分析总体架构包括:网页爬取、信息抽取、网页分类,根据分类
基于Spark的用户上网WAP日志分析
信息进行字段增强、规则分类、实例分类、关键字输出。表1网页分析结果
表2用户上网时间输出模型
(2)热门网站分析热门网站分析主要利用用户 WAP标签信息,按照一 (3)实例库更新实例库更新用于将网页解析模块获取的 URL分类信息更新到实例库以供内容识别使用。实例库更新模块自动扫描爬虫程序输出的爬取结果清单,确定清单中所有条目的Json字段非空后,批量更新至URL实例库。 4.2.2计算与存储定稳定周期(如周、月等)统计用户点击量占比多的网站,进行热点跟踪。输出信息包括热点网站URL,热点网站的类别,热点网站关键词,相应的用户群体等信息。表3热门网站输出模型通信热点
其中用户号码也可单独建表存放,在有应用需求的时候通过表关联的方式获取整体输出。 (3)用户内容偏好分析表4用户内容偏好输出模型
图7计算与存储Spark系统架构提供批处理和实时处理平台,实现数据批量和实时计算。基于SPARK实现了6个模型计算。 (1)用户上网时间特征分析用户上网时间特征分析是指根据用户的上网时间特征分析来分析用户的上网习惯,为营销时机的抓取提供信息支撑。
2015.01.广东通信技术
19
通信热点
用户内容偏好分析是指根据用户标签信息,按照加权汇总的方式,分析得到用户的类别需求偏好,包括用户偏好的网站,偏好的类别信息。具体热门关键词、喜好、分类偏好保存个数,可根据实际情况进行调整。 (4)热点内容跟踪表5热门内容输出模型
表7热点搜索内容分析的输出字段信息
4.2.3数据管理层为了整体功能能够安全、稳定、准确的运行,系统提供安全管理、数据质量管理、元数据管理、处理流程管理、调度任务管理、任务监控管理等功能。安全管理包括对敏感数据的加密保护、用户权限分配和鉴权、日志安全审计三个方面。数据质量管理包括对用户包括变更协同管理、数据质量监控评估、问题处理及数据质量报告管理等功
能。元数据管理参考经营分析系统元数据管理体系,保热点内容跟踪是指根据一定时间段内用户访问 URL的KEYWORD,分析出当下热点信息。 (5)内容偏好类别分析表6用户内容偏好分析的输出字段信息持与经营分析系统元数据管理的一致。处理流程管理包括对ETL处理流程中的监控、调度和日志记录等功能。调度任务管理针对并发作业、高负载作业的特点,实现多任务的配置、调度或回退等管理。任务监控管理对于流程中的任务执行节点,可以单独设置其发生异常后的重试频率和次数,当达到最大次数依然失败后,将当前流程挂起并停止运行。系统监控管理主要对系统进程进行跟踪和监控,确保系统稳定运行。通信热点
4.3服务层面向 WAP日志查询、流量经营监控与分析和一经交互应用,实现相关功能的共享和复用,为内部模块和外部系统提供调用。内容偏好类别分析基于对用户内容偏好种类、偏好用户占比、产生的流量等信息进行汇总,汇总后数据支撑流量经营应用。 (6)热点搜索内容分析热点搜索内容分析基于对热点内容跟踪、 WAP日志汇总,汇总后数据支撑流量经营应用。同时,通过数据处理层支撑,提供用户上网时间特征分析、热门网站分析、用户偏好分析、流量关键字统计、价值评估、流量关键字目标客户群提取等。
5
资源分配、参数配置
5.1硬件配置
20
基于Spark的用户上网WAP日志分析
表8硬件配置
表10 System.setProperty
5.2软件参数配置(调优部分)表9 Spark调优配置时段分析、用户内容偏好分析、热点内容跟踪、内容偏好类别分析等6个模型。通过本项目实际运行效果来看,采用Spark内存计算框架,无论对用户偏好的分析或完全可以满足运营商实时通信热点
营销的要求。同时,也为将来大数据平台构建,特别是在数据安全、数据计算和数据挖掘及数据模型等相关技术垫底了一定基础。参考文献1 2 3 4 5电信增值业务学习笔记 5—— WAP类增值业务. CSDN . 2009-11-30 Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology . SIGMOD Rec, 1997, 26(1): 65-74中国移动省级NG2-BASS(v4.0)技术规范.基于云计算的WAP日志分析技术方案V4.0120621 HDFSArchitectureGuide.(2013-05-12). http://hadoop. /docs/stable/hdfs_design.html Dean Jeffrey, Ghemawat Sanjay. MapReduce: Simplified data processing on large clusters//Proceedings ofthe 6th conference on symposiumon opearting systems design& implementation. San Francisco, USA, 2004: 107-113 6 7 8 9 10 11 董西成著. Hadoop技术内幕(深入解析YARN架构设计与实现原理). 2014: 307-317 http://hadoop.apache.or
g LiXian, Dong Xin Luna, Lyons Kenneth, et al. Truth finding on the deep web: Is the problem solved?//Proceedings of
6
总结随着移动互联网的迅猛发展,特别是智能终端的大
量普及,造成运营商的互联网的非结构化数据数据指数级的递增。日处理数据从几百GB到1TB不等。本方案采用大数据最新技术Spark计算框架,通过低成本、高效率的解决 WAP日志存储和处理等相关业务问题,以逐步改善现有IT架构的局限性,应对竞争日益激烈的市场环境。基于Spark内存计算框架技术,实现的模型包括:用户上网时间特征分析、热门网站分析、用户上网
(下转第55页)2015.01.广东通信技术
21
基于MIMO-OFDM的卫星通信中的MMSE-PIC算法
率远低于MMSE均衡算法,与最大比合并算法的误码率接近。在误码率为10的时候,可以看到MMSE-PIC联合均衡算法的性能较MMSE均衡算法提升了约8dB,而且随着信噪比增加,MMSE-PIC的性能优势越明显。2-3
technique for OFDM systems,[C]//IEEE.GlobalTelecommunic-ationsconference.SanFrancisco,CA:IEE-E conference publications, 2000: 1473-1477 Suto K,Ohtsuki T. Performance evaluation of space-time frequency block codes over frequency selective fading channels[C]//IEEE.Vehicular technology conference,V ancouver,BC,Canada:IEEE conference publications, 2002:1466-1470 3 4 G. Caire, G. Taricco, and E. Biglieri. Bit-interleaved coded modulation[J]. Information theory,1998, 44(3): 927-946 R. Visoz, A. O. Berthet, and J. J. Boutros. Reducedcomplexity iterative decoding and channel estimation for space time BICM over frequency selective wireless channels[C]//IEEE.Personal,Indoor and mobile radio communications.IEEE conference publications, 2002: 1017-1022 5 Muller-Weinfurtner S H. Coding for multiple antenna transmission in fast fading and in OFDM[C]//IEEE. Communications, 2002. ICC 2002. IEEE international conference on.NJ,USA: IEEE conference publications, 2002: 1691-1695 6 7 8 802.11n. Enhancements for higher throughput. IEEE 802.11 WG. IEEE 802.11n/ D1.0, Draft amendment, 2006 802.16m. Draft IEEE 802.16m evaluation methodology. IEEE 802.16m-7/037r1, 2007 LTE. Requirements for evolved UTRA (E-UTRA) and evolved UTRAN (E-UTRAN). 3GPP TR 25.913 v.7.3.0, 2006 (收稿日期:2014-12-03)运营与应用
图6 MMSE-PIC联合均衡算法误码率
5
结束语针对基于 MIMO-OFDM的卫星通信系统,给出最
小均方误差与并行干扰消除结合的联合均衡算法—— MMSE-PIC,在典型的Lutz卫星信道环境下的仿真结果表明,MMSE-PIC均能有效的降低了系统的误码率,提高了系统的通信质量。参考文献1 K. Lee, D. Williams. A space frequency transmitter diversity
(上接第21页)the 39th international conference on very large data bases (VLDB’2013). Trento, Italy, 2013: 97-108 12 Arasu A, Chaudhuri S, ChenZ, et al. Experiences with using d
ata cleaning technology for bing services. IEEE data engineering bulletin, 2012, 35(2):14-23 13 Liu Xuan, Dong Xin Luna, Ooi Beng Chin, Srivastava divesh. Online data fusion//Proceedings of the 37th international conference on very large data bases (VLDB’2011). Seattle, USA, 2011: 932-943 14 Sarma Anish Das, Dong Xin Luna, Halevy Alon. Data integration with dependent sources//Proceedings of the 17 16 15 14th international conferenceon extending database technology. Uppsala, Sweden, 2011: 401-412 Chandramouli B, Goldstein J, Duan S. Temporal analytics on bigdata for web advertising//Proceedings of the 28th IEEE international conference on data engineering(ICDE). Washington DC, USA, 2012: 90-101 Madden S, DeWitt D J, Stonebraker M. Database p a r a l l e l i s m c h o i c e s g r e a t l y i m p a c t s c a l a b i l i t y. DatabaseColumn Blog. / (收稿日期:2014-12-02) 2015.01.广东通信技术 http://www.databasecolumn. com/2007/10/database-parallelism-choices.html
55