基于语义簇的内容定向广告算法研究

发布时间: 周五, 07/21/2017 - 22:25
来源: 
北京邮电大学网络空间安全学院,北京
论文作者: 
谢浩
简介: 
内容定向广告投放领域,传统的 TF-IDF 权重计算方法计算所得的词权重不准确,导 致投放结果较差。为了解决该问题,本文提出了一种基于语义簇的词权重计算方法。首先将 词所属语义簇的规模加入传统的 TF-IDF 权重中,对词权重进行改进,然后根据改进后的权 重计算方法,将权重较高的词作为文本关键词。此外,为了解决文本匹配过程中出现的语义 失配问题,本文提出了基于语义簇的关键词合并算法,将广告文本和网页文本构成的词空间 10 中语义相近的关键词聚为一个簇。经过关键词合并生成新的文本,计算广告和网页内容的相 似度,为用户投放与网页内容相似度较高的广告。实验数据表明,本文提出的基于语义簇的 内容定向广告算法相较于基于 TF-IDF 权重度量方法的向量空间模型,在准确率上高出 17.3%,召回率高出 11.4%。
论文作者: 
谢浩
发布者: 每日科学
正文: 

Content Oriented Advertising Algorithm Based on Semantic Cluster
Xie Hao

 (School of cyberspace security,Beijing University of Posts and Telecommunications,Beijing 100876)

Abstract: In the area of Content-Targeted Advertising, the traditional TF-IDF is not accurate to calculate word weights. To solve this problem, this paper proposes a semantic-cluster based weight calculating method. Firstly, this paper proposes the concept of semantic-cluster, putting similar words on semantic

together as a semantic-cluster. And this paper puts the size of semantic-cluster into traditional TF-IDF.
Based on the improved weight calculating method, top words are key words. Besides, to solve semantic

mismatching problem, this paper proposes a semantic-cluster key words combination method, putting similar words in a semantic cluster and getting a new text. Calculating new texts similarity and the top ads are selected. The experiment shows that the accuracy rate of the Content Oriented Advertising

Algorithm Based on Semantic Clustere proposed algorithm is 17.3% higher and recall is 11.4% higher, comparing to TF-IDF.

Key words: Content orientation;TF-IDF; semantic-cluster; key words combination

 

               0   引言

 

随着互联网的普及,人们逐渐意识到利用互联网投放广告的成本更加低廉,传播的范围更能够打破地域的限制[1]。在商业利益和用户体验的推动下,互联网广告越来越要求高效、 精准、及时,这样催生出了广告定向投放这一领域[2]。

广告定向投放分为内容定向投放以及用户行为定向投放[3]。内容定向投放就是指根据用户浏览的网页内容将内容匹配程度高的广告投放到相应页面上。行为定向投放就是指根据用 户的日常浏览行为学习用户的偏好,结合用户兴趣来对用户进行广告投放。行为定向投放可 以针对特定用户投放个性化的广告,但是一定程度上忽略了文本语义相关度。在对广告文本 和网页文本建模过程中,语义相似度的计算是至关重要的部分。因此,本文针对提高内容定 向广告中文本相似度计算准确性的问题进行研究。

        在内容定向广告投放算法方面,前人已经做出了一些研究。Chatterjee  证明了网页内容 和广告内容的关联性很大[4]。Ribeiro-Neto Berthier 提出了基于经典向量空间模型[5]的匹配算 法[6],但是用经典的向量空间算法来计算权重效果较差,已经不能满足当前语义丰富的网页 文本的分析要求。俞淑平讨论了改进经典向量空间算法[7],加入了文本分析特征一定程度上 改进了算法效果,但是加入的文本分析特征依赖于所用文本本身,对文本类别比较敏感。ZJiang 提出了一种基于深度结构模型的方法对内容定向广告进行广告点击率预估[8],从出版 商和广告商的利益角度更高效地投放广告。金鹏提出了一种基于维基百科进行语义分析的方 法[9],可以利用更加丰富的语义,但是维基百科与真实应用场景下的网页内容和广告内容仍 有一定区别。

根据 Ribeiro-Neto Berthier 和俞淑平的工作,本文提出了语义簇的概念,并基于语义簇在词权重度量上面对原有 TF-IDF 进行改进,加入语义簇的规模这一重要因素;在解决语义 失配方面,提出了一种基于语义簇的关键词合并算法。综合以上,本文提出了基于语义簇的 内容定向广告算法。

 

1   基于语义簇的内容定向广告算法

1.1    基于语义簇的词权重计算

                1.1.1    语义簇的定义

 

在文档中,词语作为文档的组成元素丰富了文本的语义。经过仔细比对我们会发现一些词语的表示方式不同,但是在词义上以及文档语义上的贡献是相近的。比如一篇体育类的新 闻,运动的名称总会以非常高的概率与对应这项运动的明星名字一同出现,标识了这篇新闻 是一篇体育新闻,更以很大的概率可以猜测是文章中提到的运动的相关新闻。因此,如果我们能够挖掘这种语义相似的词语的信息,便可以一定程度上弥补传统的 TF-IDF 在度量词语 权重时所遇到的问题。

在本文中,我们将这种语义相近的词语所组成的集合成为语义簇,用 来表示。那么对 于整个文档 来说, 是由若干个语义簇组成的,即

根据语义簇的定义,我们提出了一种语义簇的生成方法。
对于一个网页或广告文本,分别统计每个词在该文本中的词频。设置词频阈值 M
并过滤词频小于 M 的词,只保留词频大于 M 的词作为候选词集合。
初始化第一个簇,在第一个簇中随机填入一个候选词   ;再从候选词集合中选取一个词   ,计算两个词的词义相似度。设置相似度阈值 N。若两个词的相似度大 于或等于阈值 N,则将该词放入第一个簇中,否则为词   新建一个簇。重复以上步骤,直至所有候选词都有了自己的簇。 通过以上步骤,我们可以获得关于网页内容和广告内容的语义簇的表示。

 

1.1.2    基于语义簇的词权重

 

在传统的 TF-IDF 词权重表示中,综合考虑了词在某篇文档中的频率以以及出现该词的 文档数量 。TF-IDF 的计算过程,主要基于以下的假设。

                          稀有词相关性不小于词频相关性。

      同一文档中,多处出现的词相关性不小于只出现一次的词的相关性。

      长文档不一定好于短文档。

虽然 TF-IDF 的计算综合考虑了两方面的内容,但是仍旧有一些弊端。比如,TF-IDF 抑 制了高频词的负面影响,但是高频词不一定是无意义的词,比如一些公众人物、热点事件等。为了解决这一问题,在计算词权重时引入了语义簇的影响。 对于一个语义簇来说,语义簇的规模越大,表明该语义簇中的词语对文档的贡献越大,

对于标识整个文档就越重要。反之,对于那些语义簇规模非常小的来说,语义簇中的词语对 整个文档的贡献越小。同一语义簇中的词语语义是相近的,语义簇的规模的引入减小了单个 高频无意义词对权重的影响。

                    这里,本文融合 TF-IDF 和语义簇的影响,提出了一种的词权重计算方法,如式 1。

式 1

其中, 表示词 i 的权重,      表示词 i 的 TF-IDF 权重, 表示词 i 所属的语义簇, 而   表示词  所属的语义簇的规模的大小。

1.2    基于语义簇的关键词合并

除了改进词权重的计算方法,本文还对文本进行了关键词合并,减小语义失配对广告投 放准确率的影响。广告投放过程中的语义失配,即广告内容或者网页内容语义匹配错误。例 如,在广告内容中出现脚踏车,在网页内容中出现自行车。脚踏车和自行车是同一个事物, 只不过是同一事物的两种不同名称。在计算相似度时由于文档是基于单个词语的,所以就将 脚踏车和自行车两个词语当做了两种事物,引起了语义失配,如图 1 所示。

20170721215802.png

图 1 中,由于广告中没有出现自行车,网页内容中没有出现脚踏车,所以对应维度的词 权重为零,计算会出现偏差。

为了解决语义失配的问题,本文提出了一种基于语义簇的关键词合并算法。 将广告 和网页    按照基于语义簇的词权重计算方法抽取关键词并置于同一词空间 ,算法的具体 结构如图 2 所示。
20170721220123.png

1.3    算法描述

 

基于前两节提出的基于语义簇的词权重计算方法和基于语义簇的关键词合并算法,本文 提出了基于语义簇的内容定向广告算法,整体架构如图 3 所示。



 20170721220234.png
 

由图 3 可知,本算法的流程是:

1)    将网页内容和广告内容作为文本,对文本进行分词,生成语义簇。

2)    计算各语义簇中词的权重,按照权重对词进行从大到小排序,取前 K 个作为网页/

广告内容的关键词。

3)    将新生成的关键词作为网页内容和广告内容对应的文本,按照 1.2 节提出的基于语 义簇的关键词合并方法,重新生成文本。

4)    计算新生成的网页文本和广告文本的相似度,取相似度前 K 个作为待投放的广告, 推送给浏览该网页的用户。

在下一节中,本文通过实验的方法,证明本文所提的基于语义簇的内容定向广告算法的 有效性。

 

2   实验与结果分析

 

2.1    实验数据与基准算法

实验采用的数据是由爬虫在网上爬取的网页数据,包括 500 个网页内容以及 1500 个用 户浏览的各种主题的广告内容,涉及 10 个类别,包括军事、汽车、教育、娱乐、金融、游 戏、新闻、房产、体育和科技。其中,网页内容和广告内容在 10 个类别的分布,如表 1 所 示。
 

 20170721220513.png
 

由表 1 可知,10 大类文本的数量的比重接近 1,可以近似看做均匀分布。其中,汽车类、

游戏类和新闻类的文本数量较其他七个类别的数量多。因此在实验结果和分析中,特别地对 算法在这三种类别上的结果做了进一步的分析。

在对比算法上,本实验选取了三个基准算法,分别是只改进权重计算方法不考虑关键词 合并、只考虑关键词合并不改进权重计算方法和仅仅基于 TF-IDF 的经典向量空间的广告投 放算法,在相同的数据集上进行实验。

本实验中,所有的算法用 python 实现。在中文分词方面,本实验采用的是 python 第三 方分词工具“jieba 分词”。

2.2    评测指标

本实验选分别计算投放 10 个广告的情况下,算法在准确率和召回率上的表现。
20170721220946.png

实验中,准确率和召回率这两个指标是由 python 实现的。

 

2.3    实验结果对比与分析

为了方便表述,将只改进词权重计算方法不考虑关键词合并的基准算法标记为 NS,只考虑关键词合并不改进词权重计算方法的基准算法标记为 NW,实验结果如图 4 所示。

图 4(a)表示的是,在整个数据集上,四种算法在准确率和召回率上的性能。由图中的曲 线可以很明显的看到,本文提出的基于语义簇的内容定向广告算法在准确率和召回率的表现 上最好,而且优势明显。传统的经典向量空间广告投放算法的效果最差。在分别去除基于语 义簇的词权重计算方法和去除基于语义簇的关键词合并两个因素情况下,实验的结果较完整 的基于语义簇的内容定向广告算法要差,二者之间作对比,在召回率小于 0.6 的情况下,二 者在准确率上的表现相当,但是在召回率大于 0.6 时,NS 结果要优于算法的结果要优于 NW 的结果。从整体趋势上看,在召回率增大时,NS、NW 和经典向量空间算法的准确率衰减 较快,而本文提出的基于语义簇的算法,准确率衰减幅度较小。造成这种现象的原因可能是, NS 去除了关键词合并,造成了比较严重的语义失配现象;而 NW 仍然使用经典的向量空间 算法,词权重的计算方法不完善。本文提出的基于语义簇的算法,综合了以上两种考虑,使 实验结果更加稳定。
 20170721221147.png

图 4(a)  总体数据实验结果 Fig. 4(a) Overall data;
图 4(b) 新闻类结果 Fig. 4(b) News Class;
图 4(c)汽车类结果 Fig. 4(c) Car Class;
图 4(d)游戏类结果 Fig. 4(d) Game Class

 

图 4(b)到图 4(d)分别对比了四种算法在不同类别网页和广告上的结果。图 4(b)表示的是 四种算法在新闻类网页和广告上的表现,相较于图 4(a)来说,NS、NW 和经典向量空间算法

三者的表现略差,而本文提出的基于语义簇的算法基本维持原状。图 4(c)和图 4(d)分别是四种算法在汽车和游戏类网页和广告上的表现,相较于图 4(a),NS、NW 和经典向量空间算法 波动较大,而本文提出的算法在召回率和准确率的分布上基本维持在一个较高的水平。

从上面的对比可以看出,本文提出的基于语义簇的内容定向广告算法,准确率较高,并 且在随召回率增大的情况下,准确率能以较小的速度衰减,性能比较稳定。在不同种类的文 本上,本文提出的基于语义簇的内容定向广告算法的结果基本一致,说明算法本身对文本种 类不敏感,能够很好地适应多种语义。

3   结论

本文提出的基于语义簇的内容定向广告算法,通过定义语义簇,将语义相近的词聚合为 一个簇。在传统的 TF-IDF 词权重中,加入语义簇的规模这一重要因素,对词权重的度量方 法加以改进。根据改进后的词权重计算方法,抽取权重较高的词作为关键词。并基于语义簇 对文本进行关键词合并以解决语义失配问题,进而计算文本相似度。通过对比实验,在准确 率和召回率上,本文提出的基于语义簇的内容定向广告算法要好于 NS、NW 和基于 TF-IDF 权重的经典向量空间模型,证明了所提算法的有效性。

 

 



 

参考文献: 

[1]  Calder  B  J,Malthouse  E  C,  Schaedel  U.  An  Experimental  Study  of  the  Relationship  between  Online

Engagement and Advertising Effectiveness[J].Journal of Interactive Marketing,2009, 23(4):321-331.

[2]  郭心语,刘鹏,周敏奇,周傲英.网络广告定向技术综述[J].华东师范大学学报(自然科学版),2013,3:93-105.

[3]  黄雷.广告定向投放方法[P].CN105227621A,2016.

[4] Chatterjee P,Hoffman D L,Novak T P.Modeling the Clickstream: Implications for Web-Based Advertising

Efforts[J].Marketing Science,1998,22(4):520-541.

[5]  Salton  G,Wong  A,Yang  C  S.A  vector  space  model  for  automatic  indexing[J].Communications  of  the

Acm,1975,18(11):613--620.

[6]   Ribeiro-Neto   B,Cristo   M,Golgher   P   B,Moura   E   S   D.Impedance   coupling   in   content-targeted advertising[A].Proceedings of the 28th annual international ACM SIGIR conference on Research and development

in information retrieval[C].New York, NY, USA:ACM,2005.496-503. [7]  俞淑平.网络定向广告投放算法研究[D].杭州:浙江大学,2010.

[8] Jiang Z,Gao S,Dai W.Research on CTR Prediction for Contextual Advertising Based on Deep Architecture

Model[J].Control Engineering & Applied Informatics,2016,18(1):11-19.

[9]  金鹏.基于用户行为的网络广告精准投放平台的研究[D].武汉:华中师范大学,2015.