网站公告: 九五至尊棋牌游戏

业务范围
联系我们

地址:这里是您的公司地址

电话:0896-98589990

传真:0896-98589990

邮箱:

新闻资讯当前位置:官网首页 > 新闻资讯 >
博客推荐系统第一部分:物料准备

发布时间:2019-12-08

  

img wp-image-16631= src= http://www.duozhishidai.com/data/attachment/portal/201911/18/160012sl0ll6uh0mhljwrq.jpg width= 1024 height= 424 alt= 博客九五至尊棋牌游戏引荐体系榜首部分:物料预备 _src= http://www.duozhishidai.com/data/attachment/portal/201911/18/160012sl0ll6uh0mhljwrq.jpg / 博客引荐体系榜首部分:物料预备

博客引荐体系榜首部分:物料预备

众所周知,数据科学的方针是从大数据中发明价值。可是,数据科学也应该满意第二个方针即避免信息过载。一个典型的能够满意这两个方针的体系便是引荐引擎。

不仅是像Amazon这样的网上商店,相同的还有流媒体服务如Netflix公司也遭到了信息过载的困扰。客户或许很简略迷失在其巨大的产品或电影中。引荐引擎经过出现给用户或许的挑选协助用户从繁复的产品中缩小挑选规模。当然这些引荐引擎能够随机的展示给用户一些或许的挑选,但这并没有真实下降信息过载。因而,这些引荐引擎经过运用核算科学来给用户展示更匹配他们希望的成果。例如,一个观看了《Frozen》的Netflix用户会从Pixar看到相似的儿童电影引荐成果。

博客引荐体系榜首部分:物料预备

两种类型的引荐体系

粗略地讲,咱们能够将引荐引擎划分为两种类型:协同过滤和根据内容的引荐。就像维基百科说的:协同过滤是一个运用触及多个署理,观念和数据源之间的协作技能形式来过滤信息或形式的进程。在TMT事例中,这意味着在多个读者中找到一些规则。假如一群读者对特定系列中的文章感爱好,当一个读者开端读这个系列中的一篇文章,那么他有很大的概率会对这个系列中的其他文章感爱好。因而,能够根据其他用户的阅览行为来给相似的用户进行引荐。

根据内容的引荐引擎是不同的,由于它们是以产品的特点进行引荐。在咱们的事例中产品便是TMT的文章,特点则是文章中的关键字。假如一个用户在读的文章中包括’Google Analytics’和’Tag Manager’的关键字,那么这个用户很有或许也喜爱包括这些关键字的其他文章。因而,根据内容的引荐引擎会引荐包括这些关键字的文章。值得留意的是最近从”Geek”到”The Marketing Technologist”的晋级中,一个十分简略的根据内容过滤引荐办法被集成到TMT中。便是在每篇文章的下面有5篇其他相关的文章展示给用户供他们持续阅览。引荐的文章便是包括用户在读文章中恣意一个标签的最新宣布的5篇文章。在这个简略的比如中,标签能够当作产品的一个特点。

博客引荐体系榜首部分:物料预备

协同过滤和根据内容的引荐背面的原理

这两类体系各有利弊。根据内容的引荐体系将引荐的文章限定在根据一组特征相似的文章中。例如,在给包括’Google Analytics’这样详细特征的文章进行引荐的时分会在其他文章中查找相似的关键字。可是,一个包括相似的剖析东西’Snowplow’这样详细特征的文章,却不太或许被引荐出来。实际上用户或许对这两类文章都感爱好,由于他们都归于剖析这个主题。因而,根据内容的引荐体系并不长于发现躲藏的形式。协同过滤引荐体系在寻觅躲藏形式这点上是优于根据内容的引荐体系。协同过滤着眼于用户的阅览行为,不专门重视用户阅览文章的内容。所以假如一个用户阅览了关于数据科学和转化率优化,虽然那些CRO的文章的内容和数据科学是天壤之别的,协同过滤引荐体系也会向数据科学的读者们引荐关于CRO的文章。协同过滤的最大的缺陷是,它需求很多的前史用户阅览行为数据,以便找到这些形式。根据内容的引荐能够在不给或许少数的前史数据的条件下完结,因而更简略完成。

协同过滤引荐体系的预备条件

在接下来的两篇博客中,咱们将会完成一个根据内容引荐体系和根据协同过滤算法的引荐体系,并剖析引荐成果。可是,为了能够完成方针,咱们首要需求预备一些条件物料。关于协同过滤引荐体系这意味着咱们需求完成得到用户阅览文章行为的办法。咱们的搭档Erik Driessen现已完成了经过运用谷歌剖析而且分配客户端ID来记载用户阅览行为的办法。Simo Ahava在他的博客《在谷歌剖析中存储客户端ID》解说了怎么有用的完成它。

此外,由于Erik现已在文章的内容上增加了’Enhanced Ecommerce’插件,这样咱们就能够追寻到用户是否完好的阅览了这篇文章。最终,在谷歌剖析中能够创立自定义报表,展示客户端ID和他们现已阅览过的文章。

需求留意的是,现在跨设备的解决方案没有完成。因而,假如用户运用不同的设备持续阅览文章或着中心清除了cookie,后续的行为将不能和他前期的阅览行为联系起来。

博客引荐体系榜首部分:物料预备

谷歌剖析中一个自定义的用户层面的阅览行为报表示例

根据内容的引荐体系的预备条件

在根据内容的引荐中,明显咱们会需求一切TMT文章内容。有多种完成的办法。其间的一个将是直接从数据库中提取这些文章的文本。可是,由于咱们是Geek,经过编写一个Python脚本,能够自动检索文章和相应的目标如作者和类别,这将是一件更酷的工作。因而,咱们创立了从TMT网站仿制文章的Python脚本,详细分为两个过程。过程1和过程2的代码在这里。

过程1: 创立一个TMT全量文章的列表.

能够运用Python的urllib2库加载网页源代码。

用urllib2.urlopen这个指令能够加载咱们自己TMT博客的前端页面的源代码。这个主页总是展示最新宣布的10篇文章。运用BeautifulSoup库,咱们能够很简略经过在DOM中查找并提取一切带class =”post”的article元素,并将它们存储在一个Pandas dataframe中。此外,在每个这样的元素内部,咱们还能够经过查找相应的DOM元从来提取作者和标签等元素。

过程2:检索每篇文章内容

在过程1中,咱们保存了一个到每一篇文章的链接,所以咱们能够下载每篇文章的全部内容。可是存在一个特别的问题,即每篇博客文章的内容是经过JavaScript加载的。因而,假如咱们运用的urllib2加载文章的静态资源,咱们将无法得到文章的内容。为了履行JavaScript代码来加载文章内容,咱们实际需求经过Web浏览器进行烘托出文章的内容。走运的是,这能够经过运用盛行的Selenium库来到达意图。运用Python的几行代码并结合Selenium库能够翻开Firefox浏览器,定位到相应的URL并烘托页面。然后就能够在DOM中查找咱们想要的信息,例如博客文章的内容。

需求留意的是,由于运用Selenium履行一切的JavaScript代码,这也意味着谷歌剖析的代码也会被履行。因而,正确的做法是采纳办法避免发生脏数据。例如,在GA过滤器列表参加您的IP地址或许经过谷歌装置Google Analytics Opt-out Addon插件。还要留意的是,实际上并不需求在Firefox浏览器中把每个烘托出来页面出现在咱们面前。你也能够运用一个轻量级的驱动程序,如PhantomJS这使得能够在后台烘托页面而削减视觉上额定的开支。

这便是到到现在树立引荐体系需求的预备条件。在接下来的几个月中,咱们需求搜集协同过滤模型中用到的用户层面的阅览行为。因而,鄙人面的博客文章中,咱们先开端创立一个根据内容的引荐体系,并剖析其成果。


在不久的将来,多智年代一定会完全走入咱们的日子,有爱好入行未来前沿工业的朋友,能够保藏多智年代,及时获取人工智能、大数据、云核算和物联网的前沿资讯和基础知识,让咱们一同携手,引领人工智能的未来!


地址: 电话:
Copyright © 2018 九五至尊棋牌游戏九五至尊棋牌游戏 All Rights Reserved