Beyond Search

最好走的路越走越难,最难走的路越走越容易!

Taste/Thoth:Taste Architecture 概览

Taste 有着非常清晰的程序架构。看图说话,下面就是一个 User-based Recommender 的例图,说明了各个组件之间的关系。而对于一个 Item-based Recommender,除了不需要使用 PreferenceInferrer 和 Neighborhood 之外,和下图描述的基本架构是非常类似的。

作为一个协同过滤推荐引擎,Taste 包含下列基本要素。

  1. 用户:即上图中的 User,Taste 组件依据用户的偏好信息向用户进行推荐。
  2. 推荐项:即上图中的 Item,每个用户都会对多个 Item 进行偏好设定,比如打分。
  3. 偏好:即上图中的 Preference,每一条偏好数据记录的都是某个用户对某个 Item 的偏好程度。

从上面可以看出,偏好信息是推荐系统的基础,它总是以某种形式进行存储,即图中的 DataModel 和 Data Store。另外,原始的偏好信息可能并不能表示用户确切的偏好。举个例子,对于 5 分制的评分系统来说,有些人可能无论自己多么不喜欢,给的最低的评分都可能是 2 分,并不是 1 分;另外一些人则可能正相反,最喜欢的也就给 4 分。还有一种情况,对于一个 Item,给它评分的用户越少,通常那些用户越“相似”(我们可以理解为嗜好相同);如果评价的用户特别多,这些用户之间的相似度反而不好判断,对这类偏 好信息通常可以直接忽略。为了解决诸如此类的问题,我们需要对那些原始的偏好数据进行处理,使数据标准化、差异扩大化,以求能够较真实地反应用户的偏好信 息,这正是图中 PreferenceTransform 要做的工作。
经过以上处理,我们就得到了一个 DataModel,一个已经标准化了的用户偏好信息。

对于 User-Based Recommender 来说,下一步,我们就是要找出与目标用户相似的“邻居”(Neighborhood)了。
首先要做的是得到描述目标用户和其它用户之间关系的集合(Correlation),然后从中选择最相似的用户。生成Correlation时,会指定一 个推断规则(PreferenceInferrer),用来描述用户对那些自己没有明确表明过偏好的 Item 的偏好值。在计算用户相似度方面,Taste 提供了皮尔森相关系数(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)相似度算法。有了最近邻的用户集合,就可以对目标用户的兴趣进行预测,生成推荐结果。

上面我们结合图描述了一个典型的 User-Based Recommender 的实现过程。总结并提取其中的重要对象,如下。

1、Recommender
Recommender 是 Taste 中的核心对象。给定一个 DataModel,Recommender 就可以生成生成对应的推荐结果。通常情况下,你只需要简单的选择使用 GenericUserBasedRecommender 或者是 GenericItemBasedRecommender 这两个 Recommender 接口的具体实现即可。另外,还可以通过 CachingRecommender 包装使用他们,以提升效率。

2、DataModel
DataModel 是包装用户偏好信息的接口。它的具体实现可以从任何数据源获取这些信息,当然,数据库通常是最常见的选择之一。尽管很多应用程序想编写一个他们自己的 DataModel,但其实 Taste 已经提供了一个 MysSqlJDBCDataModel,可以经由 JDBC 从数据库中获取偏好数据。另外,Taste 也提供了一个基于文件的 FileDataModel。
连同 DataModel 一起,Taste 使用 User、Item 和 Preference 这些概念来描述用户、推荐项和针对推荐项的偏好。自定义的 DataModel 应该实现这些接口以和应用程序匹配--比如一个 OnlineUser 代表网上商店的用户,一个 BookItem 代表一本书。

3、PreferenceTransform
PreferenceTransform 以某种方式改变偏好的值,通常是将其标准化,或者将其差异扩大化。PreferenceTransform 大多数情况下与 DataModel 一起使用。

4、UserCorrelation, ItemCorrelation
UserCorrelation 定义两个用户之间相似的程度。这是推荐系统中至关重要的一个部份,与 Neighborhood 的实现相关。
ItemCorrelation 也是类似的,只不过它用来描述两个 Item 之间的相似度。

5、Neighborhood
在一个 User-Based 推荐系统中,推荐的意思就是去寻找与给定用户相似的“邻居”。UserNeighborhood 描述了如何去选择那些“邻居”――比如,最相似的10个用户。具体实现时通常需要对 UserCorrelation 进行操作。

Taste/Thoth 系列
1)开源的推荐系统引擎
2)Taste Architecture 概览
3)暂时还没想好,可能会写个例子,或者是把核心组件详细分析一下。看情况定吧~~~

Beyond.Thoth on sf.net,http://sourceforge.net/projects/beyondthoth/
Beyond Thoth Group on google,http://groups.google.com/group/BeyondThoth/

八月 13th, 2007 Posted by clickstone at 01:09am | 推荐系统 | 7 comments

7条评论 »

  1. Hello, just a great site.
    [url=http://www.salvadori.org/forum/member.php?u=6899]daughter incest[/url]
    [url=http://www.youth.sg/forum/member.php?u=30565]mother sex[/url]
    [url=http://www.zombiemod.com/forums/member.php?u=38992]lesbian sisters[/url]
    [url=http://www.weedforums.com/member.php?u=9377]incest father[/url]

    评论 由 Addenefigue | 2008-12-18

  2. Hi! Ebanij vrot! bn4a546zdu sg25mtdxi1! http://ffhi.ucdavis.edu/Members/ezhulenev/fernandina-beach-foreclosures ; Residential Home Foreclosures ; [url=http://wiki.library.appstate.edu/access/Members/pizdos/real-estate-foreclosure-in-florida]Free Florida Foreclosure Information[/url] ; Bye! =)

    评论 由 osi4o3j3we | 2009-01-16

  3. Hello my dear friend! I’m a pure student…

    评论 由 Lincoln Payday Loan | 2009-01-19

  4. downloadable Symantec ACT 2005 7.0

    评论 由 ElizeSommer | 2009-02-06

  5. full version Adobe Atmosphere 1.0 software

    cheap software

    评论 由 KukkoDrukko | 2009-02-09

  6. box oem Steinberg Halion 3.1 software

    oem software

    评论 由 KukkoDrukko | 2009-02-09

  7. purchase oem Adobe GoLive CS V 7.0 PC

    oem software

    评论 由 KukkoDrukko | 2009-02-09

发表评论

提示:如果你刚刚提交过评论,但是还没有被显示出来,请点击这里刷新一下: 刷新评论