专注于 JetBrains IDEA 全家桶,永久激活,教程
持续更新 PyCharm,IDEA,WebStorm,PhpStorm,DataGrip,RubyMine,CLion,AppCode 永久激活教程

文本获取和搜索引擎之推荐系统

coursera课程 text retrieval and search engine 第六周 推荐。

推荐系统

推荐系统即把恰当的内容推送给用户,类似于在一系列文档中过滤出用户想要的。一般有两种方式:

1、 看用户喜欢什么样的东西,然后检验当前文档是否和用户喜欢的相似【content-based】;
2、 看喜欢特定文档的都是什么样的用户,然后看当前用户是否和他们一样[collaborative]。
传统的基于内容推荐模型是: 93_1.png他存在如下问题:

  • 必须做一个yes/no的决策
  • 初始的数据很少,基本基于配置
  • “学习”通过用户的yes判断,而且还要靠慢慢积累

通过向量模型可以做如下改进

93_2.png

1、 是它利用了TR已有的模型作为相关性【分数】计算
2、 对于初始的配置来讲也可以当做是一个向量用来和文档做计算分数
3、 通过阈值模型来做决定是否推送给用户,并对过滤的结果通过效用模型来评估
4、 用户得到的反馈之后反过来更新阈值学习和向量模型的学习系统

向量学习系统即调整向量本身的位置,和搜索类似

阈值模型困难在于:能被用户判断的数据都是送给用户的;开始的时候被标记的数据少;提供给用户一些试点的数据,看用户如何反应,太少了达不到效果,太多又会担心都是用户用不到的数据

Beta-Gamma阈值学习

93_3.png

y轴是实际的作用(比如有点击的),x轴是排序中的位置;

93_4.png表示继续调低阈值那么推送过去的都是无效的;93_5.png表示阈值的上界,即只要大于这个阈值,基本都是有效的。它和93_6.png之间还有可能存在一定的数据是有用。衡量真实的取值则可以用93_7.png来表示:

93_8.png

一般来说,更偏向于93_9.png,这样得到的数据显得更全面。但是有时候不需要显示这么多,可以通过训练来达到另一种取值方式

93_10.png当训练的样本数足够的时候,认为已经足够了解用户了,那么 93_11.png可以取较小的值,不够的时候,偏向于 93_12.png)即可;训练样本的权重则通过 93_13.png来控制

文章永久链接:https://tech.souyunku.com/47235

未经允许不得转载:搜云库技术团队 » 文本获取和搜索引擎之推荐系统

JetBrains 全家桶,激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程,支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程,还是最新激活码,均可免费获得,帮助开发者解决常见激活问题,确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码,快速解决激活难题,全面覆盖 2024/2025 版本!

联系我们联系我们