用户画像、物品画像【画像就是刻画物品或用户的特征;本质上就是给用户或物品贴标签】 偏执的太偏执、 2023-10-12 00:51 47阅读 0赞 ### **一、基于内容的推荐算法** ### **1、简介** 基于内容的推荐方法是非常直接的,它以物品的内容描述信息为依据来做出的推荐,本质上是基于对物品和用户自身的特征或属性的直接分析和计算。 例如,假设已知电影A是一部喜剧,而恰巧我们得知某个用户喜欢看喜剧电影,那么我们基于这样的已知信息,就可以将电影A推荐给该用户。 **基于内容的推荐实现步骤** 画像构建。顾名思义,画像就是刻画物品或用户的特征。本质上就是给用户或物品贴标签。 * 物品画像。例如给电影《战狼2》贴标签,可以有哪些?“动作”、“吴京”、“吴刚”、“张翰”、“大陆电影”、“国产”、“爱国”、“军事”等等一系列标签是不是都可以贴上。 * 用户画像。例如已知用户的观影历史是:“战狼1”、“战狼2”、“建党伟业”、“建军大业”、“建国大业”、“红海行动”、“速度与激情1-8”等,我们是不是就可以分析出该用户的一些兴趣特征如:“爱国”、“战争”、“赛车”、“动作”、“军事”、“吴京”、“韩三平”等标签。 **问题:物品的标签来自哪儿?** a)PGC 物品画像--冷启动 * 物品自带的属性(物品一产生就具备的):如电影的标题、导演、演员、类型等等; * 服务提供方设定的属性(服务提供方为物品附加的属性):如短视频话题、微博话题(平台拟定) * 其他渠道:如爬虫 根据PGC内容构建的物品画像可以解决物品的冷启动问题 b)UGC 冷启动问题 * 用户在享受服务过程中提供的物品的属性:如用户评论内容,微博话题(用户拟定) **基于内容推荐的算法流程** * 根据PGC/UGC内容构建物品画像 * 根据用户行为记录生成用户画像 * 根据用户画像从物品中寻找最匹配的TOP-N物品进行推荐 **物品冷启动处理** * 根据PGC内容构建物品画像 * 利用物品画像计算物品间两两相似情况 * 为每个物品产生TOP-N最相似的物品进行相关推荐:如与该商品相似的商品有哪些?与该文章相似的文章有哪些? ### **二、电影画像构建** ### 物品画像构建步骤: * 利用tags.csv中每部电影的标签作为电影的候选关键词 * 利用TFIDF计算每部电影的标签的tfidf值,选取TOP-N个关键词作为电影画像标签 * 将电影的分类词直接作为每部电影的画像标签 **1、基于TF-IDF的特征提取技术** 1)TF-IDF介绍 上面提到,物品画像的特征标签主要都是指的如电影、导演、演员、图书的作者、出版社等结构化的数据,也就是他们的特征提取,尤其是体征向量的计算是比较简单的,如直接给作品的分类定义为0或1的状态。 但另外一些特征,比如电影的内容简介、电影的影评、图书的摘要等文本数据,这些被称为非结构化数据,首先他们本应该也属于物品的一个特征标签,但是这样的特征标签进行量化时,也就是计算他的特征向量时是很难去定义的。 因此这时就需要借助一些自然语言处理、信息检索等技术,如将用户的文本评论或其他文本内容信息的非结构化数据进行量化处理,从而实现更加完善的物品画像或用户画像。 TF-IDF算法便是其中一种在自然语言处理领域中应用比较广泛的一种算法。可用来提取目标文档,并得到关键词用于计算对于目标文档权重,并将这些权重组合到一起得到特征向量。 2)算法原理 TF-IDF自然语言处理领域中计算文档中词或短语的权值的方法,是词频(Term Frequency,TF)和逆文档频率(Inverse Document Frequency,IDF)的乘积。TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正则化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。IDF是一个词语普遍重要性的度量,某一特定词语的IDF,可由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。 TF-IDF算法基于一个这样的假设:若一个词语在目标文档中出现的频率高而在其他文档中出现的频率低,那么这个词语就可以用来区分出目标文档。这个假设需要掌握的有两点: * 在本文档出现的频率高 * 在其他文档出现的频率低 因此,TF-IDF算法的计算可以分为词频(Term Frequency,TF)和逆文档频率(Inverse Document Frequency,IDF)两部分,由TF和IDF的乘积来设置文档词语的权重。 结论:TF-IDF与词语在文档中的出现次数成正比,与该词在整个文档集中的出现次数成反比。 用途:在目标文档中,提取关键词(特征标签)的方法就是将该文档所有词语的TF-IDF计算出来并进行对比,取其中TF-IDF值最大的k个数组成目标文档的特征向量用以表示文档。 注意:文档中存在的停用词(Stop Words),如“是”、“的”之类,对于文档的中心思想表达没有意义的词,在分词时需要先过滤掉再计算其他词语的TF-IDF值。 **2、算法实现** 2.1、加载数据集并做处理 -------------------- -------------------- -------------------- [day5-基于内容的推荐算法--物品画像和用户画像\_基于内容的推荐算法用户特征\_Theo1688的博客-CSDN博客][day5-_--_Theo1688_-CSDN] [day5-_--_Theo1688_-CSDN]: https://blog.csdn.net/cpy52349119/article/details/121837583
相关 用户画像、物品画像【画像就是刻画物品或用户的特征;本质上就是给用户或物品贴标签】 一、基于内容的推荐算法 1、简介 基于内容的推荐方法是非常直接的,它以物品的内容描述信息为依据来做出的推荐,本质上是基于对物品和用户自身的特征或属性的直接分析和计算。 偏执的太偏执、/ 2023年10月12日 00:51/ 0 赞/ 48 阅读
相关 用户画像:用户画像表 ================ 用户画像表 结构图================ 用户画像表 ADM层 每天汇总出的用户画像表仅包含当天的数 古城微笑少年丶/ 2023年09月27日 18:41/ 0 赞/ 13 阅读
相关 用户画像 ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhp 青旅半醒/ 2023年02月22日 10:59/ 0 赞/ 23 阅读
相关 用户画像总结 最近在工作之余,结合自己的理解和论坛上的一些帖子,整理了份用户画像的文章,个人觉得这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子, 系统管理员/ 2022年05月28日 02:56/ 0 赞/ 285 阅读
相关 用户画像简介 随着我国电子商务的高速发展,越来越多的人注意到数据信息对于电商市场的推动作用。基于数据分析的精准营销方式,可以最大限度的挖掘并留住潜在客户,数据统计与分析为电商 冷不防/ 2022年05月25日 01:11/ 0 赞/ 226 阅读
相关 用户画像 1、用户画像 用户画像主要是为了刻画一个用户的特征,主要分为定量画像和定性画像,定量的主要是数量,定性的主要是一种特征,i并不能用数量表示,一般是使用标签来 青旅半醒/ 2022年04月12日 14:12/ 0 赞/ 232 阅读
相关 用户画像 什么是用户画像 简单来说,就是根据数据来描述用户,比如用标签:宅男、宅女、汽车迷、电影迷等等 是对现实世界中用户的数学建模 是描述用户的数据,是符合特定业务需 缺乏、安全感/ 2022年04月02日 13:47/ 0 赞/ 247 阅读
相关 用户画像总结 转载:https://blog.csdn.net/zzhhoubin/article/details/79727130 最近在工作之余,结合自己的理解和论坛上 小咪咪/ 2022年02月24日 02:14/ 0 赞/ 375 阅读
相关 用户画像 这里不包含算法、技术、架构内容,因为相对来说,用户画像落地比较简单,难的是用户画像的价值落地。 用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念。现在我们谈及用 朱雀/ 2021年11月05日 09:42/ 0 赞/ 398 阅读
相关 用户画像建设 用户画像 用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。 在大数据的时代下,用户的一切行为是可追溯和分析的。 用户画像是通过分析用户的基础信息、 男娘i/ 2021年09月21日 16:12/ 0 赞/ 426 阅读
还没有评论,来说两句吧...