用户画像算法

Jan 27, 2024 11:51 AM

用户画像算法和文献解读

李孙博闻

1. 计算用户画像标签重要性方法

用户画像是怎么生成出来的？ - 朱翔宇的回答 - 知乎

https://www.zhihu.com/question/31429786/answer/1762480989

该方法可以作为特征工程，对于已经打好标签的数据，增加其标签特性作为用户特征，或者仅仅用于刻画标签的特征。

2. 文献解读

2.1. 论文信息

Pujahari A, Sisodia D S. Item feature refinement using matrix factorization and boosted learning based user profile generation for content-based recommender systems [J]. Expert Systems with Applications, 2022, 206: 117849.

直译：基于内容的推荐系统中，使用矩阵分解和增强学习来进行项目特征细化和用户画像生成

期刊：Expert Systems with Applications，一区top，CCF C

关键概念：

User profile 用户画像；
CBF（Content-Based Filter）基于内容的过滤器；
CBRS（Content-Based Recommender System）基于内容的推荐系统，CBRS属于CBF；
matrix factorization 矩阵分解；
PCA 主成分分析；
物品：指待推荐的项目

2.2. 论文解读（AI辅助）

2.2.1. 研究背景与动机

内容推荐系统（CBRS）依赖于物品特征来构建用户偏好模型，但在现实世界的数据集中，物品特征通常不一致且稀疏，这使得构建高效的用户模型变得困难。
用户偏好模型的创建者未能从用户评分和偏好的误分类中学习，导致推荐质量下降。

研究动机中，第一点强调物品特征稀疏性和数据缺失问题，即有些特征可能是某个物品特有的，这是为了引出用矩阵分解做特征精炼的点子，第二点是说传统的非学习方法没有持续学习能力，是为了引出机器学习算法，认为机器学习通过用户新的反馈可以继续学习。

2.2.2. 研究方法

针对前面的研究动机，作者提出了两步方法来改进 CBRS 的性能。

第一步是使用矩阵分解来细化物品特征中的稀疏性和不一致性。
第二步是通过迭代提升多个弱学习器来生成个体偏好模型，以惩罚评分的误分类。

对于第一点，作者采用了一种非常类似于 PCA 的矩阵分解的方法对原始特征矩阵做数据精炼，其方法很大程度采用了 Wang 等人的工作^[1]；对于第二点，作者简单地采用 AdaBoost 方法作为机器学习模型。

2.2.3. 模型框架

左图是传统框架，右图是本文框架。这里只讨论本文框架。

对于训练部分（右图，左边部分），Items 可以看作是用来训练和验证的关于物品特征原始数据集，原始 Items 数据通过处理、向量化等方法转化为可学习的表征形式，再通过矩阵分解进一步精炼表征，它将和用户特征一起输入集成模型进行训练。

对于新物品的推荐参考（右图，右下部分）。

image-20240123142907447.png|775

新物品用 New Items 表示，它先通过用户偏好画像（User Preference Profile）的过滤来判断是否要推送给用户，而用户偏好画像是由集成模型所表示的，过滤器会对 New Items 进行评级，选出一个评级，使得各个加权的分类器给出该评级的概率总和最大即可，把各个 News Items 以“非递增”（原文如此）的形式生成推荐。物品评级的数学形式如下，其中 $f$ 是 New Items， $I$ 是标记函数， $α_{k}$ 是分类器 $k$ 的权重，是在 AdaBoost 中计算得到的：

\begin{array}{r} C l a s s (f) = \arg max_{C} \sum_{k = 1}^{k} α_{k} \cdot I (M_{k}^{(u)} (f) = C) \end{array}

2.2.4. 主要方法介绍

作者所谓两个创新中，其一，特征精炼可以看作是特征工程方法，该方法来自 Wang 等人的工作^[1:1]；而第二个点，采用 AdaBoost 并不算创新。这里主要梳理一下数据精炼方法。

$F$ (n, d) 是原始矩阵， $W = [𝑤_{1}, 𝑤_{2}, \dots, 𝑤_{𝑑}]^{𝑇}$ 为大小为 (d, f) 的特征权重矩阵，用来把原始特征矩阵转换为维度为 f 的特征子集上， $F W$ 是为了把 F 投影到新的空间上，做初步特征降维或者增强。 $K$ (f, d) 是系数矩阵，用于“将原始特征矩阵投影到所选特征矩阵的共享子空间”（原文如此），这里并不懂作者解释 K 的意思，个人理解 K 就是线性映射，同时把矩阵变回原来的大小，而且 K 是可训练的，因此类似于神经网络的线性层，数学表示为：