INTRODUCTION

기존 추천시스템은 User 또는 Item에 고유한 ID를 부여하고 매핑되는 token 임베딩을 학습하는 형태 (e.g. MF, LightGCN) → ID-based recommendation methods
LLM이 우수한 성능을 보이며 추천에 LLM을 적용하려는 다양한 접근이 제안됨
LLM을 추천에 적용하는데 있어 가장 핵심적인 부분은 user&item tokenization
1. Independent Indexing (IID)
  
  → 각각의 유저 및 아이템을 special token으로 사용
  
  → 현실의 데이터를 생각해보면 token vocabulary이 매우 커지게 되어 비현실적인 방식
2. textual title indexing
  
  → 아이템 타이틀/설명을 기반으로 하여 LLM의 in-vocabulary 토큰 사용
  
  → e.g.) Apple iPhone 15, 256 GB, black
  
  → vocabulary 크기가 증가하지 않음
  
  → P5(whole-word embedding)
  
  → high-order collaborative knowledge를 잘 모델링하지 못하며, unseen 데이터에 대한 일반화가 잘 되지 않음.
3. continuous embedding (soft indexing)
  
  → 인코더를 통해 유저 및 아이템 표현 학습
  
  → 이를 soft indexing하여 continuous embedding 생성
  
  → 언어 모델의 discrete tokens의 본질때문에 추천 시스템에 잘 align되지 않을 수 있음

Masked Vector Quantized Tokenizer

→ 제안하여 high-order collaborative knowledge를 llm 기반 추천 모델에 통합

generative retrieval paradigm

→ 자연어로 토큰을 바로 생성하는 것이 아닌 top-K items를 추천

METHOD