
Independent Indexing (IID)
→ 각각의 유저 및 아이템을 special token으로 사용
→ 현실의 데이터를 생각해보면 token vocabulary이 매우 커지게 되어 비현실적인 방식
textual title indexing
→ 아이템 타이틀/설명을 기반으로 하여 LLM의 in-vocabulary 토큰 사용
→ e.g.) Apple iPhone 15, 256 GB, black
→ vocabulary 크기가 증가하지 않음
→ P5(whole-word embedding)
→ high-order collaborative knowledge를 잘 모델링하지 못하며, unseen 데이터에 대한 일반화가 잘 되지 않음.
continuous embedding (soft indexing)
→ 인코더를 통해 유저 및 아이템 표현 학습
→ 이를 soft indexing하여 continuous embedding 생성
→ 언어 모델의 discrete tokens의 본질때문에 추천 시스템에 잘 align되지 않을 수 있음
Masked Vector Quantized Tokenizer
→ 제안하여 high-order collaborative knowledge를 llm 기반 추천 모델에 통합
generative retrieval paradigm
→ 자연어로 토큰을 바로 생성하는 것이 아닌 top-K items를 추천