Skip to content

Latest commit

 

History

History
38 lines (33 loc) · 2 KB

From Neural Re-Ranking to Neural Ranking Learning a Sparse Representation for Inverted Indexing.md

File metadata and controls

38 lines (33 loc) · 2 KB

学习倒排索引的稀疏表示

Abstract

  • 目前的NRM都是多阶段排序
    • 只排序第一阶段返回的top k个文档
    • 生成的是稠密向量,需要和文档一一比对,不适用于整个数据集
  • 采用第一阶段的排序器导致了两个问题
    • 两阶段交互和联合的影响不好说
    • 第一阶段相当于gate-keeper,导致第二阶段根本无法接触到最匹配的文档
  • 本文采用单阶段模型,引入稀疏属性学习Document(D)和Query(Q)的表示
    • 包含了足够匹配Q和D的语义信息
    • 稀疏到足以为整个数据集构建倒排索引
    • 采用了pseudo-relevance feedback伪相关度反馈(PRF)

Introduction

  • 多阶段排序缺陷
    • 阶段间存在引入和传递误差的问题
    • 生成的稠密向量不适合用倒排索引
  • 本文的模型特点:为Q和D都生成了高维稀疏的语义表示,便于倒排索引,是单阶段排序,效率和BM25、TF-IDF,QL模型一样高
  • Q和D向量表示的两个目标
    • 引入稀疏属性
    • 捕获语义信息
  • 流程概述
    • 先对Q和D的每个n-gram,先map到低维稠密空间(压缩信息),再map到高维空间得到稀表示
    • 希望学习到的高维稀疏表示
      • 稀疏性和输入文本的长度相关:Q的稀疏性应该要比D更大
      • 稀疏程度和词项的稀疏程度差不多
    • 建立倒排索引
      • 每个维度作为一个词项
    • 查询时,先得到Q的高维稀疏表示,把非0位置的倒排列表取出合并,Q和D一一点积计算Score
    • 查询时用PRF扩展Q
    • 用弱监督方法训练:QL模型打弱标签

Reference

From Neural Re-Ranking to Neural Ranking Learning a Sparse Representation for Inverted Indexing