About 50 results
Open links in new tab
  1. BM25 相对 TF-IDF 有哪些优势? - 知乎

    bm25公式简介 下面是bm25的计算公式,t是词,q是查询query,dft是有含有该term的文档个数,Lave是集合平均文档长度,Ld是该文档的长度,tftq是term在query中的出现频率,N是文档集合。其余的k1 …

  2. 如何在不微调的情况下提高 RAG 的准确性? - 知乎

    BM25模型的主要思想是:如果一个词在一份文档(这里的文档一般是指分块之后的document)中出现的频率高,且在其他文档中出现的频率低,那么这个词对于这份文档的重要性就越高,相似度就越高。

  3. 基于知识库使用预训练模型构建抽取式(MRC-QA)以及生成式问答系 …

    ElasticSearch+BM25用于多通道BERT QA模型(Wang et al.,2019)。 他们发现,通过滑动窗口将文章拆分为100个单词的段落可以带来4%的改进,因为将文档拆分为没有重叠的段落可能会导致一些边 …

  4. BM25 算法分词怎么优化? - 知乎

    在BM25算法中,分词是一个关键的步骤,它将文本拆分为单词或词组以进行后续的词频计算和匹配。以下是一些常见的优化方法来改进BM25算法的分词过程: 使用分词工具库:使用成熟的分词工具库可 …

  5. 什么是停用词?自然语言处理去掉停用词的利弊? - 知乎

    什么是停用词 停用词(Stop words)是指在文本处理过程中被忽略或删除的常见词汇。这些词汇通常是频繁出现的功能词或无实际意义的词语,例如介词、连词、冠词、代词等。停用词通常对于文本的含义 …

  6. RAG中多路召回融合算法rrf的一些疑惑? - 知乎

    整合多种信号:适合在召回器多样性较高(如TF-IDF、BM25、Dense Retrieval等)的场景中,将不同召回器的结果统一排序,兼顾多路信号。 模型不可用或快速响应需求:当无法部署复杂的rerank模型 …

  7. 一文读懂:大模型RAG(检索增强生成)含高级方法

    Dec 15, 2025 · 正如您所见,在这种情况下 (像HyDe、TF-IDF、BM25或混合搜索等许多其他方法一样),不清楚这种方法是否会胜过针对您具体用例的基本语义搜索功能。 但是,就像人们常说的那样,“ …

  8. python根据BM25实现文本检索 - 知乎

    length normalization Python实现 下面通过一个例子来实现根据BM25来进行文本检索。 现在从网上爬下来了几十篇健康相关的文章,部分如下图所示。 模拟输入搜索词,如“高血压 患者 药物”,搜素最相 …

  9. 大家觉得做一个大模型检索增强生成(RAG)系统,最难搞定的是那部 …

    具体步骤如下: 通过BM25从证据语料库中检索相关段落:利用传统的BM25算法快速检索与问题相关的段落。 使用LLM生成弱标签:将查询、段落、指令和答案组装成提示(prompt),通过LLM生成每 …

  10. 在大模型应用中,如何提升RAG(检索增强生成)的能力?

    数据注入 (创建数据库) 这一步是 RAG 的核心之一,它会读取解析后的文本,通过 API 生成向量,并构建本地检索引擎。 此处的命令执行时间较长,因为它会为大量文本块调用 Embedding API。 成功 …