BM25 Algorithm

About 50 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
BM25 相对 TF-IDF 有哪些优势？ - 知乎
bm25公式简介下面是bm25的计算公式，t是词，q是查询query，dft是有含有该term的文档个数，Lave是集合平均文档长度，Ld是该文档的长度，tftq是term在query中的出现频率，N是文档集合。其余的k1 …
zhihu.com
https://www.zhihu.com › question
如何在不微调的情况下提高 RAG 的准确性？ - 知乎
BM25模型的主要思想是：如果一个词在一份文档（这里的文档一般是指分块之后的document）中出现的频率高，且在其他文档中出现的频率低，那么这个词对于这份文档的重要性就越高，相似度就越高。
zhihu.com
https://www.zhihu.com › tardis › zm › art
基于知识库使用预训练模型构建抽取式（MRC-QA）以及生成式问答系 …
ElasticSearch+BM25用于多通道BERT QA模型（Wang et al.，2019）。他们发现，通过滑动窗口将文章拆分为100个单词的段落可以带来4%的改进，因为将文档拆分为没有重叠的段落可能会导致一些边 …
zhihu.com
https://www.zhihu.com › question
BM25 算法分词怎么优化？ - 知乎
在BM25算法中，分词是一个关键的步骤，它将文本拆分为单词或词组以进行后续的词频计算和匹配。以下是一些常见的优化方法来改进BM25算法的分词过程：使用分词工具库：使用成熟的分词工具库可 …
zhihu.com
https://www.zhihu.com › question
什么是停用词？自然语言处理去掉停用词的利弊？ - 知乎
什么是停用词停用词（Stop words）是指在文本处理过程中被忽略或删除的常见词汇。这些词汇通常是频繁出现的功能词或无实际意义的词语，例如介词、连词、冠词、代词等。停用词通常对于文本的含义 …
zhihu.com
https://www.zhihu.com › question
RAG中多路召回融合算法rrf的一些疑惑? - 知乎
整合多种信号：适合在召回器多样性较高（如TF-IDF、BM25、Dense Retrieval等）的场景中，将不同召回器的结果统一排序，兼顾多路信号。模型不可用或快速响应需求：当无法部署复杂的rerank模型 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
一文读懂：大模型RAG（检索增强生成）含高级方法
Dec 15, 2025 · 正如您所见，在这种情况下 (像HyDe、TF-IDF、BM25或混合搜索等许多其他方法一样)，不清楚这种方法是否会胜过针对您具体用例的基本语义搜索功能。但是，就像人们常说的那样，“ …
zhihu.com
https://www.zhihu.com › column
python根据BM25实现文本检索 - 知乎
length normalization Python实现下面通过一个例子来实现根据BM25来进行文本检索。现在从网上爬下来了几十篇健康相关的文章，部分如下图所示。模拟输入搜索词，如“高血压患者药物”，搜素最相 …
zhihu.com
https://www.zhihu.com › question › answer
大家觉得做一个大模型检索增强生成（RAG）系统，最难搞定的是那部 …
具体步骤如下：通过BM25从证据语料库中检索相关段落：利用传统的BM25算法快速检索与问题相关的段落。使用LLM生成弱标签：将查询、段落、指令和答案组装成提示（prompt），通过LLM生成每 …
zhihu.com
https://www.zhihu.com › question
在大模型应用中，如何提升RAG（检索增强生成）的能力？
数据注入 (创建数据库) 这一步是 RAG 的核心之一，它会读取解析后的文本，通过 API 生成向量，并构建本地检索引擎。此处的命令执行时间较长，因为它会为大量文本块调用 Embedding API。成功 …

Pagination
- 1
- 2
- 3
- Next