如何找到相似的结果并按相似性排序？

一尘不染

如何找到相似的结果并按相似性排序？

mysql

如何查询相似度排序的记录？

例如。搜索“库存溢出”将返回

堆栈溢出
SharePoint溢出
数学溢出
政治溢出
视觉特效溢出

例如。搜索“ LO”将返回：

巴勃罗毕加索
米开朗基罗
杰克逊·波洛克

我需要什么帮助：

使用搜索引擎索引和搜索MySQL表，以获得更好的结果
- 使用Sphinx搜索引擎和PHP
- 在PHP中使用Lucene引擎
使用全文索引，查找相似/包含的字符串

什么不好

Levenshtein的距离非常不稳定。（UDF，Query）
搜索“ dog”给我：
1. 狗
2. 沼泽
3. 前
4. 大
5. 回声
6. LIKE 返回更好的结果，但是尽管确实存在类似的字符串，但对于长查询不返回任何结果
7. 狗
8. 狗狗
9. 多加拉尔
10. 教条

阅读 366

2020-05-17

共1个答案

一尘不染

我发现，当您针对另一个完整字符串搜索完整字符串时，Levenshtein距离可能很好，但是当您在字符串中查找关键字时，此方法不会返回（有时）所需的结果。此外，SOUNDEX函数不适用于英语以外的其他语言，因此非常有限。您可以通过LIKE摆脱困境，但这实际上是针对基本搜索的。您可能想研究其他搜索方法以实现所需的目标。例如：

您可以将Lucene用作项目的搜索基础。它以大多数主要的编程语言实现，并且非常快速且通用。该方法可能是最好的，因为它不仅搜索子字符串，而且搜索字母转置，前缀和后缀（全部组合）。但是，您需要保留一个单独的索引（尽管有时可以使用CRON从独立脚本中对其进行更新）。

或者，如果您需要MySQL解决方案，则全文功能相当不错，并且肯定比存储过程快。如果您的表不是MyISAM，则可以创建一个临时表，然后执行全文搜索：

CREATE TABLE IF NOT EXISTS `tests`.`data_table` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(2000) CHARACTER SET latin1 NOT NULL,
  `description` text CHARACTER SET latin1 NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;

如果您不想自己创建数据，请使用数据生成器生成一些随机数据…

注意
：列类型应该是latin1_bin执行区分大小写的搜索，而不是使用时不区分大小写latin1。对于Unicode字符串，我建议utf8_bin区分大小写和utf8_general_ci不区分大小写的搜索。

DROP TABLE IF EXISTS `tests`.`data_table_temp`;
CREATE TEMPORARY TABLE `tests`.`data_table_temp`
   SELECT * FROM `tests`.`data_table`;

ALTER TABLE `tests`.`data_table_temp`  ENGINE = MYISAM;

ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
  `title` ,
  `description`
);

SELECT *,
       MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
  FROM `tests`.`data_table_temp`
 WHERE MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
 ORDER BY `score` DESC;

DROP TABLE `tests`.`data_table_temp`;

从MySQL API参考页面中了解更多信息

不利的一面是，它不会寻找字母转置或“相似的，听起来像”的单词。

更新

使用Lucene进行搜索，您只需要创建一个cron作业（所有Web主机都具有此“功能”），该作业将仅执行一个PHP脚本（例如，“ cd / path /
to / script; php searchindexer.php”
），将更新索引。原因是索引成千上万的“文档”（行，数据等）可能需要几秒钟，甚至几分钟，但这是为了确保所有搜索都尽可能快地执行。因此，您可能要创建要由服务器运行的延迟作业。可能是一整夜，或者在下一小时，这取决于您。PHP脚本应如下所示：

$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');

Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  // change this option for your need
  new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

$rowSet = getDataRowSet();  // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
   $doc = new Zend_Search_Lucene_Document();
   $doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
  ;
  $indexer->addDocument($doc);
}

// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this

$indexer->optimize();  // do this every time you add more data to you indexer...
$indexer->commit();    // finalize the process

然后，这基本上就是您搜索（基本搜索）的方式：

$index = Zend_Search_Lucene::open('/path/to/lucene/data');

// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
   new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');

$query = 'php +field1:foo';  // search for the word 'php' in any field,
                                 // +search for 'foo' in field 'field1'

$hits = $index->find($query);

$numHits = count($hits);
foreach ($hits as $hit) {
   $score = $hit->score;  // the hit weight
   $field1 = $hit->field1;
   // etc.
}

这是Java，PHP和.Net中有关Lucene的绝佳网站。

总之， 每种搜索方法各有利弊：

您提到了Sphinx搜索，它看起来非常好，只要您可以在您的Web主机上运行守护进程即可。
Zend Lucene需要执行cron作业才能重新索引数据库。尽管它对用户是完全透明的，但这意味着任何新数据（或已删除的数据！）并不总是与数据库中的数据同步，因此不会在用户搜索时立即显示。
MySQL FULLTEXT搜索既好又快速，但不会给您前两个功能和灵活性。

如果我忘记/遗漏任何东西，请随时发表评论。

2020-05-17