我是靠谱客的博主 勤奋向日葵,最近开发中收集的这篇文章主要介绍pyLSHash:Python 100行代码实现LSH(Locality Sensitive Hashing)算法,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
项目特点:
- 支持自定义距离函数
- 支持很多种数据库,例如 redis、MongoDB等
项目地址:https://github.com/guofei9987/pyLSHash
安装
$ pip install pyLSHash
使用
from pyLSHash import LSHash
lsh = LSHash(hash_size=6, input_dim=8)
lsh.index([1, 2, 3, 4, 5, 6, 7, 8])
lsh.index([2, 3, 4, 5, 6, 7, 8, 9])
# attach extra_data
lsh.index([2, 3, 4, 5, 6, 7, 8, 9], extra_data="可以随意插入额外信息")
lsh.index([10, 12, 99, 1, 5, 31, 2, 3])
# 返回最近的一批向量,并按照距离排序
res = lsh.query([1, 2, 3, 4, 5, 6, 7, 7])
[((1, 2, 3, 4, 5, 6, 7, 8), 1.0), ((2, 3, 4, 5, 6, 7, 8, 9), 11)]
如何自定义距离函数?
# 定义你自己的距离函数
def l1norm_dist(x, y):
return sum(abs(x - y))
# 然后获取最近的一批向量
res2 = lsh.query([1, 2, 3, 4, 5, 6, 7, 7], dist_func=l1norm_dist)
print(res2)
如何自定义数据库?
step1:用数据库建立一个类(这里以Redis为例)
from pyLSHash import LSHash
from pyLSHash.storage import StorageBase
import redis
import json
class MyStorage(StorageBase):
def __init__(self):
self.storage = redis.StrictRedis(host='localhost', port=6379, decode_responses=True)
def keys(self, pattern="*"):
return self.storage.keys(pattern)
def set_val(self, key, val):
self.storage.set(key, val)
def get_val(self, key):
return self.storage.get(key)
def append_val(self, key, val):
self.storage.rpush(key, json.dumps(val))
def get_list(self, key):
res_list = [json.loads(val) for val in self.storage.lrange(key, 0, -1)]
return tuple((tuple(item[0]), item[1]) for item in res_list)
def clear(self):
for key in self.storage.keys():
self.storage.delete(key)
step2:使用自定义的数据库,来实现LSH
lsh = LSHash(hash_size=6, input_dim=8
, storage_instance=MyStorage())
lsh.index([1, 2, 3, 4, 5, 6, 7, 8])
lsh.index([2, 3, 4, 5, 6, 7, 8, 9])
lsh.index([2, 3, 4, 5, 6, 7, 8, 9], extra_data="some vector info")
lsh.index([10, 12, 99, 1, 5, 31, 2, 3])
lsh.index([10, 12, 99, 1, 5, 31, 2, 3])
res = lsh.query([1, 2, 3, 4, 5, 6, 7, 7])
当然,如果不定义数据库,就会在内存中运行啦。
最后
以上就是勤奋向日葵为你收集整理的pyLSHash:Python 100行代码实现LSH(Locality Sensitive Hashing)算法的全部内容,希望文章能够帮你解决pyLSHash:Python 100行代码实现LSH(Locality Sensitive Hashing)算法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复