python由hashmap key引起的class两个相同值的对象比较的总结

it2022-05-05 138

上一篇文章由于一个模块比较适合python来开发，于是上手python，分析1kw个字符串类型key的dict查询很慢，寻找解决方案，之后引起的一些问题。在c++中需要一一去实现的自定义类型key的hash函数和重载==，原来python中都有同样的方式去完成。通过以下转载的两篇文章，能够解答之前的疑问

第一篇解答了相同值的两个对象之间的比较，之前使用class都是封装的方法，没有当数据结构来使用，或者使用了也是当变量赋值用，没比较过，所以没遇到过这个问题。

摘要什么是python对象的标识 python对象相等的判断自定义python对象相等的条件 python对象的标识 python对象标识就是python对象自身的要素，python对象主要有3要素：

id:相当于对象在内存中的地址，相当于c的指针，可以用id(对象)来获取。

类型：python的基本对象有Number、String、List、Tuple、Set、Dictionary六种，当然还有对象的实例化，他们的类型就是对象的类名。可以通过type(对象)来获取。

值：对象的值，不解释- -。

对象相等的判断 python中的对象是否相等有两个层面，一个层面是是否是同一个对象，及在内存中是否共用一个内存区域，用is判断，另一个是对象的值是否相等，用==判断。

我目前用的最多的就是python对象的比较，即比较两个python对象是否相等，看个例子：

class student(object): def __init__(self,name,age,sex): self.name = name self.age = age self.sex = sex def __eq__(self, *args, **kwargs): return object.__eq__(self, *args, **kwargs) like = student("like",25,"male") xue = student("xue",23,"female") dong = student("like",25,"male") print(like is xue) #False print(like is dong) #False print(like == dong) #False

这里有两个student类的实例化对象，like和xue很明显是两个不同的对象，他们的不同体现在所占内存地址不同且对象的属性也不同。

like和dong虽然属性相同，但是is和==两种判断的结果也都为false，在实际情况中，我们大多都希望like和dong属性相同，就认为是同一个对象，所以我们需要重写类的eq方法：

class student(object): def __init__(self,name,age,sex): self.name = name self.age = age self.sex = sex def __eq__(self,other): return self.__dict__ == other.__dict__ print(like == dong) #True

调用一个对象的dict方法可以用字典的形式输出其属性列表，由于两个对象的属性相同，所以==运算为True。

自定义python对象相等的条件当然在实际情况下，可以更灵活的定义两个对象相等的条件，比如名字一样就认为相等。

class student(object): def __init__(self,name,age,sex): self.name = name self.age = age self.sex = sex def __eq__(self,other): return self.name == other.name like = student("like",25,"male") dong = student("like",23,"female") print(like == dong) #True

实际场景在实际应用中，有一个场景是处理对象是否在list里，不在就加入。

like = student("like",25,"male") dong = student("like",25,"male") list1 = [] list1.append(like) if dong not in list1: list1.append(dong) print(len(list1)) #1 #list的in操作就是通过==来判断是否在list中。

结合另一篇文章这篇文章解答了自定义类型的key，如何以及为什么要自定义hash函数和比较函数。

在 HashMap 中存放的一系列键值对，其中键为某个我们自定义的类型。放入 HashMap 后，我们在外部把某一个 key 的属性进行更改，然后我们再用这个 key 从 HashMap 里取出元素，这时候 HashMap 会返回什么？

如何面试者直接答“这要看自定义类型的hash值了”,我想面试官会非常满意。

联想到python中dict的实现，python中字典一般不存在这个问题，因为key的hash值默认是id值，一个对象的id是固定的。

看如下代码：

我们可以通过__hash__修改默认hash值，所以__hash__方法还是要看具体业务逻辑，比如我们业务任务name值一样就是同一个对象，看如下代码：

class B: def __init__(self,name): self.name=name def __hash__(self): return hash(self.name) d={} b1=B('skycrab') b2=B('skycrab1') d[b1]=1 d[b2]=2 b2.name='skycrab' d[b2]=3 print d

我信心满满的认为name为‘skycrab‘的值会被更新为3，可事实如下： {<main.B instance at 0x02543210>: 2, <main.B instance at 0x02543210>: 3, <main.B instance at 0x025436C0>: 1}

这让我百思不得其解，hash值明明一样，为什么会认为是不同对象，导致增加了一个。突然灵光一闪，难道key也需要做比较?打开python源码我们看看lookdict函数，

当更新字典时会去寻找合适的hashtable位置，调用的就是lookdict函数。

static dictentry * lookdict(dictobject *mp, PyObject *key, register long hash) { register size_t i; register size_t perturb; register dictentry *freeslot; register size_t mask = (size_t)mp->ma_mask; dictentry *ep0 = mp->ma_table; register dictentry *ep; register int cmp; PyObject *startkey; i = (size_t)hash & mask; ep = &ep0[i]; if (ep->me_key == NULL || ep->me_key == key) return ep; if (ep->me_key == dummy) freeslot = ep; else { if (ep->me_hash == hash) { startkey = ep->me_key; cmp = PyObject_RichCompareBool(startkey, key, Py_EQ); //比较key的值 if (cmp < 0) return NULL; if (ep0 == mp->ma_table && ep->me_key == startkey) { if (cmp > 0) //只有key相等才会返回已有的位置，否则会寻找一个新的位置 return ep; } else { /* The compare did major nasty stuff to the * dict: start over. * XXX A clever adversary could prevent this * XXX from terminating. */ return lookdict(mp, key, hash); } } freeslot = NULL; }

上面是lookdict的部分源码(最后没有大括号)，如上代码注释，原来只有hash值一样且key值相等才有更新。那么这就好办了，定义__eq__方法即可：

class B: def __init__(self,name): self.name=name def __hash__(self): return hash(self.name) def __eq__(self,r): if self.name == r.name: return True else: return False d={} b1=B('skycrab') b2=B('skycrab1') d[b1]=1 d[b2]=2 b2.name='skycrab' d[b2]=3 print d

这下结果终于符合期望了，{<main.B instance at 0x025F2620>: 2, <main.B instance at 0x025F25F8>: 3}

这里我们扩展一下，python中的dict默认采用hash_map的存储结构，所以查找效率很高，但hash_map的查找效率不稳定。

hash_map的时间复杂度在O(1)-O(N)，而基于树结构的map时间复杂度O(logN)，比较稳定。

所以在C++中使用hash_map还是map是有考究的，具体可以看看【C++对话系列-产生真正的hash对象】一节。

专利

最新回复(0)