在上一章中,我们看过了HashMap的结构,并了解了其用于储存数据的两个基本的数据结构,那么这一篇文章中就可以来具体地看一看一些具体的方法了。
首先,我们来看一看HashMap的成员变量:
public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable { private static final long serialVersionUID = 362498820763181265L; static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16 static final int MAXIMUM_CAPACITY = 1 << 30; static final float DEFAULT_LOAD_FACTOR = 0.75f; static final int TREEIFY_THRESHOLD = 8; static final int UNTREEIFY_THRESHOLD = 6; static final int MIN_TREEIFY_CAPACITY = 64; transient Node<K,V>[] table; transient Set<Map.Entry<K,V>> entrySet; // size表示HashMap中存放KV的数量(为链表和树中的KV的总和)。 transient int size; //对HashMap 内容的修改都将增加这个值,在迭代器初始化过程中会将这个值赋给迭代器的 expectedModCount。在迭代过程中,判断 modCount 跟 expectedModCount 是否相等,如果不相等就表示已经有其他线程修改了 Map。 //没有使用volatile声明,是为了避免过度设计,因为HashMap作为一个非线程安全的类,并没有提供任何保证,因此无需付出高昂的代价来保证线程安全。换句话说,在线程不安全的环境下使用HashMap,本身就是不合理的。 transient int modCount; // threshold表示当HashMap的size大于threshold时会执行resize操作。 int threshold; final float loadFactor;看到这里有这么多的变量,没有关系,后面需要用到的时候会具体地讲。
之后,来看一下第一个构造方法,也是最基础的构造方法,因为其它签名的构造方法大多要调用这个方法:
public HashMap(int initialCapacity, float loadFactor) { if (initialCapacity < 0) throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity); if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; if (loadFactor <= 0 || Float.isNaN(loadFactor)) throw new IllegalArgumentException("Illegal load factor: " + loadFactor); this.loadFactor = loadFactor; this.threshold = tableSizeFor(initialCapacity); } // 返回大于输入参数且最近的2的整数次幂的数 static final int tableSizeFor(int cap) { int n = cap - 1; n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16; return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; }输入的两个参数分别为初始容量与装载因子,初始容量很好理解,而loadFactor为装载因子,用来衡量HashMap“满”的程度。loadFactor的默认值为0.75f。计算HashMap的实时装载因子的方法为:size/capacity,而不是占用桶的数量去除以capacity。
构造函数中,首先判断输入的初始容量是否大于常量MAXIMUM_CAPACITY,即2的30次方,若大于,则取MAXIMUM_CAPACITY,若小于,则取输入的参数。这里为什么要取2的30次方呢?是因为,如前面所说,HashMap的第一层为数组,而数组是以int为下标的,而int是32位的,去除一个符号位之后,剩余31位,又因为HashMap的容量必须为2的整数次幂(后面会讲到),因此能放入的最大的容量为2的30次幂。
之后,判断输入的装载因子是否符合要求,若符合要求,则将成员变量中的装载因子赋为输入的值。
之后的操作为对threshold进行赋值,threshold表示当HashMap的size大于threshold时会执行resize操作,即进行扩容。而对于threshold赋的值是通过方法tableSizeFor得到的,这个方法的作用为找到大于或等于输入的参数的最小的2的幂。因此,对于threshold的初值的设定为不小于初始容量的最小的2的幂。
接下来的两个构造方法就相对比较简单了:
public HashMap(int initialCapacity) { this(initialCapacity, DEFAULT_LOAD_FACTOR); } public HashMap() { this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted }其中的操作较少,而下面的这个构造方法为将其它Map的对象中的元素放入其中并构造出新的HashMap对象的方法:
public HashMap(Map<? extends K, ? extends V> m) { this.loadFactor = DEFAULT_LOAD_FACTOR; putMapEntries(m, false); } final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) { int s = m.size(); if (s > 0) { if (table == null) { // pre-size float ft = ((float)s / loadFactor) + 1.0F; int t = ((ft < (float)MAXIMUM_CAPACITY) ? (int)ft : MAXIMUM_CAPACITY); if (t > threshold) threshold = tableSizeFor(t); } else if (s > threshold) resize(); for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) { K key = e.getKey(); V value = e.getValue(); putVal(hash(key), key, value, false, evict); } } }可以看到,当putMapEntries用在构造函数中时,table肯定为null,因此会首先用输入的m的size除以设定的装载因子再加1,再用上面所提到的tableSizeFor得到threshold,之后再通过遍历将m的entrySet中的每个entry通过putVal方法放入本HashMap对象中,这个方法的操作我们后面会在讲put的时候具体介绍。
在这一节中我们会讲解get相关的方法
在这之前,把两个比较简单的实现先贴出来:
public int size() { return size; } public boolean isEmpty() { return size == 0; }接下来就是一个重头戏了,就是HashMap中的get方法:
public V get(Object key) { Node<K,V> e; return (e = getNode(hash(key), key)) == null ? null : e.value; } final Node<K,V> getNode(int hash, Object key) { Node<K,V>[] tab; Node<K,V> first, e; int n; K k; if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1) & hash]) != null) { if (first.hash == hash && // always check first node ((k = first.key) == key || (key != null && key.equals(k)))) return first; if ((e = first.next) != null) { if (first instanceof TreeNode) return ((TreeNode<K,V>)first).getTreeNode(hash, key); do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } while ((e = e.next) != null); } } return null; }可以看到,get(Object key)方法是依赖getNode(int hash, Object key)方法来实现的,因此,我们先来详细分析一下getNode(int hash, Object key)方法。
getNode有两个输入的参数,分别是键的哈希值与键本身。在方法中首先取出类对象的成员变量table赋值给方法变量tab,判断tab的长度(赋给n)是否大于0,之后将输入的键的哈希值与(n - 1)的与运算的结果作为数组中的下标取出这个位置所储存的链表的头节点。
这里之所以用(n - 1)来计算,我们在前面提到过,HashMap里使用2的整数次幂来作为长度,因此在二进制下,n - 1中为后k位(其中k = logn)全为1的一个数字,与这样一个数字求与运算,相当于取出哈希值的后k位,这也是前面所说取2的幂作为长度的一个原因。
取出头节点后,若头节点不为空,则先判断头节点是否是我们需要取的节点,判断方法为,使用我们输入的第二个参数,即键本身来判断两者是否相等,若相等则返回,若不相等,则用遍历链表的方式,不断比较链表中的每个节点。当然,这里判断相等的方式有两种,一种是直接用==来判断,一种是用euqals()方法来判断。
还有一点需要注意的是,在判断完头节点,要遍历之后的节点时,先判断头节点的类型,是否为一个TreeNode,这个TreeNode类我们在前一篇文章中已经将结果,是作为红黑树的数据节点的类,因此,若节点的类型为TreeNode,说明这个链表已经转换为了一棵红黑树,之后应该用红黑树中的方法getTreeNode来进行get的操作,而不是遍历链表的方法。
在查找完之后(遍历链表或者红黑树),若仍没有找到所需的元素,则返回null,而get中,若通过getNode找到了所需元素的节点,则将这个节点的值作为结果返回,否则返回null。
以上就是HashMap中的get的具体实现了。次外,还有一个方法是基于get来实现的,就是containsKey(Object key)方法:
public boolean containsKey(Object key) { return getNode(hash(key), key) != null; }与get方法类似,put是依赖putVal方法来实现的。
putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict)方法的参数较多,分别是要插入元素的哈希值,键的值,元素的值,是否不改变已存在的值的标志位,与是否删除链表头节点的标志位(后两者在put中调用时均置为false)。
在putVal中,首先也是取出成员变量table,若为空或长度为0则调用resize()方法重置大小。之后判断其所在的桶(找下标的方式与get中相同)是否为空,若为空,则新建一个节点。
若桶中不为空,则先判断要插入的元素的键与头节点是否相等(哈希值相等,键相等-键相等即其值相同或调用equals方法判断相等),则找到了该节点,赋给e等待进一步的处理,若不相等,再通过头节点的类型是不是TreeNode来判断当前桶内是一个链表还是一棵红黑树,若是红黑树,则通过红黑树的putTreeVal方法来找到应该插入的位置e,若是一个链表,则从头节点不断向后遍历,若找到了一个相等(判断方法同上)的节点,则将这个节点赋给e,若没有找到一个相等的节点,则创建一个新的节点,将新的节点赋给e。这里要注意的一句是:if (binCount >= TREEIFY_THRESHOLD - 1),即如果当前桶内的节点的数量达到了8(binCount从0开始计数,因此到7),则会将这个链表转换成一棵红黑树,这也是Java8中的对于效率的一个改进。
通过以上的操作,我们找到了应该放入元素的位置e,接下来,首先将其原值取出,作为oldValue用于返回,之后若标志位onlyIfAbsent不为真,则将其值赋为要修改的新值。之后执行的afterNodeAccess方法是为了继承HashMap的LinkedHashMap类服务的,此处暂且不多加叙述。之后返回旧值。
在完成以上几步之后,若找到的桶不为空且找到了键所对应的原节点,则更新完原节点之后,便直接返回了,但是其它情况下,还要有一些继续的操作,首先是将modCount自增一次,这个变量是用于HashMap的快速失败机制的,对HashMap 内容的修改将增加这个值,在迭代器初始化过程中会将这个值赋给迭代器的 expectedModCount。在迭代过程中,判断 modCount 跟 expectedModCount 是否相等,如果不相等就表示已经有其他线程修改了 Map。
之后,将size自增一次,并与threshold比较,若大于threshold,则扩容一次,扩容的方法在下一节中会详细讲解。
以上代码就是HashMap中的扩容的方法了,首先将数组table取出,并取出其原先的容量oldCap与原先的扩容阈值oldThr,若原先的容量大于0,如果大于MAXIMUM_CAPACITY,则将阈值设为MAXIMUM_CAPACITY,数组则不变,若小于MAXIMUM_CAPACITY,则设置新的容量newCap为oldCap的两倍(靠左移来实现),此时,若新的容量小于MAXIMUM_CAPACITY且老的容量大于等于设定的初始容量,则将新阈值newThr也扩大为原阈值的两倍。
若原容量为0,但是原阈值大于0,则将新容量设为原阈值。若原阈值也为0,则将新容量与新阈值都进行初始化。
以上步骤为设定新的容量与阈值大小的过程,也就是说,到目前,我们已经找到了新的容量与阈值,接下来就是根据这些数据来进行操作了。
首先将新的阈值newThr更新到成员变量threshold中,之后根据新的容量newCap为长度创建出新的容器数组newTab,并将成员变量table指向这个新的数组。之后就是遍历老的数组oldTab将所有值赋给newTab了。
这篇文章的最后呢,就来一起看一下HashMap中的remove方法。
与前面几个操作类似,这里依然是把具体实现的方法拆分出来,然后调用这个具体的方法removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable)来实现。
如果详细地看过了前面几个方法的讲解,这里应该也相对容易了,流程也是先取出数组table,然后用数组的长度减1去与键的哈希值作为数组下标找到索要找的桶,在桶中取出头节点,先判断头节点是否是我们要删除的节点,若是,则放入node中作为记录以备后续处理,若不是,则判断头节点是不是红黑树节点,若属于红黑树节点类型,则按照红黑树的方式去进行操作,将找到的节点放入node中,若不是红黑树节点,则是一个链表的节点,接下来就不断地用do-while语句去取next,若找到了索要删除的节点,则放入node中。
之后,若找到了node,如果node是一个红黑树的节点,则按照红黑树的方法来删除这个节点,如果不是红黑树的节点,则属于链表节点,如果node == p说明要删除的节点为桶中的头节点,将node的next赋给桶作为新的头节点即可,否则,将前一个节点p的next指向node的next即可。