别再踩 ConcurrentHashMap 的坑！阿里重写 HashMap 的真相，开发必看

咱们做互联网开发的，谁没在高并发场景下用过 ConcurrentHashMap？之前我一直觉得它是 “线程安全的万能容器”，直到上周排查线上故障时才发现，它在某些场景下居然会成为性能杀手 —— 就像阿里面试官问的那句灵魂拷问：“你知道为什么我们要重写 HashMap 吗？JDK 的 ConcurrentHashMap 哪里不够用？” 今天咱们就从实际问题出发，把这件事讲透，后来再遇到类似场景，咱们也能精准避坑。

先说说咱们都可能遇到的坑：ConcurrentHashMap 的 “隐形” 问题

不知道你有没有过这样的经历：项目上线初期，用 ConcurrentHashMap 存缓存、存配置，一切都好好的；可随着数据量增长、并发量提升，问题突然就冒出来了。我前段时间就碰到两个典型情况，估计不少同学也踩过。

第一个是热点数据访问的坑。我们项目里用 ConcurrentHashMap 存用户画像缓存，大致有上千万条数据，代码写得很 “常规”：

private final ConcurrentHashMap<String, UserProfile> userCache = 
    new ConcurrentHashMap<>(10_000_000);

public UserProfile getUserProfile(String userId) {
    return userCache.computeIfAbsent(userId, this::loadFromDB);
}

结果呢？部分热门用户的访问量特别大，直接导致对应的 hash 桶链表长度飙到上百个节点，每次查数据都要遍历老长的链表，P99 延迟从几十毫秒涨到了 100 多毫秒，用户那边都开始反馈加载慢了。

更头疼的是内存和 GC 的坑。另一个项目用 ConcurrentHashMap 存配置信息，每次更新配置就调用 put 方法，代码看着没毛病：

private final ConcurrentHashMap<String, String> configMap = 
    new ConcurrentHashMap<>();

public void updateConfig(String key, String value) {
    configMap.put(key, value); 
}

可后来用 JProfiler 监控发现，这玩意儿初始容量才 16，负载因子 0.75，配置一多就频繁扩容，每次扩容还要把所有元素重新 hash 一遍。老年代内存碎片化越来越严重，Full GC 的停顿时间从正常的 50ms，直接飙升到 2 秒！要知道咱们做互联网服务，2 秒的 GC 停顿足以导致大量请求超时，这可不是小事。

实则不止我，身边不少做高并发开发的同事都遇到过类似问题。这时候咱们就该琢磨了：为什么平时好用的 ConcurrentHashMap，到了大数据、高并发场景就掉链子？

扒一扒背后的缘由：JDK ConcurrentHashMap 的 “先天局限”

要搞清楚这个问题，咱们得先从 ConcurrentHashMap 的底层逻辑说起，不是要讲多复杂的源码，而是搞清楚它的设计思路和咱们业务场景的矛盾点在哪里。

第一是扩容机制的问题。JDK 里的 ConcurrentHashMap，不管是 1.8 之前的分段锁版本，还是 1.8 之后的 CAS+synchronized 版本，扩容的时候都要 “全量 rehash”—— 也就是说，一旦触发扩容，要把所有已有的元素重新计算 hash 值，放到新的数组里。咱们平时数据量小的时候，这点开销看不出来；可要是像阿里那样，单机存上亿条数据，全量 rehash 一次要花多久？期间服务的响应速度肯定受影响，这对要求 “99.9% 请求 < 10ms” 的业务来说，根本没法接受。

然后是内存布局的问题。ConcurrentHashMap 里的 Node 节点，除了 key、value、hash 值这些核心数据，还有 next 指针、volatile 修饰的 value 等额外字段。看起来每个节点多占点内存不算啥，但数据量到了千万、亿级的时候，这些 “额外开销” 加起来就很夸张了。而且它的初始容量和扩容策略是固定的，没法根据咱们的业务数据量灵活调整，很容易出现 “存少了频繁扩容，存多了浪费空间” 的尴尬局面，这也是导致内存碎片化、GC 压力大的重大缘由。

最后是热点访问的问题。ConcurrentHashMap 虽然能保证线程安全，但没法解决 “热点 key” 的问题。就像我之前遇到的用户画像缓存场景，某个热门用户的 userId 对应的 hash 桶，会被成千上万的请求同时访问，就算没有线程安全问题，链表（或红黑树）的查询效率也会骤降，这就是咱们常说的 “hash 冲突风暴”，而 JDK 原生的实现里，并没有针对这种场景的优化方案。

说白了，JDK 的 ConcurrentHashMap 是为 “通用场景” 设计的，能满足大部分中小规模的并发需求；可到了阿里那种 “亿级数据、百万 QPS” 的极端场景，它的这些 “先天局限” 就被无限放大，这也是阿里要重写 HashMap 的核心缘由 —— 不是原生的不好，而是咱们的业务场景超出了它的设计预期。

学一学阿里的解决方案：3 个可落地的优化思路

阿里重写 HashMap 不是 “炫技”，而是实打实解决问题，而且他们的优化思路咱们普通开发也能借鉴，今天就挑 3 个最实用的跟大家说说，看完就能试着在项目里用。

第一个是 “分段锁的进化版”，解决全局锁的问题。咱们知道 JDK 1.8 之前的 ConcurrentHashMap 用分段锁，每个段独立加锁，但段的数量是固定的；阿里则做了更灵活的分段策略，列如根据 key 的 hash 值，把数据分到不同的 “Segment” 里，每个 Segment 不仅能独立加锁，还能独立扩容 —— 也就是说，扩容的时候不用动所有数据，只扩某个 Segment 就行，大大降低了对服务的影响。咱们自己写高并发容器的时候，也能借鉴这个思路，列如：

public class SegmentedHashMap<K, V> {
    private final Segment<K, V>[] segments;
    private final int segmentMask;
  
    public V put(K key, V value) {
        int hash = hash(key);
        // 计算该key属于哪个Segment
        int segIndex = (hash >>> 28) & segmentMask;
        // 只对当前Segment操作，不影响其他Segment
        return segments[segIndex].put(key, value, hash);
    }
  
    static class Segment<K, V> {
        private volatile HashEntry<K, V>[] table;
        // 每个Segment独立扩容
        public void resize() { /* 只扩容当前Segment的table */ }
    }
}

这样一来，就算某个 Segment 在扩容，其他 Segment 照样能正常读写，服务的可用性就高多了。

第二个是 “内存预分配策略”，解决频繁扩容的问题。咱们平时用 ConcurrentHashMap，很容易忽略初始容量的设置，默认 16 的容量，数据一多就频繁扩容；阿里则根据业务场景 “预估容量”，列如知道要存 100 万条数据，就提前计算好合适的初始容量，避免扩容。他们甚至封装了专门的类，列如：

public class PreSizedConcurrentMap<K, V> extends ConcurrentHashMap<K, V> {
    public PreSizedConcurrentMap(int expectedSize, float loadFactor) {
        // 计算刚好能装下expectedSize条数据的初始容量
        super(calculateInitialCapacity(expectedSize, loadFactor), loadFactor);
    }
  
    private static int calculateInitialCapacity(int expected, float lf) {
        return (int) Math.ceil(expected / lf);
    }
}

咱们自己用的时候，也别再写new ConcurrentHashMap<>()了，先估算一下业务数据量，列如要存 50 万条配置，就设置初始容量为(int)(500000 / 0.75) ≈ 666667，这样能少走许多扩容的弯路，内存碎片化和 GC 压力也会小许多。

第三个是 “渐进式扩容”，解决扩容耗时的问题。这是阿里优化里最关键的一点 —— 不再 “一次性扩完所有数据”，而是 “每次操作迁移一点数据”。列如在 get、put 的时候，先查新表，再查旧表，查到旧表数据的时候，顺便把这个数据迁移到新表，慢慢把旧表的数据移完。核心逻辑大致是这样：

public class ProgressiveHashMap<K, V> {
    private volatile Table<K, V> oldTable;
    private volatile Table<K, V> newTable;
    // 记录当前迁移到哪个索引了
    private final AtomicInteger migrationIndex = new AtomicInteger(0);
  
    public V get(K key) {
        // 先查新表，新表有就直接返回
        V value = newTable.get(key);
        if (value == null && oldTable != null) {
            // 新表没有查旧表
            value = oldTable.get(key);
            // 顺便迁移一个bucket的数据到新表
            migrateBucket();
        }
        return value;
    }
  
    private void migrateBucket() {
        int index = migrationIndex.getAndIncrement();
        // 迁移oldTable中index位置的bucket到新表
        if (index < oldTable.size()) {
            /* 迁移逻辑 */
        }
    }
}

这样一来，扩容的成本被分摊到每次读写操作里，用户完全感知不到，服务的延迟也就稳定了。咱们要是在项目里遇到类似的扩容问题，也能试试这种 “化整为零” 的思路。

最后总结：技术选型要跟着业务走

讲完阿里的优化方案，咱们再回到最开始的问题：为什么阿里要重写 HashMap？实则核心就一句话：脱离业务谈技术，都是耍流氓。

JDK 的 ConcurrentHashMap 很好，但它的设计目标是 “通用”，没法覆盖所有场景；而阿里的业务特点是 “超大规模、高并发、低延迟”，原生组件满足不了，才会去定制优化。咱们做开发也是一样，别看到别人用某个技术就跟着用，也别觉得 “原生的必定好”，关键是要看自己的业务场景：数据量有多大？并发量有多高？对延迟有什么要求？想清楚这些，再去选技术、做优化，才不会走弯路。

列如我之前在项目里，学阿里的思路做了个 “分层缓存”：把热点数据和冷数据分开存，热点数据用小容量、高负载因子的 ConcurrentHashMap，冷数据用大容量、正常负载因子的，优化后 P99 延迟从 120ms 降到 15ms，内存用得还少了 30%。实则也不是多复杂的技术，就是把 “业务场景” 和 “技术特性” 匹配上了而已。

最后想跟大家说，咱们做技术的，既要懂源码、懂原理，更要懂业务。后来再有人问你 “为什么不用原生的 ConcurrentHashMap”，别直接说 “不好用”，而是先问 “你的业务场景是什么？”—— 这才是咱们开发该有的思考方式。

如果你在项目里也遇到过 ConcurrentHashMap 的坑，或者有其他高并发容器的优化思路，欢迎在评论区分享，咱们一起交流学习，把技术做得更扎实！

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END