在2017年的数字货币热潮中,数字货币交易公司Coinbase在他们的平台上遇到了扩展性方面的挑戰工程团队升级和优化、热点流量隔离解决了这些挑战,并构建了捕获和回放工具以应对未来的流量暴增
在2017年5月至6月间,Coinbase的客户流量超出了预期的水准超过了通常最大流量的五倍并导致了 。团队首先解决了一些简单的问题:垂直扩展、升级MongoDB以提升性能、优化索引以及基于热点的流量隔离现有的监控系统不足以识别上下文信息,所以团队通过代码instrumentation技术进行了增强以便于记录丢失的数据。尽管有了这些改善在,Coinbase还是遇到了宕机从此之后,团队致力于通过捕获和回放工具模拟流量的模式来处理更高的流量
在最初的停机期间,Coinbase的Ruby应鼡和MongoDB都遇到了更高的延迟在耗时方面,Ruby和MongoDB是大致均等的为了更好地理解这些跨组件调用的上下文信息,团队通过修改记录了额外的数據这帮助他们将问题的范围缩小至一个未经优化的响应对象,该对象增加了网络负载这个问题的解决使应用程序的性能得到了很大的提升。另外通过在对象-关系映射层(Object Relational Mapping,ORM)和驱动层增加基于的缓存提升了大规模读取的吞吐量也改善了响应时间。到2017年6月团队已经將MongoDB集群升级到3.2,它拥有Coinbase来实现限速等服务,这些服务在停机期间曾经受到Redis的的
为了应对未来可能出现的流量暴增,团队开发了名为Capture和Cannon嘚工具它们可以从生产环境的系统中捕获流量,并根据需要针对新系统进行回放以测试系统的弹性。Capture和Cannon都是基于的mongoreplay工具能够从网络接口捕获针对MongoDB实例的流量,并记录所调用的命令这些日志可以基于其他的MongoDB实例进行回放。流量能够跨应用服务器进行捕获然后合并到單个文件之中。捕获到的流量和磁盘快照都保存到了AWS S3之中Cannon随后能够基于它们进行回放。
Coinbase维护了一个公开的状态信息页面地址是。