前言
最近在Clubhouse上参与一个《Designing Data-Intensive Application》(后文略称DDIA)的读书讨论。最直观的感受是输入加输出才是最好的学习模式,之前光是凭借阅读的输入,书上的东西的确是学到了,但是因为没有相应的实践机会来刷新这些知识,过一段时间就模糊不清了。所以想着借着这个机会重新开始更新博客(距离上一次更新似乎已经快一年了),一个是通过写写东西帮自己加深理解,另外是希望有机会通过讨论来进一步迭代。
前几天聊到DDIA中的batch processing章节,这章我之前看的时候是略过的(因为觉得对MapReduce模型派生出的batch processing已经相对了解了),这次完整看下来觉得还是很有帮助,特别是后一部分提到了dataflow model。而在我之前对《Streaming Systems》(后文略称SS)的理解里,只是把dataflow作为流处理的一个抽象模型。这次重新把Google Dataflow论文和SS过了一遍,有了一些新的理解。