手底下带队伍干活,最怕的就是那种所谓的“联合行动”。说得好听是协同作战,实际上十次有九次是互相拖后腿,搞得一团糟。我不是没吃过亏,早几年因为一次大型的系统升级和数据迁移,差点把我手底下最得力的一个兄弟给累垮了,那次经历,真可以用“血的教训”来形容。
第一次联合行动,我们是怎么搞砸的
那会儿,公司要推一个全新的用户认证系统,必须在三天内上线。任务量大到爆炸,必须拉上外部供应商的团队一起干。他们的团队负责老数据的清洗和接口,我们的团队负责新的核心逻辑和部署。领导拍板了,说这是“联合突袭”,要求我们高度配合,快速落地。听着挺燃,但实际操作起来,简直就是一场闹剧。
我们压根儿就没坐下来好好定个章程。双方都觉得自己这边的活儿最急最重要,各自在自己的地盘上闷头猛冲。外部团队说他们接口好了,扔给我们一个包,我们接上跑起来发现,数据格式全对不上。我们喊停,他们说数据是按他们老系统规范来的,你们自己改。来来回回,光是扯皮确认谁负责转换这个环节,就浪费了整整五个小时。五个小时!这要是在战场上,人早没了。
到了深夜两点,正式开始部署。两边的人都在一个大群里吼着进度,没人知道现在究竟是哪一步出了问题,只知道系统卡死了。我的兄弟小李,他负责的环境校验,他告诉我,他根本不知道外部团队在生产环境上跑了哪些脚本。我们这边刚把防火墙配置打开,他们那边就偷偷把一个老旧的缓存服务给重启了,结果导致整个认证流程雪崩。当场我们就“阵亡”了好几个人,包括小李,直接被巨大的压力搞到胃痉挛,送去了医院。
那次突袭,是拖了整整一周才勉强上线。我当时就决定了,再搞这种联合行动,必须把规矩立得比天还大。我们不是要配合,而是要控制。
总结教训:降低“伤亡”的三个铁律
小李住院后,我回去把整个过程复盘了一遍。联合突袭行动,危险性不是来自任务本身,而是来自不明确的边界和责任。我们吸取教训,形成了三条铁律,从此以后,每次联合行动,都严格执行,效果立竿见影,再也没出过大岔子。
- 第一点:必须指定“总指挥官”,且权力不能分散。
无论是内外部,只能有一个人来做最终的决定,这个人不是级别最高的领导,而是对具体执行流程最了解的人。他负责喊“停”,也负责喊“开始”。所有行动必须通过他下发,杜绝两个人同时修改一个配置的风险。我们现在管这个人叫“行动总控”,他只负责看表、看进度、协调资源,不参与具体编码或操作。
- 第二点:划定“行动边界”和“观察哨”。
联合行动最危险的就是相互侵入对方的区域。我们明确了,外部团队负责的模块,我们绝对不碰;我们负责的核心系统,他们只允许通过特定的接口进来。更重要的是,在每个关键的衔接点,我们安排了“观察哨”,这些人不干活,只负责记录数据、检查日志、确认边界是否清晰。一旦观察哨发现边界模糊或越界操作,立即拉响警报,马上停止行动。
- 第三点:先演习,再实战,把失败变成常态。
我们现在每次搞大型联合行动,都要先跑一遍全流程的“沙盘推演”。不是走形式的开会,是真的模拟生产环境,模拟数据失败,模拟接口超时。我要求大家把所有的可能失败点都记录下来,并且对这些失败点进行“治疗”。我们发现,越是在演习中暴露问题,实战时的伤亡就越低。提前经历失败,远比在真实部署时硬抗要安全得多。
说白了,联合突袭行动要降低危险,靠的不是更高的技术,而是最基本的流程纪律和明确的责任制。不要相信什么“高度配合”这种虚头巴脑的话,把流程定死,把人管住,把边界划清楚,安全自然就来了。
