“研发体系”这个词,听上去比较抽象,像是一种“PPT”词汇。本文中的“研发体系”并不抽象,而是从一线研发的角度,具体思考研发体系的问题。
背景
首先介绍我个人思考“研发体系”的背景。前两年工作变动,我调整到了一个历史悠久的研发组。刚开始就遇到了核心系统不稳定的问题,所谓历史悠久,是指核心服务的代码时间很久,有很多历史问题,在那段时间集中爆发了。
在解决稳定性问题时,我发现绝大多数问题并不复杂,都是一些小问题,在研发阶段都可以避免,例如请求一个内部web服务,并没有通过域名,而是直接与具体服务的机器名直接连接,轮询请求,在请求时并没有做异常检测,也没有熔断机制,内部web服务一个节点阻塞,或者挂了,直接导致业务服务因为线程池打满而阻塞。看似直连提升的性能,却没有解决直连产生的问题。例如一些服务发布组件给业务调用,并没有做服务化,组件的实现就是直接查数据库,组件依赖复杂,业务接入复杂,服务升级优化困难。这类小问题在服务中多了,时间长了,就会集中爆发。当时令我比较痛苦的并不是解决已有的问题,而是在我解决问题时,新开发的服务也在不断的产生类似的问题。这就会导致子子孙孙无穷尽了。
首先得保证新的服务的开发质量,让新服务不再产生类似的问题,我才能把有限的服务的历史问题解决。进一步说,我得构建一套研发体系,提升团队代码的下限,最理想情况是这个下限是这个团队的平均水平。
最初的研发体系就是提升代码下限问题,所以更多考虑的是研发流程,开发规范,代码评价方式等。随着最近1年多的实践,逐步的完善研发体系的目标,深刻的思考目前的问题,最终形成了目前的一套研发体系。
研发体系目标
提升开发效率,提高服务质量,团队共同成长。
当前问题
很多技术团队,团队的概念更多的是组织概念,仅仅是做一个任务分配的作用,不会涉及到开发流程。导致团队成员各干各的,没有统一标准,开发质量低下,重复造轮子,没有架构设计,代码不可维护,最终留下很多屎山代码。
服务端代码的一个特点是代码得实际评估具有一定的延迟性。服务的质量与实践,规模相关。例如同一个服务,有AB两种设计方案,其中A设计很好,B设计很烂。上线半年或一年之内,规模不大的情况下,没什么区别。时间长了,规模大了,设计A在性能,稳定性,可扩展性方面才能表现出来。而糟糕的设计在1年之后表现出来时,往往开发的人都换了,又留下了一堆屎山代码。
研发体系
构建一套服务端研发体系,大致有以下7个方面:
研发平台
一个团队,尤其是服务端团队,要有一个统一的开发平台。统一的开发平台具有如下优点:
- 统一的环境,方便处理兼容性问题,方便debug。
- 提升代码可读性,code review效率高。
- 便于开发公共解决方案。
- 开发只关注业务逻辑,提升开发效率。
对于服务端来说,需要三种开发平台,即:web服务开发平台,rpc服务开发平台,组件开发平台。web服务开发平台主要做业务功能开发,rpc服务开发平台适合高性能内部服务,组件开发平台作为基础组件开发。
开发平台涉及到构建工具,开发语言,业务框架,启动脚本,目录结构,本地数据解决方案,native库解决方案等。
例如web研发平台的基础环境可以为:jdk11+gradle6+springboot2.2。启动脚本需要统一,支持start,stop,debug等功能,支持自定义参数。至于目录结构,本地数据解决方案,native库解决方案等只要有一个统一的规范即可。
rpc研发平台大多与web研发平台相同,不同点在于启动的服务是rpc服务,不是web服务。这里涉及到两个问题,一个是rpc选型问题,目前成熟的rpc方案有Dubbo,Thrift,Grpc等,最好统一成一种。另一个是服务治理,包括服务注册,发现,负载均衡,监控等等。理想情况下,对开发来说,在业务开发层面,这两种平台没啥区别。
基础组件平台主要涉及模块化方案,兼容性问题,组件打包,组件发布,组件测试,日志规范等,相对于web和rpc,较为简单。
研发流程
切记拍脑门子做事情!
切记着急写代码!
调研
接到需求之后,首先要做一些技术调研,如果有成熟的解决方案,要作为参考,避免重复采坑。
设计
先做一个初步的设计方案,如果功能不大,可以将自己的想法与团队中某个成员沟通一下,给对方讲清楚大致的方案,获得同事认同再继续。
如果是一个比较大的需求,可以申请团队的技术评审,技术评审要提前写好技术评审材料,技术评审中要做会议记录。技术评审的目前不是找出最佳设计,而是找到团队共识的方案。
代码评审
Code Review的目标是什么,如何提升效率。
Code Review阶段目标可以设定为发现明显的设计问题、初级的bug以及风格问题。
提升效率的方法:
- 结对编程,主要的服务必须有两个人负责,一主一副,主为开发,副为review。这样就算人员变动,交接也很方便。
- Code Review申请者要向Review的人把这次的改动说明白,便于Review的人提升效率。
- 统一的研发平台和规范可以提升代码可读性和Code Reveiw效率。
测试
要通过功能测试,性能测试和回归测试。
上线
灰度上线。
另外,需要配置完善的监控、报警。要写文档,包括设计文档,接入文档,接口文档等等。这部分具体内容会在下面具体介绍。
这里单独说一下重构的问题,一定要有设计评审,要达成团队统一方案,切记由于一个人重构导致未来持续重构。
组件管理
开发组件的目的是提升代码复用性,推进公共技术,提升开发效率,提升设计能力。
组件的开发和管理涉及到很多问题。这里介绍一些比较核心的内容:
- 首先要有统一的组件仓库,如果是java可以使用maven,公司内部可以搞一个私服,例如nexus。
- 仓库要具备线上仓库和snapshot仓库,便于组件测试。
- 组件开发要有一套明确的规范,例如兼容性,减少不必要的依赖,测试用例,日志管理,异常管理,接口管理等。
- 组件涉及多模块,要做统一版本处理。
- 组件的测试发布流程。
- 组件的文档规范。
基础设施
基础设施的一个主要目标是稳定,好用,良好的基础设施极大地提升开发效率。
首先对于基础设施,例如mysql,cassandra,mongodb,redis等,要具有一套标准的测试环境,要具有完善的接入文档和运维文档。
要构建提升效率的基础设施,例如配置中心,权限服务,日志服务,统一管理系统,ELK服务等等。
相同类型的基础设施,尽量不要超过两种,减轻运维压力,例如消息队列,搜索服务,注册服务等。
监控报警
良好的研发流程和研发平台可以保证代码的质量,但没法保证线上服务不出问题。从另一个角度看,如果线上出问题时必然,尽量做到:
- 出问题时及时发现。
- 发现问题快速解决。
- 提前发现问题,防患于未然。
metric系统
metric系统分为客户端组件,时序数据库,UI展示等。
客户端组件需要具有高性能,低IO,易用的特点。
时序数据库的开源方案有很多,最好支持集群,聚合等功能。
UI展示层面,可以使用Grafana。
日志服务
日志服务的意思就是把业务服务的日志统一传输到一个日志服务,方便集中的统计,查询。
日志服务的客户端要做到低侵入性,做到非阻塞,高效传输。
API监控
这里的API监控特指从用户端统计的信息,例如app,web。这些信息包括用户到机房的传输信心,更准确。
以上三个服务可以帮助开发提前发现问题,快速排查问题,高效解决为题。
报警系统
优秀的报警系统需要具有如下功能:
- 完善的统计面板,例如成功率,失败率,日志等。
- 丰富的接口配置,例如请求内容支持二进制数据,返回值内容的判断。
- 日志报警,支持业务服务日志级别的报警,例如出现某个日志即报警,或者基于某个日志的频率报警。
- 误报处理,误报多了,就是失去报警的意义。这里主要涉及报警的出发条件以及报警的频率。报警的出发条件支持配置,可以失败率达到一定条件才报警,报警间隔可以随着连续触发的频率而递增。
文档建设
在软件开发过程中,文档无疑是相当重要的。文档涉及到代码的可维护性,技术积累以及团队管理。文档建设的目标是让文档成为团队的核心资产。
文档建设第一地步是搭建一套良好的文档平台。文档平台有很多选择,包括开源和商用,比较推荐ATLASSIAN的Confluence。
要阐明一个误区,文档不是投入时间就能写好的,不同类型的文档有不同的写法,这就涉及到团队文档的规范了。
代码相关的文档有设计文档,接口文档,接入文档等,其中业务服务,基础服务,基础组件的文档标准都是不同的。
技术积累包括技术分享,故障处理,开发入门,技术资源等。
团队管理包括定期总结,会议记录,项目进展等。
文档所包含的内容非常多,不只是以上三个方面,还有技术类的文档,基础服务类的文档,业务类的文档,数据类的文档等等。
团队管理
技术团队中,最核心的资产是人。提升人的能力,也就是提升团队的能力。目前在团队管理方面的经验包括:
团队成员一同成长,利用团队快速成长。
定期沟通,充分沟通。
发挥每个成员的特长,协同完成任务。
每个人要做一些不同类型的工作,不要做一个“螺丝钉”。