我在华为当“名侦探柯南”,工作就像一部刺激的侦探小说

admin2024年05月19日 05:42:24
阅读:
标签: 华为 鲲鹏 项目 客户
分享:

2019年12月23日,刚告别炎炎夏日的墨尔本,我就飞到了深圳参加了NEO(新员工入职引导培训),正式成为华为的一员。


▲毕业时的我
 
  逢年过节,我的老家小伙伴们聚会,总有人问我在华为这么高大上的公司究竟是做什么的呢?我的脑海里瞬间闪过各种晦涩难懂的术语和专业词汇,怎么说呢,我的工作就像一部刺激的侦探小说,如服务器集群突然断网,OS(操作系统)概率性卡死等问题就是一个个高智商犯罪现场;而我,就会化身“名侦探柯南”,识别罪魁祸首,细致调查根因,迅速解决问题,最后推一推眼镜,淡定宣告——“真相只有一个!”
 
  2019年12月23日,刚告别炎炎夏日的墨尔本,我就飞到了深圳参加了NEO(新员工入职引导培训),正式成为华为的一员。
 
  看似简单的“入华”之路可并不简单,还记得在学校申请Self-sourced Internship(自找项目申请实习)时,负责审批的人多次以学生安全为由拒绝我申请一家小公司,却一直强调要找像华为一样的公司才能保证我的安全。碰巧那时华为在墨尔本大学展开了一场猛烈的招聘会,我懵懂地参加了面试,没想到就这样走进了华为。从此,我的人生走向了一处全新的领域,成为了华为鲲鹏计算维护工程师中的一员!
 
  刚加入鲲鹏计算维护项目群后,我对部门的一切都感到很新鲜。好奇的我搜了下部门在3ms(内网)的社区资料,资料非常全,主要都是电源、RAID卡、电路图的东西。再加上脑海中对“维护”的印象就是“线下电脑维修门店里的工程师”,于是我一度以为我这个软件工程专业里最“软”的人要去上门修电脑了,脑海里已经浮现出了拿着螺丝刀在项目现场拆开机箱换内存的场景。
 
  到部门报到后的第三天,PL(团队主管)和导师把我叫去展开了第一次沟通。“我们组的工作是面向鲲鹏的解决方案维护。至于鲲鹏,可能你只是听过一些,这可是我们计算产业的重量级品牌,这一阵子相信你也看了不少资料,跟你沟通一下做鲲鹏中云和虚拟化方向的解决方案维护吧。”
 
  “那,我不用修电脑、焊板子了是吧?”我小心翼翼地说道。
 
  PL和导师相互默默对视一眼,忍俊不禁,让我放心。我长舒一口气,原来还是做软件相关的东西,太好了!
 
  萌新闯祸记
 
  不知道是不是冥冥之中的缘分,在学生时代我就很喜欢帮助朋友定位问题,记得之前有一家数据库公司在我们那儿开课,课程实践是安装并使用数据库编程,但在实践过程中经常遇到数据库安装失败,或者安装后服务运行不起来的问题,令人头疼不已。我决定把这些问题“扼杀在摇篮”里,花了一个晚上梳理出常见的定位手段,包括监听端口是否拉起,网络抓包,后台进程监控等,效果显著。第二天,朋友们挨个拿着笔记本,排队让我帮忙修复环境,那种感觉实在是很有成就感。
 
  带着这份学生时期的兴趣爱好和小技能走进工作,原以为会稍微顺利一些,没想到现实直接给我上了难忘的一课,进华为处理的第一个问题就足以让我“铭记此生”。
 
  当时,有一个小型的项目问题需要处理,PL指派我去完成,也算是我的第一个历练吧。目标是验证openstack(开源云计算项目)在华为鲲鹏服务器产品上的适配。具体就是将openstack软件部署在鲲鹏服务器上,以服务和客户操作的角度,验证开发同事提供的迁移移植文档是否易用,是否有需要修改的地方。
 
  这次项目验证比较简单,我便在实验室的机器上进行部署。但很快,验证工作就遇到了拦路虎--“证书错误”,再来一次,还是“证书错误”……
 
  开源方案的部署避免不了需要外网连接,否则配置离线安装会很麻烦,但实验室环境是挂代理走的proxy服务器,导致“https”的下载链接总是会报证书错误。
 
  “哎,将小网的服务器IP配置成大网IP,不就解决了么?”为了规避代理造成的证书不一致问题,我想到可以利用在学校里学到的网络知识解决,于是直接就把跳转机(连接内部网络的网关服务器)上的两个网口配置了桥接。这下可好,跳转机顿时没反应了,而我还以为只是卡住,过会儿就好了,不慌不忙地起身去打了一杯水。
 
  “跳转机连不上了!”
 
  “+1,连不上了,做不了问题复现了!”
 
  水还没接完,就看到群里的消息一条接一条地冒出来,大家不知道发生了什么,非常着急地询问。我心里慌了起来,难道是刚刚桥接的操作导致的?我迅速回忆了一遍在学校积累的基础网络知识,“没什么不对啊?”忽然,我意识到,学校的网络都是简单网络,在实际生产环境中桥接动作对网络的影响是什么,我这一块的知识竟然是空白的!
 
  “我做了网卡桥接,可能是这个操作导致的,我马上进行修复,实在抱歉!”
 
  回到工位,我甚至能听到心脏“砰砰”直跳,呼吸都比往时加快了好几倍。我知道,同事们的每一分每一秒都是关键的,我必须马上恢复环境,自己捅的篓子自己要搞定。
 
  按照我平时学习的习惯,遇到问题第一时间在CSDN(中国软件开发网)社区博客上进行索引,这时我迅速找到一个描述“由双网卡绑定引起的惨案”,这篇博客中的案例写道,由于双网卡绑定形成了网络环路,引起广播风暴造成整个网络的崩溃,和我这个案例的情况近乎一致。
 
  原来如此!从案例的介绍来看,确实是由于我之前的桥接操作导致,我二话不说,赶忙冲到实验室,按照博客中的处理方式,进行物理链路和命令配置,恢复了环境。
 
  事后,我专门为这件事做了书面总结,利用下班时间专门补齐了关于网络变更方面的知识,自我反思后明白了工作环境和学校环境是完全不同的,做网络变更一定要有验证方案和事前准备,否则如果这件事发生在客户现网……想到这里,我背后的冷汗都要冒出来了。
 
  经历了这次“闯祸记”,让我对自己的岗位有了更深层次的认知--作为一名专业的维护工程师,在真实的实验室或者现网环境中,每一步操作都必须认真细致,通过不断思考后才能付诸行动,切莫毛躁。
 
  联合作战记
 
  2020年4月,由于组织调整,原来的智能计算部门拆分成了三个新的产品部,之后我接手了其中的Native解决方案技术验证的工作。具体来说,就是打造鲲鹏超高密云手机方案,实现云手机无损兼容百万级现网应用软件,支撑用户构建安全移动办公、终端伴侣等解决方案。在这个解决方案中,我作为研发支撑一线交付工程师,同时要支撑海外某局点的售前演示。
 
  时间转眼到了四月中旬,由于这次客户是韩国NA客户,要求极为严苛,而且项目的最终目的是为了客户全球第一款5G AR项目的上线,意义非同小可。所以客户要求年底就要商用上线,技术方案验证的工作非常着急,五一劳动节后就需要进行方案汇报,十月一号就需要完成初步完成开发,而通过时间排序给我的环境部署时间仅剩不到七天。这次当地代表处也同步找了当地的一家ISV(集成服务提供商)做上层方案的开发。
 
  目标非常远大,虽然我的工作只是其中很基础的一部分,但也是足够让我心潮澎湃。当然,事情总没有一帆风顺的……
 
  “这个显卡为什么无法使能?明明都照着指导书做了的。”一线现场的工程师沮丧地问道。
 
  这位现场的韩国兄弟是我遇到的工程师中“同声翻译”最厉害的,他既担任着现场服务工程师又要兼任中韩语翻译官,这全科能力着实让我佩服不已。我跟他两个人很快就建立起了搭档关系,熟练的中文交流也让我们合作极其顺利。我们不敢怠慢,按照指导书一步一步地搭建服务,甚至把原有的OS格式化重新安装,为的就是保证与指导书环境一致,力争一次搞定。不过事与愿违,还是失败了。
 
  “无法使能,那一定是这几个点有问题,没跑了!”我的大脑飞速转动,拎出几个最有“嫌疑”的点:
 
  是不是服务的进程没有正常运行?
 
  是不是指导书里要求的几个补丁实际上有报错,但我没有注意到?没有成功修改源码?
 
  是不是内核编译不成功?
 
  但挨个尝试后,竟然都没能成功,直到下班时shell(命令行操作软件)界面红色的“fail”就像在嘲笑我一样,那么刺眼。
 
  我较上劲了,再次认真研读指导书的文字,力争从中捕获一点点蛛丝马迹,但看来看去,指导书密密麻麻的文字,都写着--“无解”。
 
  第二天,正当我一筹莫展时,我的PL老大及时出现雪中送炭,帮忙找来两位资深专家和我一起进行问题分析定位。两位专家第一时间就带我一起重新理解了一遍指导书中的部分关键内容,他们判断,问题迟迟无法解决,可能还是因为我对整个应用的架构不熟悉,所以没找到触发的根因是什么。
 
  走读代码后,我从报错的位置正向分析,通过梳理架构,并咨询了专家们相关模块的作用,这时我判断出,应该是由于显卡未能使能,引起连接容器内的会话没有正常启动,导致的业务启动失败。
 
  这下方向开始明朗起来,明确了问题后,我进行了命令配置。配置保存运行的一刹那,远程客户端界面上早就应该出现的LOGO终于正常出现了,这标志着我们本次项目的解决方案正式初测通过。
 
  本次成功的测试结果让韩国客户坚定了信心,通过了以这一关后,项目后续的进展也极为顺利。
 
  这一次联合作战结束后,我在成为“铭侦探”的道路上又成长了许多,收获一枚“破案”小贴士--作为华为工程师,必须具备清晰的思路。定位问题时,只有对全景全局有清晰的认知,做到心中有地图,才能找到方向,最终顺利走出迷宫。
 
  独立作战记
 
  “这个问题在客户那边复现了,二十台服务器的大数据集群,现在非常卡顿,业务全撤了也没有恢复,客户认为是CPU的问题,你们赶紧过来吧!”
 
  七月的一个下午,北京XX互联网公司重大项目组,项目是牵引客户将大数据业务迁移至鲲鹏服务器上,一线同事在给PL(项目主管)的电话中焦急地说道。
 
  “客户集群莫名其妙地在运行七天以后出现卡顿与延迟,系统在外部输入命令2到3秒才有回显,而且将所有业务全部停掉后现象仍然不消失,但重启可完全恢复。”了解到详细情况后,我们感到了棘手,因为极少会遇到这样的问题,现场的服务工程师做完基本排查工作后也是一筹莫展,只能求助于研发的同事。
 
  “让我去吧!”不知道哪里冒出来一股冲劲,我对破解这个罕见的“疑难杂症”感到很兴奋,自告奋勇地跟PL提议道。
 
  PL看着我,似乎眼神中有一些顾虑。毕竟我目前为止还没有独自上过“战场”。但是,灵活的头脑和十足的拼劲却是我的优势,面对这种根因不明,需要系统性定位的工作,经验固然重要,但心态和拼劲也非常关键,而且,是时候轮到我拿起武器上一次真正的“战场”了。我把自己的心态调整到最佳,跃跃欲试准备接受挑战。
 
  PL终于点头,“行,去了以后好好配合客户,我们全力支撑你,有什么需要及时沟通,一切随机应变。”
 
  我接起如此重要的任务,迅速出发了。在机场候机的时候,我开始搜索起公司平台内类似的案例集,这个是我长期定位过程中整理的资源宝库,里面有很多“大牛”曾经的真实案例,我在空闲时间都会经常浏览,也把这些案例的解决思路慢慢积攒在我的脑海中。我坚信破的“案”多了,碰到疑难杂症也自然手到擒来。
 
  到了北京,下了飞机,我直奔客户现场。
 
  “研发同事终于来了!”听到这句心声,再一看客户现场的阵仗和服务同事期待的眼神,我的紧张感瞬间上来了。但此时我既然来了就代表着研发,“镇定,真相只有一个!”我默默安慰着自己。
 
  第一步,从现场信息挖掘“破案”线索。我积极地与现场服务同事沟通,希望获取更多的现场信息,但结果令人失望,从采集环境数据,到CPU、内存、IO(输入输出)、进程等各项指标都是正常的,“一切都正常才是最大的不正常”,我心想,“难道真如客户所猜测的那样,是某些内在问题导致的吗?”
 
  “不可能,一定有哪里我没找到的点。”我很快否认了这个猜测。
 
  对于之前采集的数据,我抱有怀疑态度,一天时间内,我检查了所有现场信息,无论是检查进程、进行多轮IO测试,用性能工具测试等等轮番地毯式搜索检查多遍,令我感到意外的是,结果依然一无所获。
 
  不知不觉天黑了,此时客户已经逐渐失去了耐心,“今天检查的这些,之前都检查过了,你们还是再讨论一下,到底是怎么回事!”
 
  我非常能理解客户的心情,明白如果无法找出问题根因,便无法洗清客户此时对于华为CPU产品的怀疑。可项目用到的这款CPU产品是我们的尖刀产品,经过了内部版本无数次测试的“千锤百炼”,况且现网众多设备已经在网运行了一年多,从未听说有这样的问题,我对自家产品的质量还是很有信心的。“那么到底问题出在哪里?”我心中那根紧张的弦一直绷着,但想要找出真相的欲望也更强烈了。
 
  “写测试程序验证下。”我从自己经验库中想到了一个提高进程运行权限的方法,如今之计,只能向客户申请把测试的进程权限提到最高,如果这个进程还被卡住,那就可能真的是CPU等的硬件问题了。
 
  一夜无眠。
 
  第二天,我们获取了客户的同意,编写了提高进程权限的测试程序,通过提高内核进程的优先级打印时间戳,验证系统卡顿是否与硬件中断相关。好事多磨,最终由客户的工程师进行结果验证,到了晚上,我们终于接到了客户的电话:“测试程序提高权限后,没有再卡住了!我认可你们的观点,硬件没有异常,辛苦你们了。”
 
  大家听到这个消息,终于松了一口气。原本脑海中设想的其他高难度的解决方案终于还是没有派上用场,已经算是最好的结局了。我当时的脑海中还真是没有想太多,最大的念头是--今天肯定能睡个好觉了!
 
  后来,客户还委托产品经理向我们研发的同事们发来了感谢信,也表示了对华为高质量产品与优质服务的认可。看着感谢信中的每一个字,我反复读了无数遍。这短短的百字不仅是几句感谢这么简单,更是对我工作每一分每一秒成果的绝对认可。在其他人眼中可能没什么,属实算是见怪不怪了,但是对我而言,确是一针充满力量的强心针,让我浑身所有的细胞都从疲惫中苏醒而来,带着对未来的憧憬和对客户的敬意继续踏上前方的战场!
 
  结语:
 
  作为一名应届生加入华为计算产品线鲲鹏业务团队,我对未来有无限的憧憬。在我眼里,华为就是一艘正在驶向星辰大海的船舰,而我作为生力军的一员,现在要做的就是深入理解业务,潜心修炼内功,积攒经验打磨技术,为客户提供更好的服务,扬帆起航、乘风破浪。
 
  不仅要做鲲鹏计算的“‘铭’侦探柯南”,更要成为未来鲲鹏计算的精英人才!

 
 
  来源/华为人
  作者/李铭峰
 

注:本文系作者 admin 授权融媒体发表,并经融媒体编辑,转载请注明出处和本文链接

我要围观…
705人参与 36条评论
  • 最热评论
  • 最新评论
加力那24分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

Taso韩先生28分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

加力那28分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

Taso韩先生24分钟前 回复284

就是因为病人多,专家少,你还要抓?如果你是一个专家,一天12小时不吃不喝不上厕所给20个病人看病,可是外面排队的病人有100个。

admin

关注

现专注于互联网行业—公关领域。兴趣广泛,热爱传统文化,以及看书,闲时写些文字等。

  • 17万阅读量
  • 17万文章数
  • 3评论数
作者文章
  • 湖南电气职院师生赴英雄航天员汤洪波家中观看“神舟十七号”返航着陆

  • 拼多多跨界微短剧,能演好这出戏吗?

  • 湖南水电职院在中国国际“互联网+”大学生创新创业大赛中取得新突破

  • 国产数据库实践:亚信安慧AntDB在DTC 2024展示创新实力

  • 583硬派家族+SUPER9跑车,方程豹产品矩阵献礼比亚迪30周年

关于我们 |加入我们 |广告及服务 |提交建议
友情链接
赛迪网 |钛媒体 |虎嗅网 |品途网 |i黑马 |果壳网 |砍柴网 |创业邦 |易观网 |凯恩思 |创业邦 |舆情之家
Copyright©2003-2015 融媒体版权
粤ICP备05052968