澳门新葡亰平台官网-澳门新葡亰平台游戏app 企业概况 使用更接近业务和应用层面的云服务来开发产品是大势所趋,此次故障影响到中国节点上

使用更接近业务和应用层面的云服务来开发产品是大势所趋,此次故障影响到中国节点上

摘要即时通讯云服务商LeanCloud
2016年8月5日因由于缓存集群超负载崩溃,导致即时通讯服务瘫痪30分钟之久!以下消息来自LeanCloud官方:8
月 5 日晚上 7 点 10 分开始,LeanCloud
中国节点上的某一缓存集群因为流量过大,CPU
资源被占满而停止了服务,从而导致数据存储及依赖它的服务(云引擎、推送、实时聊天)出现约半小时的中断,在此期间有部分应用可能会遇到请求无法完成的情况。详细报告如下。故障节点和影响范围只有中国节点出现了问题,受影响的服务与时间段列举如下,其他服务未受到影响。服务名区域受影响时段范围数据存储中国19:10
– 19:41全部不可用云引擎中国19:10 – 19:41全部不可用实时通信中国19:10 –
19:41部分不可用(消息 hook 功能不可用、离线推送延迟)消息推送中国19:10 –
20:02推送大面积延迟统计服务中国19:10 –
20:23全部不可用(数据收集接口关闭)故障时间线19:10:内部监控报警,确认
redis 异常(CPU 资源占满,失去响应)。19:13:redis
机器无法直接重启,开始尝试逐步关停其他服务(依次是推送、聊天推送、云引擎、统计),以降低请求压力。19:41:redis
集群恢复可用,同时数据存储、云引擎和实时通信三个服务开始恢复。20:02:消息推送服务开始恢复,redis
集群运行正常。20:23:成功为统计服务单独搭建 redis
集群,统计服务的数据收集接口开放,新老 redis
集群运行正常。至此所有服务全部恢复。后续措施将该 redis
集群从业务层面进行拆分,小集群化。将 redis
集群进行高可用架构升级,避免单点故障。对集群加强容灾演练,确保异常条件下服务稳定。对于本次故障,我们诚恳地向您道歉。我们将免掉您账户中全部应用在
8 月 5 日当天的所有费用,以表诚意。

摘要即时通讯云服务商LeanCloud 和
腾讯云团队经过数月的共同努力与紧密合作,为腾讯云用户打造的
腾讯云移动开发解决方案
正式发布了。以下消息来自LeeanCloud官方:我们很高兴地宣布 LeanCloud
和腾讯云团队经过数月的共同努力与紧密合作,为腾讯云用户打造的腾讯云移动开发解决方案正式发布了。该解决方案能够显著地降低开发难度和成本,加快移动应用、智能硬件、智能家居、SaaS
服务等各类产品的开发进程,大大缩短产品的上市时间(time-to-market)。腾讯云移动开发解决方案提供了数据存储、云引擎、实时通信、推送通知、数据统计等诸多服务,每项服务均在腾讯云的基础设施之上由
LeanCloud
的技术提供。使用更接近业务和应用层面的云服务来开发产品是大势所趋。随着
Apple 和 Google 分别在各自的生态圈大力推动 CloudKit 和 Firebase
的发展,AWS 也推出了 Lambda 和 API Gateway
等更高层的服务以顺应无服务器架构(Serverless
Architecture)的发展趋势。LeanCloud
是这个领域起步最早的实践者之一,已经支撑了近十万个应用、网站、游戏和硬件产品,LeanCloud
美国节点正式发布仅仅数月,也已经为出海的中国科技公司带来了实际的价值和便利。越来越多的产品不再选择从服务器开始从零构建自己的线上能力,而是使用
LeanCloud
这样更贴近业务和场景的服务让产品尽快面市,并在快速迭代中拉开与竞争对手的距离。通过与腾讯云的合作,我们可以把
LeanCloud 的各项服务以及 LeanCloud
所代表的更高效的产品开发方式带给更多的用户。我们也期待在未来能够进一步与腾讯云在基础设施和网络资源方面开展合作,为用户提供更好的产品和服务。腾讯云移动开发解决方案与
LeanCloud
保持基本一致的价格体系,服务于腾讯云用户体系,并使用腾讯云的账号和财务系统。LeanCloud
主站将不受这次合作影响,所有账号、应用和数据都仅存放于 LeanCloud
的自有服务器。我们理解此次合作可能会为 LeanCloud
的用户及关注者带来一些疑虑,因此有必要在此进行说明。LeanCloud
是一个中立、独立的云服务平台,与任何第三方的合作都以此为基础。LeanCloud
注重保护数据隐私和安全、维护用户利益的原则和价值观也被我们的合作伙伴和用户所认同。LeanCloud官网:

摘要即时通讯云服务商LeanCloud
2016年7月13日因由于突发硬件故障,导致雪崩致使即时通讯服务瘫痪48分钟之久!以下消息来自LeanCloud官方:7
月 13 日早上 9
点左右,我们内部在使用中国节点的应用控制台时遇到报错,于是很快便定位到某一集群由于突发硬件故障而引起存储服务中断,经过抢修问题得以解决。大约一小时后正当我们在继续对该集群进行加固处理时,突然遇到流量高峰,该集群的性能逐渐下降并再次发生了故障。此次故障影响到中国节点上
20%
的应用无法使用存储及其依赖服务,如实时通信、云引擎等。美国节点不受影响。故障时间及范围08:49

  • 09:08:存储服务内部某一集群发生硬件故障,导致 20%
    的应用的存储服务中断(约 19 分钟)。09:53 –
    10:22:该集群受到流量冲击后性能降低并再次瘫痪(约 29
    分钟)。前后共持续约 48
    分钟。事故过程08:49:应用控制台出现报错,立即进行排查。08:56:发现某个集群硬件故障,导致集群性能不断降低,响应过于缓慢,到几乎不可用。09:08:隔离故障机器,重启相关服务后,集群慢慢恢复了正常。09:53:有大量连接涌入,堵塞了存储系统的读写队列,使得该集群性能再次下降。09:58:该集群响应过于缓慢,几乎不可用。开始阻断连接,扩充集群并重启集群上的相关服务。10:22:集群服务逐步恢复,并重新开放连接。后续改进措施加强对集群硬件失败的监控和报警。提高自动化故障处理能力,降低系统
    downtime
    时间。尽快升级底层存储系统的存储引擎,减少读写队列拥塞的可能性,进一步提升服务性能。LeanCloud官方地址:
标签:, , , , , , , , ,

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图