• 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2617浏览量
  • 硬盘故障巧维修

    总的来说,硬盘一般不会轻易出现什么故障,但一旦出现就是不可估量的损失。因此希望朋友们还是平时注意系统的备份和维护,同时加强病毒监测,最大限度的保证硬盘工作的稳定性。本文转自 song8575 51CTO博客,原文...
    文章 2017-11-12 954浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4655浏览量
  • 《日志管理与分析权威指南》一2.2.3 日志内容

    日志也能告诉某些系统出现故障或者将要出现故障,例如磁盘错误。日志还能告诉你哪些工作正在正常进行,并给出资源利用和性能的相关信息。日志还可能包括状态改变、启动和停止等等信息。日志有时能告诉你入侵尝试的...
    文章 2017-07-03 1514浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 3656浏览量
  • 高可用的本质

    例如:大促峰值期间,一般会提前降级掉很多功能,同时限流,主要是为了保护峰值绝大部分人的交易支付体验。例如:人体在失血过多或疼痛过度时就会触发休克现象,这也是一种典型的自我保护机制。四 软件风险在何方...
    文章 2021-02-22 947浏览量
  • 企业安全管理的“六脉神剑”

    除了安全事件,许多可能提供安全性或活动跟踪信息的其他事件也记录到应用程序日志、系统日志或者Windows 2000和更高版本的域控制器——DNS服务器日志、目录服务日志、或文件复制服务日志中。此外,许多进程提供...
    文章 2017-05-02 1232浏览量
  • 浅谈IT运维

    运维人员在做这类工作的时候不能像应付任务那样,但求过关即可,否则日积月累下来,服务器会出现意想不到的情况。在处理这类工作上运维人员应当做到规范和文档记录,长期做下来,不但自己的运维专业水平会提高,对于...
    文章 2017-11-20 1409浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2020-02-07 184浏览量
  • 笔记本键盘失灵

    笔记本的键盘一般都是有EC(嵌入式控制器,笔记本的必要部件,负责系统的电源控制,内置键盘,触控板,热键等等功能的实现)负责控制的,一般来说只有把电源和电池都拔掉才使EC关闭,另外一个小窍门哦,如果你的本本...
    文章 2012-05-16 1512浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    在运维平台中,需要做到应对故障快速恢复的预案,分析系统可能出现故障点,在出现故障时,通过自动化的脚本对故障进行恢复。QA环节: 1、有货历史架构的演变历程,达到什么样的规模时才选用混合云模式?答:企业到...
    文章 2016-03-31 13920浏览量
  • 构建可靠系统的原则与实践

    但是实际上很多的基础的产品和系统确仍然会出现一些稳定性问题,那么如何才能构建可靠的系统呢?是不是制定非常严格而细致的规则就可以做出可靠的系统呢?航空业的教训 在回答这个问题之前,我们先来看看对于系统...
    文章 2019-04-24 12591浏览量
  • 带你读《工业物联网安全》之一:一个前所未有的机会

    例如,如果一个发电厂的温度传感器被黑客远程攻击,那么它错误地输出非常高的温度值,进而导致控制系统关闭整个发电厂。在相反的情况下,也就是说,如果传感器的输出远低于它应该输出的值,那么控制动作可能导致...
    文章 2019-11-05 1116浏览量
  • 双硬盘RAID 0全攻略

    无论是主板板载的IDE RAID控制芯片还是独立的PCI接口IDE RAID控制器它们都有一个用来进行配置和工作的独立BIOS它们的BIOS设置画面系统POST完成之后显示我们可以看到这时候HighPoint HPT372 IDE RAID控制芯片的...
    文章 2014-08-12 2325浏览量
  • 组建RAID从认识开始 手把手教你建磁盘阵列

    在我们单独使用RAID 1也会出现类似单独使用RAID 0那样的问题,即在同一时间内只能向一块磁盘写入数据,不能充分利用所有的资源。为了解决这一问题,我们可以在磁盘镜像中建立带区集。因为这种配置方式综合了带区集和...
    文章 2008-01-20 1075浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2019-08-07 512浏览量
  • 用好云平台,做好安全监控与审计

    因此审计系统应对安全事件进行收集,对安全事件的处置过程和处置结果进行审计,定期提供审计报表,以督促安全团队开展安全工作。3.3 变更记录 应重点审计所有对云上资源进行操作的行为,包括:云主机开通和释放,...
    文章 2018-07-17 3785浏览量
  • 带外监控

    IPMI 定义管理员如何监测系统硬件和传感器、控制系统组件和检索重要系统事件的日志以进行远程管理和恢复。使用该种方式,用户无需担心操作系统的状态,即使系统崩溃也可以轻松得到机器状态、重要系统日志等信息,还...
    文章 2014-01-10 1732浏览量
  • 面向失败的设计-自动化运维管控

    基础系统也同样遵循这个原则,只不过当前阿里体系内部研发基础设施非常完备,基本上常用的中间件体系都有配套良好的运维控制系统,因此我们对这类系统的运维变更需求都是登录对应中间件管控平台操作,也有部分中间件...
    文章 2019-11-08 592浏览量
  • 云场景实践研究第12期:有货

    在运维平台中,需要做到应对故障快速恢复的预案,分析系统可能出现故障点,在出现故障时,通过自动化的脚本对故障进行恢复。关于有货的更多实践详情:有货:六层混合云架构打造中国最潮生态圈 原文发布日期:2016-...
    文章 2018-02-03 1463浏览量
  • 服务器托管需特别注意的事项

    对于企业所托管的设备而言,安全性一定要有所保障,而这种安全性不仅体现在网络、电源等基础设施方面,也体现在IDC的安全控制规章方面。有一些电信运营商能够提供防火墙和抗DDoS攻击的设备,不过这些都是可选项,...
    文章 2017-07-03 1315浏览量
  • 基于阿里云MaxCompute实现复杂事件检测

    风险控制系统需要监控银行多个业务系统的多个对象和多种数据,按照大量既定的风险控制规则进行对交易行为的判断甄别,发现存在风险的交易行为,及时做出应对措施。欺诈发现 包括(1)信用卡欺诈;(2)保险欺诈;(3)...
    文章 2017-04-20 1961浏览量
  • 是时候聊一下程序员争相追逐的“香馍馍”Istio了

    数据平面:由一组和业务服务成对出现的Sidecar代理(Envoy)构成,它的主要功能是接管服务的进出流量,传递并控制服务和Mixer组件的所有网络通信(Mixer是一个策略和遥测数据的收集器,稍后介绍)。控制平面:主要...
    文章 2019-08-30 1752浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7031浏览量
  • 使用Grab的实验平台进行混沌实验编排

    在运行混沌实验后,一般会有两种可能输出。你已经确认了在引入的故障系统保持了足够的弹性,或你发现了需要修复的问题。如果混沌实验最初被运行在预发环境那么两种都是不错的结果。在第一种场景,你对系统的行为...
    文章 2019-03-05 5936浏览量
  • 带你读《Linux系统安全:纵深防御、安全扫描与入侵...

    计算机中的“应用逻辑炸弹”是指在特定逻辑条件满足时,实施破坏的计算机程序,该程序触发后可能造成计算机数据丢失、计算机不能从硬盘或者软盘引导,甚至使整个系统瘫痪,或出现设备物理损坏的虚假现象。...
    文章 2019-11-14 1616浏览量
  • 802.1x-2

    在设定重传的时间时,考虑网络的实际环境,通常认为认证系统和客户端之间报文丢失的几率比较低以及传送延迟低,因此一般通过一个超时计数器来设定,默认重传时间为30秒钟。对于有些报文的丢失重传比较特殊,如...
    文章 2017-11-14 717浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5706浏览量
  • 阿里云购买云服务器流程及注意事项(新手用户必看图文...

    例如日均两三百人访问的,一般选择个1-2M左右带宽就足够了,假如我们网站在每天特殊时间段访问量很高,我们可以选择按量付费,这样我们网站就不会出现因为带宽不足而导致网站访问故障了,另外,有些网站集中在某...
    文章 2020-12-29 330浏览量
  • 地图采集车的那些事|载车篇

    若发电机功率不够或刚刚好,在汽车发电机老化和夏天高温输出效率降低的情况下,用电短缺的情况特别突出,严重情况下会出现系统设备重启等现象,影响作业。日系车辆发电机输出功率一般较低,选车时要特别注意。汽车...
    文章 2021-04-25 225浏览量
1 2 3 4 ... 18 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com