线上服务宕机时,如何保证数据100%不丢失?


我们有很多的手段保证数据的安全,但是要保证100%安全这是不可能的。毕竟在系统运行的过程中,服务器可以出的问题千奇百怪,只能说尽可能的让数据尽可能的出出现丢失。单纯的保证数据库本身的数据不丢失的话,最直接的方式就是通过建立主从库,实现数据的热备一般情况下,小的系统我们并不会考虑数据的热备,一般只是在每天定时进行冷备而已,也就是设置一个定时器,然后到时间就同步数据。不过这样做的话,一单系统的数据库出现异常,那么我们的数据就会回滚到上一个备份的时间点,影响范围就会比较大。因此,对于数据量大一点的系统,我们就会进行主从库的设置,不过通常情况下,我们做了主从库都会做读写分离。现在不管是哪种数据库,都提供了数据库之间订阅同步的机制。以Mysql为例,我们先设置一个Master主库,然后在基于这个主库设置1个到多个Salve从主,从库通过在主库的SQLLog日志进行监听,一旦有SQL执行,就会记录一个二进制的Log,从库发现了这个Log,也会同时执行同样的操作,这样就实现了数据的热备。但是,这种热备的机制并不能100%保证数据不丢失。因为,我们在写入主库的时候如果出现异常,导致SQLLog还没有记录,那么从库是不可能有数据记录的。当然,此后的数据不会有影响,因为这是从库会变为主库来记录后续数据。同样,如果主从库一起宕机,那也只有凉凉。那么,为了让数据库的数据更加安全,就需要把数据保证的机制提前,不能单纯的依靠数据库来实现,那么我们可以加入队列来试试。队列并不是针对于数据的,队列其实是用来保证消息的安全稳定的。自然,当请求没有被写入到数据库是,都是以消息的形态存在,我们就可以考虑队列来保证数据安全。在数据库访问层,或者再靠前,到服务层,我们都可以加入MQ,让每一个请求都通过MQ来顺序的处理,一但数据库宕机了,MQ的执行就会失败,这时,失败的记录会被保存在MQ里面,并不会丢失,一但数据库重启,我们可以再次执行MQ中的消息,保证数据被成功的写入到数据库中。具体怎么做呢?首先,我们在插入数据库前,把插入的操作变为向队列对添加一个消息,然后,我们不同队列建立不同的消费者,消费者对队列的消息进行执行,再往数据库里面插入数据。对于我们的服务层,我们只要把消息插入到了队列中,即视为成功,返回成功的消息。这样,虽然我们的数据处理会有一点点的延时,并且在事务的控制上难度会变大,可能需要建立补偿机制,但是我们的数据安全就更加高了。这样是不是就安全了呢?并不是的。消息服务器也可能会宕机,消息也有可能出现丢失的情况,所以并不能保证100%的安全。如果我们还需要做的更好,我们还可以加上MongoDB来做日志MongoDB是一个非关系型数据库,在我们现在的系统中应用非常广。最多的应用场景就是用来记录日志。那么,日志就是一个帮助我们避免消息丢失的有效方式了。我们对服务层的每个请求报文,都用MongoDB记录请求的报文,再在请求处理完成返回结果的时候,记录一个消息的处理结果(成功或失败),这样,我们就能够很直观的看到每天发生的请求,处理的请求情况了。当有服务处理失败了,不管是数据库的问题还是其他的问题,我们都可以对异常进行排查,然后再根据报文进行消息的重推。这样,我们的数据就会更加的安全了。当然,即使如此,也不可能100%安全的,我们只能说尽可能的让系统更安全,只不过,安全的同时,付出的成功也是高昂的,我们需要来衡量是否有这个必要,当我们的系统确实足够大,用户量很大时,这么处理是有价值的,否则,那就是一种资源的浪费。

CrashSafe指MySQL服务器宕机重启后,能够保证:-所有已经提交的事务的数据仍然存在。-所有没有提交的事务的数据自动回滚。前面的文章讲过,Innodb通过RedoLog和UndoLog可以保证以上两点。为了保证严格的CrashSafe,必须要在每个事务提交的时候,将RedoLog写入硬件存储。这样做会牺牲一些性能,但是可靠性最好。为了平衡两者,InnoDB提供了一个系统变量,用户可以根据应用的需求自行调整。-innodb_flush_log_at_mit0-每N秒将RedoLogBuffer的记录写入RedoLog文件,并且将文件刷入硬件存储1次。N由innodb_flush_log_at_timeout控制。1-每个事务提交时,将记录从RedoLogBuffer写入RedoLog文件,并且将文件刷入硬件存储。2-每个事务提交时,仅将记录从RedoLogBuffer写入RedoLog文件。RedoLog何时刷入硬件存储由操作系统和innodb_flush_log_at_timeout决定。这个选项可以保证在MySQL宕机,而操作系统正常工作时,数据的完整性。那么CrashSafe和Binlog有什么关系呢?1-带Binlog的CrashSafe当启动Binlog后,事务会产生BinlogEvent,这些Event被看做事务数据的一部分。因此要保证事务的BinlogEvent和InnoDB引擎中的数据的一致性。所以带Binlog的CrashSafe要求MySQL宕机重启后能够保证:-所有已经提交的事务的数据仍然存在。-所有没有提交的事务的数据自动回滚。-所有已经提交了的事务的BinlogEvent也仍然存在。-所有没有提交事务没有记录BinlogEvent。这些要求很好理解,如果重启后数据还在,但是BinlogEvent没有了,就没办法复制到其他节点上了。如果重启后,数据没了,但是BinlogEvent还在,那么不存在的数据就会被复制到其他节点上,从而导致主从的不一致。为了保证带Binlog的CrashSafe,MySQL内部使用的两阶段提交(TwoPhaseCommit)。2-MySQL的TwoPhaseCommit(2PC)在开启Binlog后,MySQL内部会自动将普通事务当做一个XA事务来处理:-自动为每个事务分配一个唯一的ID-COMMIT会被自动的分成Prepare和Commit两个阶段。-Binlog会被当做事务协调者(TransactionCoordinator),BinlogEvent会被当做协调者日志。想了解2PC,可以参考文档:【mit_protocol。】-分布式事务ID(XID)使用2PC时,MySQL会自动的为每一个事务分配一个ID,叫XID。XID是唯一的,每个事务的XID都不相同。XID会分别被Binlog和InnoDB记入日志中,供恢复时使用。MySQ内部的XID由三部分组成:-前缀部分前缀部分是字符串"MySQLXid"-ServerID部分当前MySQL的server_id-query_id部分为了保证XID的的唯一性,数字部分使用了query_id。MySQL内部会自动的为每一个语句分配一个query_id,全局唯
一。参考代码:sql/xa。h的structxid_t结构。-事务的协调者BinlogBinlog在2PC中充当了事务的协调者(TransactionCoordinator)。由Binlog来通知InnoDB引擎来执行prepare