Sistema informático tolerante a fallas
Descripción general
 'Manetho' para simplificar el gráfico anterior como un formato de registro de eventos no deterministas utilizado en el sistema tolerante a fallos. En el sistema de ordenador tolerante a fallos que comprende una pluralidad de procesadores y una pluralidad de unidades de recuperación de ejecutar varios procesos, eventos no deterministas envío de mensajes y todas las actividades procesa proceso vivo de un único proceso en vivo, la misma unidad de recuperación para ser operado en cada procesador medios de registro, significa estado de historia para el mantenimiento de la información de estado reciente del proceso vivo de la misma unidad de recuperación para grabar una secuencia de información, y, en respuesta al fracaso del proceso vivo, usando la información del estado del estado de historia significa la misma unidad de recuperación Te, proporcionando los medios de recuperación para iniciar el proceso alternativo cada unidad de recuperación, el gráfico anterior de la técnica anterior sistema Manetho reemplaza el vector anterior para registrar la secuencia de eventos no determinista para cada proceso de actividad.
Campo técnico
(I) la información de estado en el proceso directo de la unidad de recuperación es o bien (esta información de estado se mantiene separado del proceso que es para ejecutar el proceso en vivo se lleva a cabo en un dispositivo de almacenamiento seguro en, o diferentes procesos Puede ser el estado del proceso de replicación ejecutándose pero sombreando el proceso activo). Preferiblemente, esta información de estado se actualiza periódicamente y esta actualización se realiza de manera consistente en todas las unidades de recuperación. (Por Mientras que el mantenimiento de esta información de estado es la información sustancial recuperación de la función de registro en el caso del esquema de proceso de replicación para el mensaje de difusión para comunicar el proceso de multiplexado en vivo y su proceso de replicación de enviar el destino del proceso, ya que el implementado parcialmente, en el que se desconecta de la función de registro a continuación. por el contrario, la función de registro está más estrechamente asociada con su proceso en vivo).
La presente invención se refiere a un sistema de ordenador funcionamiento tolerante a fallos con tolerancia a fallos se compone de varios procesadores que son proporcionados por las funciones de software adecuadas, en particular, a un sistema tolerante a fallos que funciona en una forma similar al sistema de 'Manetho'.
El sistema tolerante a fallos basado en software (sistema torelant fallo) puede verse como estando compuesta de una o más unidades de recuperación que constituyen una unidad de cada fracaso y recuperación. Una unidad de recuperación, uno procesos de la actividad que se ejecutan en un procesador único (proceso en vivo), la información de recuperación sobre las actividades de registro de proceso (es decir, la grabación) significa y el procesador operable cuando el evento de fallo se produce proceso vivo, Y una recuperación significa activar el proceso alternativo del otro lado.
Si un fracaso del proceso en vivo debido a un fallo del procesador que ejecuta el proceso en vivo debe ser objeto, desde el procesador tanto el almacenamiento y recuperación de información de recuperación significa en sí tiene que ejecutar el proceso en vivo Es natural que deba separarse. En este caso, tan pronto como se produce un fallo en el procesador que ejecuta el proceso en vivo, significa la recuperación, insuficiencia (proceso vivo que puede activar el proceso alternativo en diferentes procesadores, el procesador que ejecuta el procesador activo Si no se debe a un error, el proceso alternativo se puede iniciar en ese procesador). De hecho, en muchos casos, los procesadores a los que debe operar el proceso alternativo están previamente especificados. En aras de la conveniencia, la siguiente explicación se realizará asumiendo un enfoque preespecificado.
Donde el sistema comprende múltiples unidades de recuperación, típicamente se superponen desde el punto de vista de la utilización efectiva de los procesadores. Por ejemplo, se pretende procesador para realizar el proceso alternativo para la primera unidad de recuperación puede ser también un procesador que opera el proceso en vivo de una segunda unidad de recuperación. De hecho, con respecto a los medios de grabación y recuperación de información de fallas, a veces se puede compartir recursos de varias unidades de recuperación.
La figura 1 muestra un sistema informático tolerante a fallos de la técnica anterior. Este sistema incluye tres procesadores I, II 1, III y un dispositivo de disco 10 conectados entre sí por una LAN. Este sistema está configurado como dos unidades de recuperación A y B, cada una con un proceso de actividad relacionado A / L, B / L. Proceso de actividad A / L se mueve en el procesador I y el proceso activo B / L se ejecuta en el procesador II. La unidad de recuperación A está configurada para activar el proceso alterno de A / R en el procesador II ante la falla de su proceso activo A / L. De forma similar, la unidad de recuperación B está configurada para activar el proceso alternativo B / R en el procesador III al fallar su proceso activo B / L.
proceso en vivo, basado en el comportamiento determinista, también (incluyendo los mensajes recibidos de otro proceso en vivo) en base a los eventos no deterministas como los insumos externos y entrada interna no determinista, continúan la herencia estado interno. proceso alternativo, cuando el proceso de reemplazar el fallido vivo, (no tiene que ser reciente estado de tiempo de siempre inmediatamente antes del fallo) el proceso no debe ser colocado en un estado que se ha alcanzado. Para esto, es necesario conocer la información de estado del proceso de actividad al menos un punto en el tiempo antes de la falla. Por otra parte, conociendo la información sobre los eventos no deterministas experimentadas por el fallido proceso, a partir de un proceso relacionado con el fracaso del estado conocido, es posible que el proceso avanza el proceso falla alternativa al estado o después de Nanigashi que los estados alcanzados.
Para sistemas con una sola unidad de recuperación, la operación tolerante a fallas es relativamente fácil de lograr. Si la velocidad de recuperación no es un factor importante, por la tala unidad de recuperación (es decir, la grabación) unidad, la información de estado sobre el proceso en vivo es el dispositivo de memoria estable a partir de una memoria volátil del procesador que es para ejecutar el proceso (típicamente disco (Punto de verificación) al dispositivo de almacenamiento (dispositivo de almacenamiento) periódicamente. Cuando el proceso directo de recuperación de fallos medio de la unidad de recuperación puede activar el proceso alternativo en el extremo correspondiente al estado de punto de control para el estado del proceso en vivo fallado. Por supuesto, si el puesto de control no se corresponde con ningún cambio de estado, el estado del proceso alternativo generalmente se retrasaría del estado real del proceso en vivo ha alcanzado antes del fallo. información adecuada sobre todos los eventos no deterministas experimentados por entre los puestos de control de procesos en directo y almacenar de forma segura la tala significa unidad de recuperación, entonces los medios de recuperación, no reprodujo estos eventos para procesar Alternativa El problema anterior se puede aliviar haciendo que la función esté más cerca del estado en el momento de la ocurrencia.
Si la tasa de recuperación es un factor importante para crear una sombra del procesamiento del proceso directo, ejecutando de ese modo el al menos un proceso de replicación recibir general, se prefiere el proceso mismos eventos y actividades no deterministas. El proceso de replicación sirve para almacenar efectivamente la información de estado en el proceso activo. proceso vivo y su proceso de replicación es siempre o cadencia está estrechamente unida a encajar, o el proceso de replicación es débilmente acoplados a retrasado ligeramente del proceso vivo. Cuando el proceso de actividad falla, el medio de recuperación se hace cargo del proceso activo como un proceso alternativo, el proceso de replicación. Si el proceso vivo y su proceso de replicación es débilmente acoplados, si procede, información se almacena sobre los acontecimientos no deterministas experimentados por el proceso en vivo, el proceso de replicación, utiliza esta información, incluso a su estado original Puedes acercarte.
En la configuración como se inicia un procedimiento alternativo en un estado de fallo de proceso de actividad de tiempo, el punto está asociado de arriba con la información de recuperación de registro correspondiente mayor será evidente. Por supuesto, desde el punto de vista de la consistencia de la operación del sistema, con respecto a un sistema con sólo una unidad de recuperación individual, siempre que la salida externa del estado del proceso vivo original no fue creado en absoluto, un proceso alternativo tras el fracaso de la inicio del proceso en vivo El estado ya que no es un problema (suponiendo que es la condición experimentada por el proceso de falla). Sin embargo, cuando se crea una salida, es muy deseable que el proceso alternativo se inicie en un estado correspondiente a la salida creada. Por lo tanto, incluso antes de que se hace inicio de cualquier salida, el registro de los medios de la información de estado punto proceso vivo cheques unidad de recuperación, o almacenar de forma segura información de eventos no determinista, o en el caso de proceso de replicación débilmente acoplado , Confirme que el proceso de replicación ha recibido la misma información de evento no determinista que el proceso activo. Este procedimiento se conoce como 'confirmación de salida'.
Teniendo en cuenta el caso de un sistema con una pluralidad de unidades de recuperación, que, tras la recuperación que (no tomaron el proceso en vivo, incluyendo el proceso alternativo) todo proceso en vivo está en un estado coherente uno con el otro Es más complicado ya que necesita ser confirmado. Por supuesto, si en el mismo estado que inmediatamente antes del fracaso del proceso de unidad de recuperación no puede activar el proceso alternativo, no es un problema. Si es imposible, ya que es imposible (ya que la sobrecarga requerida para proporcionar esta función se considera que es muy grande, por ejemplo) Puede ser necesario configurar medidas de recuperación para 'retrotraer' el proceso.
Antecedentes de la técnica
Medios para resolver el problema
Efecto de la invención
sistema tolerante a fallos distribuida recientemente llama la propuesta de 'Manetho', sin necesidad de sobrecarga excesiva en términos de punto de control de sincronización o proceso de replicación, evitando la necesidad de dar marcha atrás unidad de recuperación no defectuoso Ahí 'Manetho' se describe en muchas literaturas abiertas, incluidas las siguientes, por lo tanto, consulte esos documentos para obtener más detalles.
1) 'Manetón: Transparente Rollback-recuperación con bajo costo operativo, Limited Rollback y salida rápida Commit' Elmootazbellah N.Elnozahy y Willy Zwaenepoel, IEEE Transactions on Computers Número especial sobre Tolerante a Fallos Computing, 41 (5): 526-531, mayo 1992,
2) 'Un EmpiricalEvaluation de tres protocolos de multidifusión en el contexto de la replicación de Active' Elmootazbellah N.Elnozahy y Willy Zwaenepoel, Departamento de Ciencias de la Computación de la Universidad de Rice, Houston, Texas, Julio 9,1993.
3) 'Manetón: Tolerancia a fallos en sistemas distribuidos usando Volver-Recuperación y replicación Proceso' Elmootazbellah N.Elnozahy, Informe Técnico de Computación de la Universidad de Rice, Houston, Texas, arroz COMP TR93-212, Octubre de 1993
Manetho tiene varias variantes, pero en general todas tienen las siguientes funciones.
Es un diagrama de bloques que muestra un sistema de ordenador tolerante a fallos que consta de dos unidades de recuperación según la figura 1 principios conocidos.
Es un diagrama de bloques que muestra un ejemplo de un generalmente siguen sistema de ordenador tolerante a fallos en la Figura 2 sistema Manetho conocido.
La figura 3 es un diagrama esquemático de un gráfico anterior utilizado en un sistema Manetho conocido.
La Figura 4 es un diagrama de bloques que ilustra una historia ejecución de procesos activos, tales como el sistema del proceso directo de la figura.
Consta de toda la historia en vivo la ejecución del proceso del sistema como se muestra en la Figura 5 La Figura 2 es un diagrama de bloques de un vector anterior utilizado según la invención en lugar del gráfico anterior de la figura.
Es un diagrama de bloques que ilustra un formato de un vector anterior que se mantiene en cada una de las unidades de recuperación de A, B y C en la realización preferida el sistema de la Figura 6 la presente invención.
10 dispositivo de disco
11 LAN
20 capa de comunicación
Capa de 21 pies
22 Registro de mensajes salientes
23 Registro de evento no determinista
Reclamo
Reivindicación 1 intercambiar mutuamente mensajes, que comprende una pluralidad de procesadores para ejecutar varios procesos para avanzar en la sucesión de los estados correspondientes a los eventos no deterministas experimentados, los eventos no deterministas experimentados por uno de los procesos por el evento incluye se recibe un mensaje, un sistema que está organizada como una pluralidad de unidades de recuperación, cada uno de la unidad de recuperación anterior, el mensaje de salida opera en el uno de los procesadores, que se entregan por la misma unidad de recuperación de registro de proceso de trabajo y todo para la grabación de información de la secuencia de los acontecimientos no deterministas experimentados por el proceso directo, los medios de registro para el mantenimiento de un registro de evento operación interconectado no determinista para cada mensaje que se emite por la misma unidad de recuperación de los procesos de trabajo Separado del anterior procesador Dispuesta Te, y el estado de la historia medios para mantener información de estado acerca de la reciente estado del proceso en vivo de la misma unidad de recuperación está dispuesto por separado de dicho un procesador, en respuesta al fracaso del proceso en vivo, la misma unidad de recuperación la información de estado que tuvo lugar en el estado de la historia significa utilizar con registro de mensajes y eventos no deterministas registros de otra unidad de recuperación, en un estado que es consistente con los sistemas externos unidad de recuperación que contiene el proceso vivo fracasado, uno operable Se tiene un medio de recuperación para la activación de un proceso alternativo en el procesador, y los registros de eventos no deterministas mantenidas por los medios de registro de la unidad de recuperación comprende un historial de ejecución respectiva para cada uno del proceso directo, el historial de ejecución Cada uno de los cuales tiene una secuencia de eventos no deterministas experimentados por el proceso de actividad correspondiente Ver, por lo que es posible el registro de medios para mantener dicho registro de eventos no determinista utilizando la secuencia, el registro de eventos no determinista no incluye una secuencia de correlación de eventos que existe entre el proceso en vivo, el sistema de ordenador tolerante a fallos .
Dibujo :
Application number :1997-016536
Inventors :ヒューレット?パッカード?カンパニー
Original Assignee :ポール?ハリー