jueves, 23 de febrero de 2017

Servicio Front-End de Lync Server 2013 no inicia, Event 32178 LS User Services

Muchos son los motivos por los cuales el servicio de Fron-End de Lync 2013 no inicia, falla o como es el caso de hoy se queda en iniciando y no hay forma de arrancar Lync 2013.


En un laboratorio donde solo tengo un frontal de Lync 2013 en modo Enterprise y tras la actualización de la Cumulative Update de Lync 2013 CU8 hotfix 1, me encuentro que el servicio de Lync 2013 se queda en estado "iniciando".




La primera preocupación viene al pensar que el procedimiento de update ha fallado en algún punto de la instalación, pero de ser así lo habríamos visto en los logs.


Me viene a la cabeza un error en otro update de OCS 2007 R2,  Microsoft obligaba a hacer una actualización de la Base de Datos Central, antes de rebotar los Front-End, y en la documentación NO venía indicado, tras tanto tiempo aquello quedó en el olvido.


Fueron muchos los que sufrieron ese fallo y tuvieron que llamar a soporte. Alguno libramos por jugárnosla y actualizar, aunque tras el reinicio y dos nodos Front-End sin dar servicio de VOZ.


Quizás, el disponer de un solo nodo Enterprise, como en el laboratorio, no facilita la tarea. Es probable que el estado del pool se haya quedado inconsistente y lo primero que hago mientras evalúo muchos errores en el visor de eventos, es ejecutar el cmdlet siguiente, con el fin de restablecer el quórum de mi único servidor Front-End:






Reset-CsPoolRegistrarState


Tras terminar, paro de nuevo los servicios de Lync


Stop-CsWindowsService


Y reinicio la máquina para que automáticamente y a su ritmo (mi laboratorio es lento), arranque los servicios correctamente.


En el inicio, vuelvo a comprobar que el estado del servicio Front-End sigue igual, entonces, me toca trabajo duro de visor de eventos y revisión de Lync.


En una mala, tendría que utilizar el procedimiento de recuperación de un nodo de Lync para volver a funcionar, y esperar que todo en Directorio Activo esté en su sitio.


En el visor de eventos, el primero que examino es el siguiente:


Log Name:      Lync Server
Source:        LS User Services
Event ID:      32178
Task Category: (1006)
Level:         Error
Keywords:      Classic
User:          N/A
Description:
Failed to sync data for Routing group {3XFLKJH-45WERSDF-SDFG-SDFGR-DS87SYDF-DAS} from backup store.
Cause: This may indicate a problem with connectivity to backup database or some unknown product issue.
Resolution:
Ensure that connectivity to backup database is proper. If the error persists, please contact product support with server traces.


Vaya!!, por no decir otra cosa, ya estamos con la Base de Datos a vueltas!!


El siguiente evento tampoco ayuda mucho, pues requiere ejecutar Reset-CsPoolRegistrarState -ResetType QuorumLossRecovery para recuperar el Quórum de Lync 2013 (había hecho algo similar antes de reiniciar el servidor)


Log Name:      Lync Server
Source:        LS User Services
Event ID:      32174
Task Category: (1006)
Level:         Warning
Keywords:      Classic
User:          N/A
Description:
Server startup is being delayed because fabric pool manager has not finished initial placement of users.
Currently waiting for routing group: {3XFLKJH-45WERSDF-SDFG-SDFGR-DS87SYDF-DAS}
Number of groups potentially not yet placed: 4.
Total number of groups: 4.
Cause: This is normal during cold-start of a Pool and during server startup.
If you continue to see this message many times, it indicates that insufficient number of Front-Ends are available in the Pool.
Resolution:
During a cold-start of a large Pool it can take upto an hour for the placement process to finish as it needs to populate all the Front-End databases with data from the Backup Store. If the Pool is running and the Front-End is just started, this is normal for some time. If this repeats for a long time, ensure that all the Front-Ends configured for this Pool are up and running. If multiple Front-Ends have been recently decommissioned, run Reset-CsPoolRegistrarState -ResetType QuorumLossRecovery to enable the Pool to recover from Quorum Loss and make progress.


A partir de aquí, errores varios: 61039, 61037, 61035, 30988, 61043 y así continuamente.


Me dedico según leo por otros foros, a comprobar que las instancias Locales de SQL LYNCLOCAL Y RTCLOCAL, hayan iniciado correctamente.
Accedo con el SQL Management Studio, hago unas queries y veo que está todo en orden.
Lo mismo con la base de datos del CMS y las propias de Lync típicas del BackEnd rtc, xds...


Revisado esto, dando tiempo al servicio a iniciar (Fron-end Lync 2013 puede llegar a tardar 1 hora en iniciar tras un problema con el quórum....), el resultado es el mismo.


Vuelto a revisar los eventos y en uno de ellos el 30988 me llama algo la atención:


Check the destination server to see that it is listening on the same URI and it has certificate configured for MTLS. Other reasons might be network connectivity issues between the two servers.

¿Ha habido algún problema con el certificado?¿está la CA y el certificado bien?.
Compruebo que el certificado sigue bien asignado, he rebotado la máquina y sigo igual, pero....¿y el Controlador de Dominio?


Al ser un laboratorio, el DC sufre cosas que no debiera, apagados incontrolados y rápidos, parches y pruebas que en otro no llevarías a cabo, en tu DC de laboratorio instalas hasta el busca minas si hace falta.


Reboto el DC para salir de dudas, y compruebo que el servicio sigue igual.


Como la CA está en el mismo DC, compruebo si el certificado de la CA está correctamente en Trusted Root Certification Authorities y en Intermediate Root Certification Authorities




Todo correcto, la siguiente prueba es solicitar un nuevo certificado a la CA, esta vez desde el asistente del Setup de Lync 2013 (forma rápida) y directamente sin hacer request a un fichero, total estamos en Laboratorio y hay conexión directa.


Obtenido el certificado, lo asigno, inicio el servicio que tarda unos minutillos y
todo funcionando!!


Resumen, aunque no veas errores de TLS, sea o no un laboratorio, comprueba que tu certificado autofirmado no te la esté jugando.
Reinicia, si si, reinicia, pues el laboratorio es lo que tiene.


Si es en producción, pregunta por ahí a ver si la CA el DC o incluso el firewall han sufrido algún cambio en los últimos días.
Y si es mi caso que para pruebas tengo una pki interna, no lo dudes, solicitar otro certificado es gratis


Espero esto te evite algún quebradero de cabeza.
Saludos.


Álvaro Velasco Miguel

No hay comentarios:

Publicar un comentario