Una condición de alerta es el elemento central que define cuÔndo se crea un incidente . Actúa como punto de partida esencial para crear cualquier alerta significativa. La condición de alerta contiene el parÔmetro o umbral cumplido antes de ser informado. Pueden mitigar las alertas excesivas o informar a su equipo cuando aparece un comportamiento nuevo o inusual.
Crear una nueva condición de alerta
Una condición de alerta es una consulta que se ejecuta continuamente que mide un conjunto determinado de eventos frente a un umbral definido y abre un incidente cuando se alcanza el umbral durante un perĆodo de tiempo especĆfico.
Este ejemplo demuestra la creación manual de una nueva condición de alerta utilizando la pÔgina Alert condition details . Pero hay muchas maneras de crear una condición de alerta. Puede crear una condición de alerta desde:
En este ejemplo, imagine que su equipo administra la aplicación WebPortal para un sitio de comercio electrónico. Quiere estar alerta ante cualquier problema de latencia.
Puede utilizar una consulta NRQL para definir las señales que desea que utilice una condición de alerta como base para su alerta. Para este ejemplo, utilizarÔ esta consulta:
SELECT average(duration)
FROM PageView
WHERE appName ='WebPortal'
El uso de esta consulta para su condición de alerta le indica a New Relic que desea conocer la latencia o duración promedio para cargar pÔginas dentro de su aplicación WebPortal . Las alertas proactivas sobre latencia, una de las principales señales doradas, proporcionan alertas tempranas de posible degradación.
Puede obtener mÔs información sobre cómo utilizar NRQL, el lenguaje de consulta de New Relic, consulte nuestra documentación de NRQL.
Ajuste la configuración de señal avanzada
Una vez que haya definido su seƱal, haga clic en Run. AparecerƔ un grƔfico que mostrarƔ el parƔmetro que has configurado.
Sugerencia
Para configurar alertas entre cuentas, seleccione una cuenta de datos de la lista desplegable. Y solo puedes consultar los datos de una cuenta para alertas entre cuentas a la vez.
Para este ejemplo, el grÔfico mostrarÔ la duración promedio de una transacción. Haga clic en Next y comience a configurar su condición de alerta.
Para este ejemplo, personalizarÔ estas configuraciones de señal avanzadas para la condición que creó para monitor la latencia en su aplicación WebPortal.
La duración de la ventana define cómo New Relic agrupa sus datos para su anÔlisis en una condición de alerta. Elegir la configuración correcta depende de la frecuencia de sus datos y del nivel de detalle deseado:
High-frequency data (for example, pageviews every minute): establezca la duración de la ventana para que coincida con la frecuencia de los datos (1 minuto en este caso) para obtener Insights en tiempo real sobre fluctuaciones y tendencias.
Low-frequency data (for example, hourly signals): elija una duración de ventana que capture suficientes datos para revelar patrones y anomalĆas (por ejemplo, 60 minutos para seƱales horarias).
Recuerde, puede personalizar la duración de la ventana según sus necesidades y experiencia. Recomendamos utilizar los valores predeterminados al iniciar y experimentar a medida que se sienta mÔs cómodo creando condiciones de alerta.
Smooth out the noise: Comience creando una ventana de agregación grande. Esta ventana (por ejemplo, 5 minutos) actĆŗa como un bĆŗfer, suavizando el "ruido" inherente o la variabilidad de sus datos. Esto ayuda a prevenir alertas espurias provocadas por picos o caĆdas aisladas.
Avoid lag with a sliding window: Si bien una ventana grande ayuda en el anÔlisis de datos, si espera a que transcurra todo el intervalo antes de verificar el umbral, puede experimentar retrasos significativos en la notificación de alerta. Recomendamos ventanas correderas mÔs pequeñas (por ejemplo, un minuto). Imagine esta ventana deslizante como un marco en movimiento que escanea sus datos dentro de la ventana de agregación mÔs grande. Cada vez que el cuadro avanza en su intervalo menor, calcula un valor agregado (por ejemplo, promedio).
Set your threshold duration: Ahora puede definir su umbral de alerta dentro del contexto de la ventana deslizante mĆ”s pequeƱa. Esto le permite activar alerta rĆ”pidamente cuando el valor agregado en el cuadro actual se desvĆa significativamente del rango deseado sin sacrificar el efecto de suavizado de la ventana mĆ”s grande.
La caracterĆstica de demora en la condición de alerta protege contra posibles problemas que surjan de una recopilación de datos inconsistente. ActĆŗa como un buffer, permitiendo tiempo adicional para que los datos lleguen y se procesen antes de activar una alerta. Esto ayuda a prevenir el falso positivo y garantiza una creación de incidentes mĆ”s precisa.
Cómo funciona:
La configuración de retraso adecuada se determina evaluando la coherencia de los datos entrantes:
Datos consistentes: una configuración de retraso mÔs baja es suficiente si los puntos de datos llegan consistentemente con una marca de tiempo dentro de un solo minuto.
Datos inconsistentes: si los puntos de datos llegan con una marca de tiempo que abarca varios minutos en el pasado o en el futuro, es necesaria una configuración de retraso mÔs alta para dar cabida a la inconsistencia.
Creando un bĆŗfer:
La configuración de retraso seleccionada introduce un perĆodo de espera antes de que la condición de alerta evalĆŗe los datos con respecto al umbral definido.
Este búfer da tiempo para que se resuelvan las discrepancias de datos, lo que reduce la probabilidad de alertas engañosas.
EstĆ” creando una condición de alerta para notificar a su equipo sobre cualquier problema de latencia con la aplicación WebPortal . En este ejemplo, su aplicación envĆa constantemente datos de New Relic. Hay un flujo constante de seƱales que se envĆan desde su aplicación a New Relic y no se espera que haya una brecha en la seƱal, por lo que no necesitarĆ” seleccionar una estrategia para llenar las brechas.
Consistent data flow: Si su aplicación envĆa datos constantemente a New Relic sin los espacios esperados, como en el caso de la aplicación WebPortal, generalmente no es necesario completar los espacios. En tales casos, dejar la estrategia para llenar vacĆos en ninguna suele ser el enfoque mĆ”s apropiado.
Consideraciones clave:
Popular use case: Un uso comĆŗn para rellenar espacios es insertar un valor de 0 para ventanas sin datos recibidos.
Anomaly thresholds: El valor de llenado de espacios se interpreta como el nĆŗmero de desviación estĆ”ndar desde el Ćŗltimo valor observado cuando se utiliza el umbral de anomalĆa. Por ejemplo, llenar los vacĆos con un valor de 0 replicarĆa el Ćŗltimo valor visto, asumiendo efectivamente que no hay cambios.
Las alertas entre cuentas en New Relic le permiten configurar condiciones de alerta que monitorean datos de una cuenta diferente a aquella en la que estĆ” configurada la alerta. Esta caracterĆstica permite una mayor flexibilidad en el monitoreo y la gestión de la dependencia entre mĆŗltiples cuentas dentro de New Relic.
Si una condición de alerta es un contenedor, entonces el umbral son las reglas que debe seguir cada condición de alerta. A medida que los datos ingresan a su sistema, la condición de alerta busca cualquier incidente de estas reglas. Si la condición de alerta ve datos de su sistema que han cumplido todas las condiciones que ha establecido, crearÔ un incidente. Un incidente indica que algo anda mal en su sistema y usted debe mirar.
Seleccione superior e inferior para estar alerta sobre cualquier desviación mayor o menor de lo esperado.
Seleccione solo superior para centrarse Ćŗnicamente en valores inusualmente altos.
Asignar prioridad:
Establezca el nivel de prioridad en crĆtico para su alerta inicial a fin de garantizar la atención a problemas potenciales.
Definir criterios de incumplimiento:
Comience con la configuración predeterminada: abra un incidente cuando una consulta devuelva un valor que se desvĆe del valor previsto durante al menos cinco minutos en tres desviación estĆ”ndar.
Personalice estas configuraciones segĆŗn sea necesario para alinearlas con su aplicación especĆfica y sus requisitos de alerta.
Debe establecer el nivel de prioridad tanto para la anomalĆa como para el umbral estĆ”tico. Consulte la sección anterior para obtener mĆ”s detalles.
En New Relic, las entidades estĆ”n asociadas con el estado de salud codificado por colores. Puedes ver el estado actual de estas entidades desde sus respectivos Ćndices y mapas. Cuando una condición de alerta estĆ” asociada a una entidad, el estado de salud de la entidad estĆ” determinado por la condición de alerta. Si la alerta desencadena un incidente, el estado de salud de la entidad cambia segĆŗn el nivel de gravedad del incidente.
Si desea que la condición de alerta no afecte el estado de salud de la entidad asociada, habilite el interruptor Do not report system health status . Esto es útil cuando desea monitorear una entidad sin afectar su estado de salud general.
Importante
Cuando se crea una condición de alerta entre cuentas, el botón Do not report system health status estĆ” deshabilitado de manera predeterminada. Para evitar que la condición de alerta entre cuentas determine el estado de salud de la entidad asociada, habilĆtela.
avance
TodavĆa estamos trabajando en esta caracterĆstica, Ā”pero nos encantarĆa que la probaras!
Esta caracterĆstica se proporciona actualmente como parte de un programa de vista previa de conformidad con nuestras polĆticas de prelanzamiento.
Cuando el periodo de vista previa pública de alertas predictivas finaliza en cualquier momento por cualquier motivo, su ventana de evaluación de condición de alerta solo se evaluarÔ en relación con el umbral estÔtico, lo que puede generar una ligera demora en la detección de una alerta de infracción.
Predictive Alerts de New Relic analiza datos históricos para predecir tendencias futuras. Si la predicción muestra que el umbral estÔtico puede romper pronto, recibirÔ una notificación de alerta, lo que le da la oportunidad de actuar antes de que se produzcan interrupciones.
En este punto del proceso, ahora tiene una condición completamente definida y establece todas las reglas para garantizar que un incidente se abra cuando usted lo desea. Según la configuración anterior, si su condición de alerta reconoce este comportamiento en su sistema que infringe el umbral que ha establecido, crearÔ un incidente. Ahora, todo lo que necesita hacer es nombrar esta condición y adjuntarla a una póliza.
Una de las mejores prÔcticas para la denominación de condiciones implica un formato estructurado que transmita información esencial de un vistazo. Incluya los siguientes elementos en los nombres de sus condiciones:
Prioridad: indique la gravedad o urgencia de la alerta, como P1, P2, P3.
Entidad: Identifica el sistema, aplicación o componente afectado, como WebPortal App o servidor base de datos.
Un ejemplo de un nombre de condición bien formado que sigue esta estructura serĆa P2 | High Avg Latency | WebPortal App.
Si ya tiene una polĆtica que desea conectar a una condición de alerta, seleccione la polĆtica existente.
Obtenga mĆ”s información sobre cómo crear polĆticas aquĆ.
Equilibrar la capacidad de respuesta y la fatiga en su estrategia de alertas es crucial y usted ha establecido las consideraciones clave con respecto al pageview monitoreo de su aplicación WebPortal . Exploremos las opciones de polĆticas:
Un problema por polĆtica (predeterminado):
Ventajas: Reduce el ruido y garantiza una acción inmediata.
Desventajas: agrupa todos los incidentes bajo un mismo problema, incluso si se desencadenan por condiciones diferentes. No es ideal para problemas de visualización de pÔginas múltiples.
Un problema por condición:
Ventajas: Crea problemas separados para cada condición, ideal para aislar y abordar problemas de latencia especĆficos.
Contras: Puede generar mĆ”s alerta, lo que podrĆa provocar fatiga.
Un problema para cada incidente:
Ventajas: Proporciona detalles granulares para sistemas externos, pero no es óptimo para el consumo interno debido a una posible sobrecarga.
Desventajas: Es la opción mÔs ruidosa y resulta complicado seguir tendencias mÔs amplias y establecer prioridades de forma eficaz.
Obtenga mĆ”s información sobre cómo crear polĆticas aquĆ.
Un incidente se cierra automĆ”ticamente cuando la seƱal objetivo vuelve a un estado de no infracción durante el perĆodo indicado en el umbral de la condición. Este tiempo de espera se llama perĆodo de recuperación.
Por ejemplo, si estÔ midiendo la latencia y el comportamiento de infracción es que duration para cargar pÔginas en su aplicación WebPortal aumentó a mÔs de 3 segundos, el incidente se cerrarÔ automÔticamente cuando duration sea igual o inferior a 3 segundos durante 5 minutos consecutivos.
Cuando un incidente se cierra automƔticamente:
La timestamp de cierre tiene una fecha retroactiva al inicio del perĆodo de recuperación.
La evaluación se reinicia y se reinicia desde que finalizó el incidente anterior.
Todas las condiciones tienen una configuración de lĆmite de tiempo de incidente que fuerza automĆ”ticamente el cierre de un incidente de larga duración.
New Relic tiene un valor predeterminado automĆ”tico de 3 dĆas y recomienda que utilice nuestra configuración predeterminada para su primera alerta.
Otra forma de cerrar un incidente abierto cuando la señal no devuelve datos es configurando un umbral loss of signal . Consulte la sección anterior sobre umbral de señal perdida para obtener mÔs detalles.
Dado que estÔ creando una condición de alerta que le permite saber si hay algún problema de latencia con su aplicación WebPortal , desea asegurarse de que sus desarrolladores tengan toda la información que necesitan cuando se les notifique sobre este incidente. UtilizarÔ flujo de trabajo para notificar a un canal de Slack del equipo cuando se cree un incidente.
Obtenga mÔs información sobre descripciones de incidentes personalizadas en nuestros documentos.
Usar la plantilla de tĆtulo es opcional pero lo recomendamos. Una condición de alerta define un conjunto de umbrales que desea monitor. Si se traspasa alguno de esos umbrales, se crea un incidente. Las plantillas de tĆtulos significativas lo ayudan a identificar problemas y resolver interrupciones mĆ”s rĆ”pido.
Obtenga mĆ”s información sobre las plantillas de tĆtulos en nuestros documentos.
En este campo a menudo se vincula un runbook de operaciones que detalla los pasos de investigación, clasificación o remediación.
Para obtener mÔs información sobre las alertas entre cuentas, consulte nuestras Alertas entre cuentas.
Editar una condición de alerta existente
Si desea editar una condición de alerta que ya creó, puede:
Seleccione Alert Conditions en la navegación izquierda.
Haga clic en la condición de alerta que desea editar.
Desde allĆ, verĆ” la pĆ”gina Alert conditions details . Esta pĆ”gina contiene todos los elementos que configuró cuando creó su condición. Puede editar aspectos especĆficos de la condición de alerta haciendo clic en el lĆ”piz en la parte superior derecha de cada sección.
Historial de seƱales
En Signal history, puede ver los resultados mĆ”s recientes de la consulta NRQL que empleó para crear su condición de alerta. En este ejemplo, verĆ” la latencia promedio en la aplicación WebPortal durante el periodo de tiempo especĆfico que configuró.
Para todas las condiciones de alerta creadas con NRQL consulta, el Signal history se presentarĆ” con un grĆ”fico de lĆneas.
El tipo de condición principal y recomendado es una condición de alerta NRQL, pero existen otros tipos de condiciones. Incluimos una lista completa de nuestros tipos de condiciones a continuación.
Las alertas de anomalĆas le permiten crear condiciones que se ajustan dinĆ”micamente a los datos y tendencias cambiantes, como patrones semanales o estacionales. Esta caracterĆstica estĆ” disponible para las aplicaciones y , asĆ como para la consulta NRQL.
Evaluamos las violaciones del umbral de alerta individualmente para cada una de las instancias seleccionadas de la aplicación. Al crear su condición, seleccione JVM health metric como el tipo de condición para la polĆtica de alertas de su aplicación Java y luego seleccione cualquiera de los umbrales disponibles:
Incluimos la opción de definir un percentil como el umbral para su condición cuando el tiempo de respuesta de su aplicación web es superior, inferior o igual a este valor. Esto es útil, por ejemplo, cuando el personal de operaciones desea alertar sobre un percentil para el tiempo de respuesta de transacción weboverall de un servidor de aplicaciones en lugar del tiempo de respuesta web average .
Seleccione Web transactions percentiles como tipo de condición para la condición de su aplicación y luego seleccione una sola aplicación. (Para alertar en mÔs de una aplicación, cree una condición Web transactions percentiles individual para cada una).
Para definir el umbral que abre el incidente, escriba el valor de tiempo de respuesta Percentile nth y luego seleccione su frecuencia (arriba, debajo o igual a este valor).
Almacenamos el tiempo de transacción en milisegundos, aunque la interfaz de usuario muestra los valores crĆticos y de advertencia en segundos. Si desea definir milisegundos, asegĆŗrese de incluir el punto decimal en su valor.
Al aplicar etiquetas a la aplicación, puede vincular automÔticamente estas entidades a su condición. Esto facilita la gestión de todas las aplicaciones dentro de un entorno dinÔmico. Recomendamos utilizar el archivo de configuración del agente para mantener mejor las etiquetas de entidad.
Una sola etiqueta identifica all entidad asociada a esa etiqueta (mÔximo 10.000 entidades). Múltiples etiquetas solo identifican a la entidad que comparte todas las etiquetas seleccionadas.
Por ejemplo, para recibir una notificación cuando un agente de infraestructura deja de recibir datos, emplee el tipo de condición de host que no informa . Esto le permite alertar dinÔmicamente sobre grupos de hosts filtrados y configurar la ventana de tiempo de 5 a 60 minutos.
Desde la lista de condición de alerta, haga clic en el Ćcono de tres puntos de la alerta que desea copiar y seleccione Duplicate condition.
Desde Copy alert condition, busque o desplĆ”cese por la lista para seleccionar la polĆtica a la que desea agregar esta condición.
Opcional: cambie el nombre de la condición si es necesario.
Opcional: haga clic en el interruptor de palanca para Enable on save
Seleccione Copy condition.
De forma predeterminada, la polĆtica de alertas seleccionada agregarĆ” la condición copiada en el estado Desactivado . Siga los procedimientos estĆ”ndar para agregar o copiar mĆ”s condiciones a la polĆtica de alertas y luego habilite la condición segĆŗn sea necesario. AdemĆ”s, la nueva condición no copiarĆ” ninguna etiqueta agregada a la condición original.
Activar/desactivar una condición
Para deshabilitar o volver a habilitar una condición:
Vaya a one.newrelic.com > All capabilities > Alerts > Alert Conditions. Luego, de la lista de Alert conditions, use el interruptor para habilitar o deshabilitar la condición.
Haga clic en el interruptor On/Off para alternarlo.
Si copia una condición, la guarda automĆ”ticamente en la nueva polĆtica como deshabilitada (Off), incluso si la condición estaba habilitada (On) en la polĆtica original.
Eliminar una condición
Para desactivar una condición pero mantenerla con la polĆtica, deshabilĆtela . Para eliminar una o mĆ”s condiciones: