Solo para matemáticos: Descubre el algoritmo para detectar fraudes con tu tarjeta de crédito

 

Easy Solutions, la compañía de la Protección Total contra Fraude dio a conocer las ventajas del uso de los algoritmos como una herramienta para la detección de fraudes con tarjetas de crédito, ya que consiste en la identificación de transacciones con alta probabilidad de fraude basándose en patrones históricos previamente registrados.

La utilización de modelos predictivos / motores de aprendizaje como parte clave de los sistemas de detección de fraude ha sido tema de discusión en los últimos años. Diferentes sistemas de detección basados en motores de aprendizaje ya han sido empleados exitosamente, incluyendo redes neuronales, aprendizaje Bayesiano, sistemas inmunológicos artificiales, y bosques aleatorios entre otros.

Banner_frasco-suscripcion-800x250

Normalmente, estos algoritmos se comparan y evalúan mediante medidas de clasificación binarias tradicionales tales como las tasas de alertas falsas, errores de clasificación, características operativas del receptor (ROC), Kolmogorov-Smirnov (KS) o Puntaje F1 (F1-Score).

“Estas medidas pueden no ser el método de evaluación más apropiado a la hora de analizar modelos de detección de fraude, ya que por ejemplo supone tácitamente que los errores de clasificación tienen el mismo costo al de transacciones correctamente clasificadas” afirmó Alejandro Correa Bahnsen, Data Scientist en Easy Solutions. “Esta suposición no se sostiene en la práctica cuando se predice erróneamente una transacción fraudulenta. Una transacción legítima tiene un costo significativamente diferente al de su opuesto”, agregó el ejecutivo.

Con el propósito de tener en cuenta los diferentes costos de la detección de fraude con el uso de un algoritmo, Easy Solutions emplea una matriz de costos modificada. La tabla a continuación presenta esta matriz donde se pueden apreciar los costos asociados con dos tipos de clasificación correcta, a saber, positivos verdaderos C_(〖TP〗_i ), y negativos verdaderos C_(〖TN〗_i ); además de los dos tipos de errores de clasificación, a saber, falsos positivos C_(〖FP〗_i ), y falsos negativos C_(〖FN〗_i ), donde en el caso de falsos positivos, el costo asociado es de carácter administrativo C_(〖FP〗_i )=C_a   y representa el análisis de la transacción y la correspondiente notificación al tarjetahabiente. Este costo es el mismo asignado a un positivo verdadero C_(〖TP〗_i )=C_a, ya que en este caso, el tarjetahabiente tendrá que ser notificado. Asimismo, cuando un fraude no es detectado, las pérdidas de dicho incidente corresponden al monto robado, por ende el costo de un falso negativo es igual al monto de la transacción C_(〖FN〗_i )=〖Amt〗_i. Cabe mencionar que debido a que cada transacción tiene diferentes montos, el costo de un falso negativo depende directamente de cada transacción (i).

Matriz de Costos de Fraude con Tarjetas de Crédito

Captura de pantalla 2016-03-23 a las 11.35.47 p.m.

Así, utilizando las etiquetas Real () y Predicción (), el costo del uso de un algoritmo en transacciones se evalúa mediante:Captura de pantalla 2016-03-23 a las 11.37.30 p.m.

Para mostrar los resultados del uso de la medida de evaluación de costos, se comparan diferentes modelos de motores de aprendizaje, los cuales fueron entrenados con datos reales de fraude con tarjetas suministrados a su vez por una importante entidad europea de procesamiento de tarjetas. Particularmente, la evaluación se realizó sobre una regresión logística, un árbol de decisión y un bosque aleatorio. Las bases de datos contienen aproximadamente 750.000 transacciones, un radio de fraude del 0.467%, y pérdidas totales producto del fraude por un valor de 866.410 Euros. De esta forma, se comparan los resultados de los algoritmos de acuerdo al Puntaje F1 y a los Costos según se definen en la ecuación mencionada previamente.

 Captura de pantalla 2016-03-23 a las 11.34.23 p.m.

Se observa que el mejor modelo evaluado por una estadística como el Puntaje F1 no es aquel que minimiza el Costo financiero, por ejemplo, el modelo que maximiza el Puntaje F1 es el clasificador Árbol de Decisión. No obstante, dicho modelo se desempeña muy deficientemente cuando se evalúa según el Costo. Por otro lado, el algoritmo Bosque Aleatorio es el que minimiza la medida de Costo, pero muestra un desempeño bajo al evaluarse según Puntaje F1.

“Esto nos ayuda a entender la necesidad de una medida de evaluación más orientada hacia los negocios, como el Costo”, concluye Alejandro Correa Bahnsen.

Con este tipo de medida, las compañías están en capacidad de tomar decisiones mejor alineadas con sus objetivos, ya que la discusión no se centrará en los niveles esperados de falsos positivos o satisfacción de los clientes, sino en el impacto económico real del fraude y su detección.

Fuente: Sentidos Comunicaciones


Reciba las últimas noticias de la industria en su casilla:

Suscribirse ✉


 

Please enter your comment!
Please enter your name here