Hasta poco tiempo atrás LinkedIn utilizaba humanos para descubrir palabras y frases en listas de bloqueo o cuentas falsas que que violan los términos de servicio. Cuando estos curadores humanos encontraban alguna frase o palabra en listas de bloqueo o descubrían un perfil falso, la red de profesionales eliminaba la cuenta.
Lamentablemente ese procedimiento con humanos era muy costoso y presentaba los siguientes problemas:
- Escalabilidad: Este enfoque es un proceso fundamentalmente manual, y se debe tener mucho cuidado al evaluar palabras o frases.
- Contexto: Se pueden usar muchas palabras en contextos apropiados e inapropiados. Por ejemplo, la palabra «escolta» a menudo se asocia con la prostitución, pero también se puede usar en contextos como «escolta de seguridad» o «escolta médica».
- Mantenibilidad: Las listas de bloqueo solo crecen con el tiempo a medida que se identifican más frases. El seguimiento del rendimiento en su conjunto es simple, pero hacerlo frase por frase no es trivial. Se requiere un esfuerzo de ingeniería significativo para garantizar que se mantenga la estabilidad del sistema.
Por todo lo anterior decidieron cambiar y despu[es de varias pruebas recurrieron a un modelo que utiliza Inteligencia Artificial.
Daniel Gorham de LinkedIn en un artículo en el blog de Ingeniería de LinkedIn explica que aprovecharon una red neuronal convolucional, un tipo específico de arquitectura de aprendizaje automático. De acuerdo a Groham este tipo de redes son partícularmente útiles para datos con propiedades «espaciales», o sea que «existe información contenida en el hecho de que dos valores de características son adyacentes entre sí«. Es por eso que estas redes trabajan bien en tareas de clasificación de textos e imágenes.
Con respecto al modelo de aprendizaje automático de LinkedIn, es un clasificador de texto capacitado en contenido de perfil públicos.
Gorham señala lo siguiente sobre el modelo,
Hemos aprovechado este modelo en particular como parte de nuestro trabajo continuo para eliminar cuentas abusivas en nuestra plataforma. Este sistema puntúa diariamente nuevas cuentas en producción y también se ejecutó en la base de miembros existente para identificar cuentas antiguas que contienen contenido inapropiado. En el futuro, continuaremos refinando y ampliando nuestro conjunto de capacitación para aumentar el alcance del contenido que podemos identificar con este modelo. Además, tenemos la intención de aprovechar los servicios de traducción de Microsoft para garantizar un rendimiento sólido en todos los idiomas admitidos por la plataforma LinkedIn.