Best Online
WAN-IFRA: el algoritmo detecta spams y comentarios cargados de odio

Un algoritmo detecta spams y comentarios cargados de odio en los tablones de periódicos digitales, en una entrevista de WAN-IFRA.

Los comentarios en los artículos son una gran herramienta para editores de noticias. De ellos extraen información tal como saber si el artículo ha sido de interés, conocer las opiniones que generan los textos periodísticos y como instrumento de retención de los lectores. Pese a ello, en ocasiones estos comentarios vienen cargados de un discurso de odio, tal y como explica Nicolai Erbs a WAN-IFRA.

Para luchar contra estos ataques, como son el spam o las opiniones que sobrepasan un cierto límite, la Universidad Técnica de Darmstadt (Alemania) ha creado un proyecto de investigación que lucha contra estos fenómenos. En una entrevista concedida a WAN-IFRA, el profesor de informática de la UT de Darmstadt, Nicolai Erbs, ha contado el trasfondo de esta tecnología que permite clasificar los comentarios de los lectores. Erbs, que participará en la próxima conferencia de WAN-IFRA que tendrá lugar en Berlín (Alemania) el 12 de octubre, ha explicado que esta tarea se ha vuelto más ardua debido al fenómeno de las noticias falsas sumado a los comentarios que siguen el discurso del odio.

El proyecto desarrolla algoritmos que son de interés para la gestión de comentarios de lectores. El primer paso se centra en la compresión del idioma utilizado ya que cada lengua requiere el suyo propio. En segundo lugar, tras un filtro previo que los lectores han debido responder antes de publicar su comentario, se hace una comparación entre las palabras del artículo y lo escrito por el lector verificando las relaciones semánticas. Las construcciones gramaticales también quedan dentro de este proceso, así como palabras relacionadas.

¿Cómo identificar los spams?

Tal y como explica el profesor Erbs en la entrevista a WAN-IFRA, los spams clásicos son sencillos de reconocer ya que contienen enlaces o palabras clave específicas. El algoritmo que han creado en la UT de Darmstadt reconoce errores gramaticales, algo que suele contener los spams; además de construcciones gramaticales pobres o un uso excesivo de exclamaciones.

Para luchar contra los spams y los comentarios cargados de odio, han elaborado una lista de palabras basadas en comentarios realizados hasta la fecha. Cuando uno es detectado, automáticamente se elimina del tablón de comentarios.