Skip to content

El spam financiero, cada vez más refinado. Un análisis de calidades

Publicado por Sergio Hernando el 7 febrero 2007

Los spammers no tienen ni un pelo de tontos, y prueba de ello es que diariamente modifican la manera en la que presentan su publicidad no deseada en los buzones. Esta presentación siempre busca por un lado maximizar el interés del usuario, a la vez que se minimizan las probabilidades de que el spam enviado sea catalogado como correo basura.

El otro día hablábamos de FuzzyOCR, un plugin para Spamassassin destinado a analizar las imágenes adjuntas a los mensajes de correo, en busca de publicidad y otros contenidos basura. FuzzyOCR se basa en la herramienta gocr. Sin llegar a ser la solución ideal al spam basado en imágenes, es un buen punto de partida para capear el temporal.

Pero los spammers, como decía, no tienen un pelo de tontos. Vamos a ver algunos ejemplos reales de imágenes procedentes de mi correo personal, y vamos a ver qué le pasa a Spamassassin si lo llevamos a condiciones extremas, es decir, si en vez de suministrarle un mensaje de correo completo, con texto, cabeceras y otros muchos factores de análisis, le pasamos sólo la conversión OCR de las imágenes adjuntas a un correo de spam financiero. Se trata de una instalación limpia de Spamassassin, que no se ha enfrentado a tráfico real.

EJEMPLO 1: cornflakes.gif

spam

1. Sometemos la imagen a OCR (gocr cornflakes.gif >> cornflakes.txt)


_, L_ Concc_cg _r 5l.l nillion

_ic?inhg_' Tec_lc_ __c3
S_ol_ _
_c__ce_ Sl.33
i_LIle_ Bla _e_ EXnc_Ccú __9

_ l8_ C_ _jor _________LL_Ly _____ C_ l_C 3 _e_ Ch8C
_ill Dring in __ l.l _illion in ___c___o. ni8 8olid
i_ngt_nC çq_9 ig _i__ _ng. __og_ t__ __ on
Chiy cq8n9 _ C_ ne_ conCr_C8. _ig _e_ i8 c_in?
__9. DonIC _igg iC! _C in on _ _irçC Chi_
___g_ 9 _rni_!

2. Evaluamos el texto contra Spamassassin (spamassassin -D < cornflakes.txt)

X-Spam-Status: No, score=1.7 required=5.0

3. Resultado

El control antispam, basado únicamente en la conversión OCR de la imagen, ha fracasado. Además, la puntuación otorgada por Spamassassin al texto no garantiza que otros factores como cuerpo de mensaje, cabecera y asunto clasifiquen el mensaje en basura. Desde el punto de vista de un spammer, este gráfico es un spam de calidad.

Adicionalmente, el emborronamiento al que se ha sometido a la imagen dificulta la conversión OCR, la cual es apenas inexistente. Técnicamente, es un spam muy efectivo, pero sacrifica el impacto visual del usuario, debido al excesivo emborronamiento de la imagen.

4. Evolución en el mercado de valores

Yahoo Finance

Picos de subida, siendo un valor actualmente a la baja.

EJEMPLO 2: nights.gif

spam

1. Sometemos la imagen a OCR


íi1yinhai TechncLogy Ltd
Symbol_ XNYH
Pi?oe $1.fO u? 1J.6X
No',e: Hita Highe of $_.70 :oday
More New8 Enpected romorro%

In the laet 3 weeke they have Landed ove_ $1.2
MiLlion in cont?actB. Todaye newe announced
anothe? huge oont?aot. Read alL the newe and
eet your buy fo_ XNYH firet thing rueeday
nornjng!

2. Evaluamos el texto contra Spamassassin

X-Spam-Status: No, score=4.2 required=5.0

3. Resultado

El control antispam, basado únicamente en la conversión OCR de la imagen, ha fracasado, pero el puntaje es muy cercano al umbral , con lo que con toda seguridad, otros datos como cabecera, cuerpo y asunto elevarán el score a más de 5.0, quedando el mensaje atrapado en el filtro. Esta imagen, desde el punto de vista de un spammer, requiere un refinamiento muy extremo para no levantar las alarmas en los filtros. Es spam de baja calidad.

La conversión OCR es buena, y eso ayuda a clasificar el mensaje como basura. El emborronamiento es leve, con lo que el impacto en el usuario es máximo.

4. Evolución en el mercado de valores

Yahoo Finance

Picos de subida, siendo un valor actualmente a la baja.

EJEMPLO 3: milestone.gif

spam

1. Sometemos la imagen a OCR


lDRJ Climbs 7% Toda!L Rlnne!

lmpany: larbon Race Cnrporatinn
5!_ol: lBRJ
Preyious: _1.5B
Today's llose: _l.65

mis one is one the nD_e. In_estor buying pusheLI price
up 7%. mis one is starting to rise. lheck out the n_
and get on lBRJ Tuesday!

2. Evaluamos el texto contra Spamassassin

X-Spam-Status: No, score=1.7 required=5.0

3. Resultado

El control antispam, basado únicamente en la conversión OCR de la imagen, ha fracasado. Además, la puntuación otorgada por spamassassin al texto no garantiza que otros factores como cuerpo de mensaje, cabecera y asunto clasifiquen el mensaje en basura. Desde el punto de vista de un spammer, este gráfico es idóneo, es un spam de calidad.

La conversión OCR es buena, pero el texto ha sido cuidado para prevenir filtrados. En este caso el spammer ha optado por un mensaje corto, muy nítido gráficamente, al menos comparado con otros mensajes, mucho más enborronados. El mensaje, corto en longitud, dificulta cazar el mensaje por filtro de palabras.

4. Evolución en el mercado de valores

Yahoo Finance

Valor estacionario, con un impresionante desplome el lunes, tras cotizar a casi 400% de su valor actual. Esto confirma que en el momento de emitirse el mensaje, se produjo un inflado espectacular del valor de la acción, teoría que puede estar avalada por la calidad del spam.

EJEMPLO 4: hearingaid.gif

spam

1. Sometemos la imagen a OCR


Dekot, F,nn!np FI Im _ontlnues Yo
HI t He,bl Ines

Yhe Mct!Dn PIcture Crou_
__mbol : MPPD
Prlce: _0, L9
Yerpet: _0, 40

Dekot, F,nn!np FI Im ''Hound Doç''
mFost,,popul,,r,t th,e5,und,dnc,e,F,,!),m,,

8'e'r?,?r', Snt5ernnO,Wt1o'n',iUrF_im
Festl?el , We could see ,nother
,,mo,o?,_nç,w,e,e,ko,odf,,tr,,,d,,lng;Ddoonu_t,,

_our mone_, Cre? MPffG flrst th1nç
Wedncsd,_,

2. Evaluamos el texto contra Spamassassin

X-Spam-Status: No, score=4.2 required=5.0

3. Resultado

Al igual que en el ejemplo 2, el control antispam, basado únicamente en la conversión OCR de la imagen, ha fracasado, pero el puntaje es muy cercano al umbral , con lo que con toda seguridad, otros datos como cabecera, cuerpo y asunto elevarán el score a más de 5.0, quedando el mensaje atrapado en el filtro. Esta imagen, desde el punto de vista de un spammer, requiere un refinamiento muy extremo para no levantar las alarmas en los filtros. Es spam de baja calidad.

Técnicamente, el mensaje es poco eficiente. El mensaje está excesivamente emborronado, es demasiado largo, y causa poco impacto en el usuario final.

4. Evolución en el mercado de valores

Yahoo Finance

Valor muy fluctuante, con poco margen de oscilación. Sin movimientos notorios.

Un saludo para todos :)

Be Sociable, Share!

Categoría/s → Seguridad

6 comentarios
  1. 7 febrero 2007

    Sería interesante saber como se comportarían los ejemplos que has puesto si previo al OCR se le pasara a las imágenes algún sencillo filtro gráfico que corrigiera el efecto “noise”. Quizás los resultados serían más clarificadores, ¿no crees?

  2. 7 febrero 2007

    Seguro que si, José Antonio. No te quepa duda.

    El problema es que ese prefiltrado en un servidor de correo es impensable, no sólo por la carga a la que induciría el análisis, a todas luces insoportable, sino por el hecho de que el “blurring” es aleatorio en cada muestra, con lo que intuyo difícil que un automatismo aplique el grado de “desenborronado” adecuado según el caso.

    Un saludo :)

  3. 7 febrero 2007

    Bueno, el coste computacional es de los costes que más se devalúan con el tiempo (justo al contrario que el euribor xDDD ).

    Si estos métodos de spam acaban imponiéndose, no dudes que la solución habrá que combatirla por ahí.

  4. 8 febrero 2007
    David permalink

    Desconocía este sistema de detección de SPAM y no me había fijado en la recepción usando éstas técnicas. Como lo borro directamente…. jajajaja.

    Desde luego puede ser un sistema muy potente pero estoy de acuerdo que los costes de análisis pueden ser muy altos.

    Saludos,

    dvd

  5. 8 febrero 2007

    David,

    Unos los borran, y otros los coleccionamos :P

    Yo creo que soy de los pocos usuarios que AGRADECE y MUCHO ser incluído en listas de spam (eso sí, spam cualificado, no spam de powerpoint y correos cadena, claro), así me nutro de muestras a tutiplén :)

    Saludos,

  6. 9 marzo 2009

    En lugar de tango OCR, lo que hay que hacer es cortarle internet a la gente que es tan estúpida como para creerse semejante mensajes, que son difíciles de leer con tantos trucos que le meten.

Escribir un comentario

Note: XHTML permitido. Tu email nunca será publicado.

Suscribirse a los comentarios via RSS