The Puchi Herald: Free Webmail e SPAM: come dove e perché

Ritorniamo dopo tanto web browsing a parlare di Mail e di Webmail in particolare.

le Webmail sono uno degli strumenti di invio di spam più in uso nel pianeta. le motivazioni di questo uso è che sono particolarmente semplici da gestire utilizzare, e soprattutto sono gratuite.

Esiste un mercato particolarmente fiorente che riguarda la creazione di account di webmail che si espone alla luce del sole.

Le motivazioni sono evidenti, “comprare” un certo numero di caselle di posta free da un provider di livello (Yahoo, Google, Microsoft, AOLICQ o liberoWind per citare i più grossi) consente di inviare spam attraverso un canale che verrà difficilmente blacklistato e consente di mantenere un largo anonimato.

Va considerato anche il fatto che molti di questi provider di servizi di mail, e in particolare Yahoo(Ymail, e le varie declinazioni nazionali Yahoo.xx), Google (Gmail), Microsoft (Hotmail, MSN, Live) ed AOLICQ offrono servizi integrati come Messenger, Scambio di documenti, condivisione di blog etc…… etc……, che possono essere usati per veicolare ulteriori messaggi, spam o malware che sia.

Innanzi tutto dobbiamo chiederci perché un provider offre una webmail free al pubblico: la risposta è semplicemente pubblicità.

Questo è anche il motivo per cui, in origine, la lotta allo spam era vista come un servizio marginale. il conteggio e la valorizzazione della pubblicità su di una webmail si basa infatti fondamentalmente su due paradigmi:

più utenti = maggior valore per gli inserzionisti = più spazi per pubblicità venduti = più soldi
più traffico = più uso del mezzo = più valore per gli inserzionisti= più spazi per pubblicità venduti = più soldi

per quanto banale sia questa osservazione, la cosa ha consentito da un lato la crescita esponenziale delle webmail, dall’altro l’accesso a spammer ed cybercriminali a questo strumento.

Il problema nasce negli scorsi anni quando ci si accorge che la proliferazione dello spam proveniente dalle caselle di webmail free porta a due fenomeni fastidiosi:

Da un lato la disaffezione del pubblico nei confronti delle mail troppo intasate da spam, dall’altro il proliferare di meccanismi di blacklisting che, nei fatti, impedivano un coretto uso del mezzo da parte degli utenti in maniera indiscriminata.

La conseguenza evidente è una diminuzione degli introiti pubblicitari del provider di servizi, da qui nasce l’esigenza della lotta allo SPAM.

Questa lotta viene effettuata oggi come oggi su due direttive principali e, nei fatti, sottintende ad esigenze di business abbastanza diverse.

SPAM in ingresso Vs. Spam in USCITA

Cerchiamo innanzi tutto di capire come funziona, in maniera elementare, una webmail.

La Webmail non è altro che un client di posta che non risiede sul PC di un’utente ma risiede su un webserver.

I metodi di comunicazione tra l’utente ed il client sono propri della comunicazione via HTTP, sarà poi compito del Webmail server tradurre e comunicare correttamente (SMTP, IMAP, POP) col Mail server vero e proprio.

L’uso di una webmail per altro non impedisce l’uso di metodi tradizionali quali imap, pop3 ed smtp ma è complementare a questi.

Dal punto di vista della free Webmail il lato chiave consiste nel consentire all’utente di registrarsi autonomamente. Il Webmail server offre un form tramite il quale l’utente crea la sua casella di posta, la sua username e la sua password.

Essendo il meccanismo eseguito tramite HTTP le transazioni possono essere facilmente automatizzate a patto di scoprire la sequenza di comunicazione che avviene tra il client ed il server.

Questa è una operazione elementare alla portata di chiunque: per provare installatevi su firefox live header e vedete cosa accade quando fate una registrazione di un account di mail. ad esempio su libero ottenete:

Come si nota il tutto si riduce ad una serie di POST inviati con una sintassi elementare.

Diventa estremamente facile, quindi, cercare di forzare questo schema con un software che, automaticamente, generi un largo numero di account.

La Webmail per sua natura quindi è un Mail server con una interfaccia client gestita da un WebMail Server che consente la comunicazione con un qualsiasi sistema postale.

La posta quindi può assumere 3 direttive fondamentali:

posta dall’esterno verso la webmail
posta dall’interno della webmail verso l’esterno
posta tra utenti della medesima webmail.

Se aggiungiamo il fatto che alcune caselle sono in mano a servizi di spamming e che lo spam arriva da fuori otteniamo le seguenti elementari considerazioni:

Gli utenti della Webmail ricevono SPAM dall’esterno:

Questo si traduce in un fastidio per l’utente che può portare alla sua disaffezione e quindi al calo degli introiti pubblicitari. La soluzione in questo caso è quella di diminuire lo spam in ingresso con apposite soluzioni antispam per l’INBOUND

Gli utenti Webmail ricevono SPAM dall’interno:

Questo si traduce in 2 elementi chiave: da un lato c’è il fastidio dell’utente e la sua disaffezione che porta ad un calo del numero di utenti e quindi un calo degli introiti pubblicitari, dall’altro lo spam interno generato è indice che vi sono caselle non associate ad un utente umano e quindi inutili ai fini pubblicitari. questo porta ad una dequalificazione del valore delle caselle a fini pubblicitari e quindi al calo del valore unitario per casella. ancora una volta questo si traduce in un abbassamento degli introiti pubblicitari. La soluzione più efficiente in questo caso è cercare di assicurarsi l’umanità degli utilizzatori delle caselle di posta.

Utenti esterni ricevono spam dalla Webmail:

In questo caso il problema è legato a due fattori:

il blacklisting
la pubblicità negativa

è evidente come questi due parametri incidano sul valore della webmail, anche se in maniera più marginale rispetto a quelli precedenti. La soluzione è tipicamente quella di mettere un sistema antispam anche in uscita.

Risulta evidente quindi che per le webmail diventi imperativo adottare meccanismi di controllo per ridurre l’impatto di questo fenomeno, e che le problematiche inerenti lo SPAM in ingresso (se si vuole generato esternamente) ed in uscita (o generato INTERNAMENTE) richiedono approcci e metodologie profondamente diverse e sottintendono esigenze economiche diverse.

Il tutto si può tradurre nel seguente paradigma:

perché una casella di mail abbia valore deve essere associata ad un utente umano e, questi, deve utilizzarla con soddisfazione.

In origine venne l’antispam

Il primo meccanismo di difesa delle webmail è stato, ad onor del vero, l’introduzione di filtri antispam più o meno efficienti.

l’introduzione di meccanismi antispam in ingressouscita è servito a mitigare le problematiche di spam. ben presto però ci si è resi conto che questa protezione non era sufficiente; il tasso di errore ad esempio (falso positivo eo falso negativo) e le problematiche inerenti allo spam generato internamente non erano soddisfacenti.

Il passo successivo è stato l’introduzione (YAHOO e Microsoft in primis) delle junk folder (caselle spam) e della possibilità di dare all’utente la capacità di notificare se il messaggio era o meno di spam.

Il meccanismo di notifica (spam, non spam) consente l’aggiustamento dei parametri del motore antispam, e consente anche di misurare il livello di affezione del cliente.

[NOTA: è fuori dallo scopo di quest’articolo indicare come certe metriche possano essere utilizzate per misurare il gradi di affezione di un utente, ma per chi fosse interessato ad aprire un tavolo di discussione sull’argomento avete la mia assoluta disponibilità]

Questa introduzione ha consentito un miglioramento dell’uso della mail ed ha, nei fatti, dato il via alla seconda giovinezza di provider come Microsoft che aveva sofferto per un certo periodo una crescente disaffezione del pubblico.

rimane inalterato il problema di come garantire che un utente sia umano o meno.

I primi meccanismi introdotti furono legati alla misurazione di quanto spam in uscita veniva generato da un utente, ma questo non si è rivelato, nel tempo, un processo sufficiente. Rimaneva scoperto un problema fondamentale: come garantire l’umanità dell’utente?

E venne il CAPTCHA

Ad aiutare i provider di posta elettronica è intervenuto il test di Turing prima la CARNAGIE MELLON university poi attraverso il CAPTCHA.

CAPTCHA significa : “completely automated public Turing test to tell computers and humans apart.” ed è un copyright di Carnegie Mellon University.

L’idea di base è quella di applicare il test di Turing alla rovescia al fine di capire se chi si interfaccia a noi è umano o meno. di fatto quello che viene fatto è presentare all’utente una stringa alfanumerica in una immagine deformata. La idea di base è quella di rendere la comprensione del testo difficile per un sistema automatico, se alla immissione si fa un errore viene ripresentato un nuovo testo, in questa maniera si limitano gli attacchi di tipo bruteforce.

Esistono diverse filosofie ed algoritmi per creare il CAPTCHA, alcuni come Yahoo si basano su stringhe alfanumeriche generiche, altri come Google preferiscono l’uso di un dizionario di parole (magari con qualche errore).

se si vuole approfondire questo argomento alcuni link utili sono:

L’introduzione del CAPTCHA, oramai diffuso, ha trovato notevoli resistenze in origine in quanto si pensava che gli utenti avrebbero mal digerito questo ulteriore meccanismo di security. In realtà i vantaggi hanno largamente superato gli svantaggi e se è vero che il CAPTCHA è stato largamente craccato rimane una barriera formidabile per limitare l’uso delle caselle di webmail a bot e programmi vari.

L’uso del CAPTCHA si è esteso non solo alla iscrizione ma anche al controllo dei flussi di mail generati dagli utenti, per permettere un maggior rigore nel determinare la umanità dell’emittente e quindi, contemporaneamente, diminuire l’emissione di SPAM e qualificare e valorizzare la casella Webmail a fini pubblicitari.

L’ingresso di Google nel mercato delle Free Webmail è un chiaro indice che queste sono da considerarsi un veicolo di vendita pubblicitaria formidabile, e le titubanze di BigG ad entrare in questo mercato erano legate, in gran parte, alla necessità di garantirsi questo minimo livello di protezione e valore.

La chiave di volta è stata nella introduzione di contatori e limiti diversi nei flussi di posta con la composizione di meccanismi tipo CAPTCHA per rendere le webmail uno strumento utilizzabile. Gli utenti hanno mostrato, in larga parte, di accettare queste limitazioni ed introduzione a patto fosse spiegato loro lo scopo. ad esempio l’introduzione di CAPTCHA e limiti di invio anche per gli account paganti è stato più volte pubblicizzato e spiegato sulla webmail e sul portale di Yahoo.

Cosa si fa oggi:

Oggi come oggi i vari provider si sono organizzati per offrire una serie di limitazioni ai flussi di posta per cercare di garantire il corretto uso della medesima, un minor apporto di spam, ed un basso numero di UserBot.

Il meccanismo ha avuto un certo successo, infatti la quantità di SPAM proveniente dalle grandi Webmail come Yahoo, Gmail ed Hotmail è abbastanza basso (dobbiamo distinguere tra mail inviate realmente da questi provider tramite i loro Webserver, e lo Spoofing che si dichiara come proveniente da un dominio anche se non lo è).

Limitazioni in ingresso

per quello che concerne le limitazioni in ingresso è uso comune cercare di ridurre il numero di connessioni e di messaggi provenienti da una sorgente esterna. lo scopo è quello di ridurre la possibilità di meccanismi automatici, botnet o quant’altro, di saturare la banda ed i servizi e, contemporaneamente, di ridurre lo SPAM in ingresso.

Di tali limitazioni ho parlato in un post precedente, vi riporto qui i parametri più evidenti (e vi rimando alla lettura del post per i dettagli ed i link utili)

Yahoo.com – 8 concurrent connections, 15 recipients in 1 minutes
Hotmail.com – 10 concurrent connections, 25 recipients in 1 minutes
Gmail.com – 20 concurrent connections, 100 in 5 minutes

oltre a questo i sistemi utilizzano un filtro Antispam che tagga la mail al fine di poterla inviare nella cosiddetta Junk Folder da parte del mailserver.

Limitazioni all’iscrizione

L’uso del CAPTCHA è largamente sfruttato. Ogni CAPTCHA utilizza tecnologie diverse ed è più o meno semplice da craccare la tutti condividono la stessa ida di base.

In aggiunta la raccolta di dati geografici come Codice Postale, città, stato sesso e cosi via aiuta soprattutto in termini di marketing definition. tra le varie richieste risulta interessante l’uso introdotto da alcuni provider tra cui Yahoo della richiesta di una Mail secondaria che, per alcuni, è vincolo obbligatorio tramite l’invio di un codice di attivazione.

Per altro risulta evidente che se molte richieste finiscono sula stessa mail secondaria vi è qualcosa di strano.

Un limite che viene posto è tipicamente (Google, Yahoo, Microsoft) il numero massimo di iscrizioni provenienti da una certa sorgente IP per unità di tempo (solitamente in minuti). Questo assieme al captcha serve a diminuire l’efficacia di meccanismi di iscrizione automatici.

Limitazioni di flusso in uscita

Qui il discorso si fa più eterogeneo, esistono diversi approcci. comune a tutte le grandi è, innanzi tutto, la limitazione al numero di mail in uscita.

La idea di base è che un umano non manda milioni di mail al giorno, e, soprattutto, non può scriverne decine in pochi secondi.

Quello che viene fatto da Yahoo ad esempio (ma comportamenti analoghi anche se con trigger e metriche diverse, sono fatti da Hotmail ed Gmail) è

1) porre un limite al numero massimo di mail che si possono inviare in 24 ore.

Superato questo limite l’utente viene informato tramite un Pop-up che non può inviare nulla fino al reset della finestra temporale.

2) porre un limite al numero di mail che si possono inviare in una ora

Superato questo limite, al tentativo di invio di un messaggio appare un CAPTCHA che serve a verificare che l’utente sia effettivamente umano

3) limitazioni al numero di complain

Se un utente viene segnalato come spammer da altri utenti Yahoo viene posto un CAPTCHA ai successivi invii di mail con un warning di disattivazione. in questo caso occorre riferirsi al supporto per farsi “liberare”.

4) Introduzione del CAPTCHA all’invio di mail se viene superato un certo numero di messaggi di spam trovati dal motore antispam in uscita per quell’utente.

nel caso di Yahoo l’azzeramento è automatico, in altri casi viene richiesto l’invio di un messaggio al supporto.

Effetto di queste limitazioni

questo lavoro vale lo sforzo?

Ogni medaglia ha due facce, se da un lato queste limitazioni servono sia per aumentare la confidenza che l’utilizzatore sia umano (e quindi aumentare il valore economico della casella webmail) che per diminuire lo spam generato, dall’altro queste limitazioni potrebbero essere talmente fastidiose che gli utenti si disaffezionano in quanto lo strumento è considerato troppo complesso.

Dal punto di vista implementativo l’introduzione di metriche più o meno mirate ha consentito nel tempo di raffinare questo uso:

Consideriamo due aspetti:

Un sistema automatico è più efficiente di un umano in quanto risulta estremamente più veloce. Quindi la velocità di esecuzione può essere un parametro interessante.

Difficilmente, ad esempio, un umano riesce ad inviare un messaggio al secondo, una tale limitazione quindi sarebbe efficiente contro sistemi automatizzati ma quasi trasparente per gli utenti.

Ma un sistema automatico è anche estremamente costante, difficilmente un essere umano necessita di inviare migliaia di mail al giorno tutti i giorni, un vincolo sulle 24 ore risulterebbe quindi quasi impercettibile per un utente reale.

la idea è che questi vincoli, una volta introdotti, non debbano essere visibili all’utente se on in casi eccezionali, a meno che l’utente medesimo sia un bot.

Questo non toglie lo spam dalle webmail, esistono sempre possibilità di hacking di sistema. Le tempistiche si possono aggirare, ad esempio, utilizzando più caselle in contemporanea invece che molte mail da una sola casella, ed il CAPTCHA con i suoi algoritmi va periodicamente modificato, altrimenti viene “craccato” (come è già successo a Google, Yahoo ed Hotmail). Ma nel complesso questo riduce sensibilmente la emissione di spam ed aumenta il valore economico della casella offerta.

Mi si consenta una nota finale: si noti che, in questo caso, l’investimento in sicurezza è di fatto un investimento di asset di business e non una spesa, l’introduzione di questi meccanismi di fatto aumenta il valore dell’asset stesso.

ciao

The Puchi Herald

Informazioni personali

Cerca nel blog

Translate

giovedì 11 giugno 2009

Free Webmail e SPAM: come dove e perché

SPAM in ingresso Vs. Spam in USCITA

Gli utenti della Webmail ricevono SPAM dall’esterno:

Gli utenti Webmail ricevono SPAM dall’interno:

Utenti esterni ricevono spam dalla Webmail:

In origine venne l’antispam

E venne il CAPTCHA

Cosa si fa oggi:

Limitazioni in ingresso

Limitazioni all’iscrizione

Limitazioni di flusso in uscita

Effetto di queste limitazioni

Nessun commento:

Posta un commento

Elenco blog personale

Post più popolari

Segnala una violazione