Co potřebujete vědět o Bayesovském filtrování spamu

by Heinz Tschabitscher

Zjistěte, jak vám pomohou statistiky zachovat čistotu doručené pošty

Bayesovské spamové filtry vypočítávají pravděpodobnost, že zpráva je spam na základě jejího obsahu. Na rozdíl od jednoduchých filtrů založených na obsahu se Bayesovská filtrace nevyžádané pošty učí z nevyžádané pošty a dobré pošty, což vede k velmi robustnímu, přizpůsobivému a účinnému anti-spamovému přístupu, který nejlépe nevrací téměř žádné falešné pozitivy.

Jak rozpoznáte nevyžádanou poštu?

Přemýšlejte o tom, jak zjistíte spam . Rychlý pohled je často dost. Víte, jak vypadá nevyžádaná pošta a vy víte, jak vypadá dobrá pošta.

Pravděpodobnost, že spam vypadá jako dobrá pošta, je kolem ... nula.

Hodnocení obsahu filtrů na základě obsahu se neupravuje

Nebylo by skvělé, kdyby automatické spam filtry fungovaly taky?

Zaznamenávání spamových filtrů založených na obsahu to zkusí pouze. Hledají slova a další charakteristiky typické pro spam. Každému charakteristickému prvku je přiděleno skóre a skóre spamu pro celou zprávu je vypočteno z jednotlivých bodů. Některé scoringové filtry také vyhledávají charakteristiky legitimní pošty, což snižuje konečné skóre zprávy.

Přístup scoringových filtrů funguje, ale má také několik nevýhod:

Seznam charakteristik je sestaven ze spamu (a dobré pošty), který je k dispozici inženýrům filtru. Chcete-li dobře pochopit typický spam, který by někdo mohl dostat, musí být pošta shromažďována na stovkách e-mailových adres. To zhoršuje účinnost filtrů, zejména proto, že charakteristiky dobré pošty budou pro každou osobu odlišné , ale to se neberou v úvahu.
Vlastnosti, které je třeba hledat, jsou víceméně postaveny do kamene . Pokud spamátoři usilují o přizpůsobení (a jejich spam vypadá jako dobrá pošta na filtrech), musí být filtrační charakteristiky vylepšeny ručně - ještě větší úsilí.
Skóre přidělené každému slovu je pravděpodobně založeno na dobrém odhadu, ale je stále libovolné. A stejně jako seznam vlastností se přizpůsobuje ani měnícímu se prostředí spamu obecně ani potřebám jednotlivých uživatelů.

Bayesovské spamové filtry Tweak se samy, lepší a lepší

Bayesovské spamové filtry jsou také druhy filtrů založených na obsahu. Jejich přístup však odstraňuje problémy s jednoduchým zaznamenáním spamových filtrů a dělá to tak radikálně. Vzhledem k tomu, že slabost skórovacích filtrů je v ručně sestaveném seznamu charakteristik a jejich skóre, tento seznam je vyloučen.

Namísto toho Bayesovské spamové filtry sestavují seznam sami. V ideálním případě začnete s velkým množstvím e-mailů, které jste klasifikovali jako nevyžádanou poštu a další banda dobré pošty. Filtry se podívají na obojí a analyzují legální poštu i spam, aby vypočítali pravděpodobnost různých charakteristik, které se objevují v nevyžádané poště a v dobré poště.

Jak Bayesovský spamový filtr zkoumá e-mail

Vlastnosti Bayesovského spamového filtru, na který se můžete podívat, mohou být:

slova v těle zprávy, samozřejmě, a
jeho hlavičky (například odesílatelé a cesty zpráv ), ale také
další aspekty, jako je kód HTML / CSS (například barvy a jiné formátování) nebo dokonce
slova páry, fráze a
meta informace (kde se například zobrazuje konkrétní fráze).

Pokud se například slovo "kartézské" nikdy neobjeví ve spamu, ale často v legitimním e-mailu, který obdržíte, pravděpodobnost, že "kartézský" označuje spam, je téměř nula. "Toner", na druhé straně, se objevuje výlučně a často v spamu. "Toner" má velmi vysokou pravděpodobnost, že bude nalezen v spamu, ne moc pod 1 (100%).

Když přijde nová zpráva, analyzuje ji Bayesovský spamový filtr a pravděpodobnost, že celá zpráva je spam, se vypočítá podle jednotlivých charakteristik.

Předpokládejme, že zpráva obsahuje jak "kartézský", tak i "toner". Z těchto slov samo o sobě ještě není jasné, zda máme spam nebo legit maily. Další charakteristiky (pravděpodobně a pravděpodobně) naznačují pravděpodobnost, že filtr může klasifikovat zprávu buď jako nevyžádanou poštu, nebo za dobrou poštu.

Bayesovské spamové filtry se mohou automaticky naučit

Nyní, když máme klasifikaci, může být zpráva použita k dalšímu výcviku filtru. V takovém případě je pravděpodobné, že se "karteziánská" pravděpodobnost, že se jedná o dobrou poštu, sníží (pokud se zpráva, která obsahuje jak "kartézský", tak i "toner") považuje za nevyžádanou poštu, nebo pravděpodobnost "toneru" indikujícího nevyžádanou poštu.

Pomocí této auto-adaptivní techniky se Bayesovské filtry mohou naučit jak z jejich vlastních, tak i od rozhodnutí uživatele (pokud ručně opraví nesprávný odhad filtrů). Adaptabilita Bayesovského filtrování také zajišťuje, že jsou pro jednotlivého e-mailového uživatele nejúčinnější. Zatímco spam většiny lidí může mít podobné vlastnosti, legitimní mail je charakteristicky odlišný pro všechny.

Jak mohou spamoři dostat za Bayesovské filtry?

Vlastnosti legitimní pošty jsou stejně důležité i pro filtrování nevyžádané pošty v Bayesovském spamu. Pokud jsou filtry vycvičeny speciálně pro každého uživatele, spammeri budou mít ještě těžší čas pracovat kolem spamových filtrů všech (nebo dokonce většiny lidí) a filtry se mohou přizpůsobit téměř všemu, co spamátoři vyzkouší.

Spamovníci budou jen dělat to kolem dobře vyškolených Bayesian filtrů, pokud se jejich spam zprávy vypadají dokonale jako obyčejný e-mail všichni mohou dostat.

Spamové jednotky obvykle neposílají takové běžné e-maily. Předpokládejme, že je to proto, že tyto e-maily nefungují jako nevyžádaná pošta. Takže je pravděpodobné, že to nebudou dělat, když obyčejné, nudné emaily jsou jediný způsob, jak se dostat mimo spamové filtry.

Pokud se spammeri přepnou na většinou obyčejně vypadající e-maily, uvidíme opět ve spamu ve schránkách Doručená pošta a e-maily se mohou stát stejně frustrující jako v pre-bayeských dnech (nebo ještě horší). Bude také zničit trh pro většinu druhů nevyžádané pošty, a proto nebude trvat dlouho.

Silné indikátory Mohou to být Bayesovský spamový filtr "Achilles" Pata

Jedna výjimka může být vnímána pro odesílatele spamu, aby si mohli projít Bayesovskými filtry i se svým obvyklým obsahem. Je to povaha bayesovských statistik, že jedno slovo nebo charakteristika, která se velmi často objevuje v dobré poště, může být tak významná, že z jakéhokoli poselství vypadá jako nevyžádaná pošta, aby byla hodnocena jako šunka filtrem.

Pokud spamátoři najdou způsob, jak zjistit, zda jsou vaše zprávy v pořádku s dobrými e-maily - pomocí potvrzení o návratu v kódu HTML, abyste zjistili, které zprávy jste například otevřeli, mohou zahrnovat jednu z nich do nevyžádané pošty a oslovit vás i prostřednictvím dobře- vyškolený bayeský filtr.

John Graham-Cumming se to snažil tím, že nechal dva bayesovské filtry pracovat proti sobě, "špatný", který se přizpůsobil, na které zprávy se dostává přes "dobrý" filtr. Říká, že to funguje, i když proces je časově náročný a složitý. Nemyslíme si, že se toho hodně dozvíme, přinejmenším ne ve velkém měřítku, a ne přizpůsobené jednotlivým e-mailovým charakteristikám. Spamové mohou (zkusit) zjistit některé klíčová slova pro organizace (něco jako "Almaden" pro některé lidi v IBM možná?) Místo toho.

Obvykle se nevyžádaná pošta bude (podstatně) lišit od běžného pošty nebo nebude to spam.

Bottom Line: Síla Bayesovského filtrování může být jeho slabost

Bayesian spam filtry jsou filtry založené na obsahu, které:

jsou speciálně vyškoleni k tomu, aby rozpoznali nevyžádanou e-mailovou nevyžádanou poštu a dobrou poštu , což je činí vysoce efektivní a obtížně se přizpůsobuje spammerům.
může neustále a bez velkého úsilí nebo ruční analýzy přizpůsobit nejnovějším trikům spamerů.
berte v úvahu dobrou poštovní zásilku uživatele a mají velmi nízkou míru falešných pozitivních výsledků .
Bohužel, pokud to způsobí slepou důvěru v Bayesovské antispamové filtry, udělá občas chybu ještě vážnější . Opačný účinek falešných negativů (spam, který vypadá přesně jako běžná pošta) může narušit a zmařit uživatele.