Skip to content

Datacon2023 邮件安全赛道 赛题1 新型钓鱼邮件的检测 示例数据集

Notifications You must be signed in to change notification settings

yaoyue123/datacon2023-spoof-email

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

datacon2023-spoof-email

Datacon2023 邮件安全赛道 赛题1 新型钓鱼邮件的检测 示例数据集

数据格式

比赛使用的数据集总共包含约 30000 封邮件,格式均为 eml。

数据集中包含以下四类邮件:

  • 正常邮件:指合法的、非垃圾邮件的电子邮件。这些邮件通常包含个人或商业通信、订阅的新闻或信息更新、工作相关的邮件等。总数据集中的正常邮件约为 10000 封。
  • 垃圾邮件:指未经请求或未经授权发送给大量用户的不需要或无意义的电子邮件。这些邮件通常包含广告、促销信息、诈骗信息、色情内容等,它们的目的是向用户发送垃圾信息或欺骗用户获取个人信息。总数据集中的垃圾邮件约为 10000 封。
  • 钓鱼邮件:指一种试图欺骗接收者以获取其敏感信息(如用户名、密码、信用卡信息等)的电子邮件。这些邮件通常伪装成合法的机构或服务提供商(如银行、社交媒体平台、电子支付系统等),要求接收者点击链接或提供个人信息。总数据集中的钓鱼邮件约为 10000 封。
  • 误报邮件:误报邮件是指被错误地标记为钓鱼邮件的合法邮件。这些邮件可能是由于邮件网关过滤器的误判或用户设置的错误导致的。误报邮件可能包含重要的通信、订阅的服务更新或其他合法信息,但被错误地归类为钓鱼邮件而被误报。总数据集中的误报邮件约为 1000 封。
  • 在比赛过程中,选手将会获得总数据集的 10%~20% 作为无标签的训练数据集,其中只包含垃圾邮件和钓鱼邮件。这些邮件数据经过脱敏处理,并将在比赛开始后的 7 天内分 7 次下发给选手。

About

Datacon2023 邮件安全赛道 赛题1 新型钓鱼邮件的检测 示例数据集

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published