关于SOC的详细思路 | 空岛之恋的博客

机器学习安全设备安全运营安全日志运维安全攻击链路

安全运营

发布日期: 2019-09-02

作者: 空岛之恋

文章字数: 2k

阅读时长: 6 分

阅读次数:

系统名：变更名称报警，一般只有管理员才拥有修改主机名权限，此处名称作为设备的唯一标识，相对重要，也方便在发生故障，或安全事件时，能够快速定位故障点。此处就需要严格控制能够修改主机名权限的人员，另外，也可结合智能引擎识别恶意用户给出报警，减低误报率。
设备类型：分网络设备，安全设备，服务器等，如防火墙，WAF，IDS等，用于标识设备功能，在故障发生时，以防止忘记只有系统名标识该设备所具有的功能。
分组类型：网络组，安全组，服务组，业务组等
操作系统版本：无论网络设备，还是服务器等，都会有相应的支撑系统，这里列出操作系统的版本以显示相应版本是否存在高危漏洞，同时，期望给出相应版本的升级建议。操作系统的版本随意变更也希望给出警告，也需要严格控制系统补丁更新操作的权限。
固件版本：一般是硬件BIOS版本信息，这个信息容易忽略，也非常关键，也需要加入关键补丁修复建议，对于版本的变更也应给出告警。
IP地址：有些设备会有多个IP地址，应给出区分。IP地址也不应该随意变更，变更会报警。
系统运行时间：可以知道机器是否出现过宕机等故障
CPU类型：包括频率、物理核数和逻辑核数
CPU使用频率：能够按逻辑核数显示出其对应的频率，可以显示1min,5mins,15mins的情况，设置一阈值，比如达到80%使用报警，持续达到100%使用则持续报警
CPU物理故障：可能存在的物理故障，影响性能
内存大小与使用大小比例：实时获取信息，超过50%告警，超过80%高危报警，可以显示1min,5mins,15mins的情况
虚拟内存大小与使用大小比例：同上
物理内存故障：能够显示设备上内存大小，条数，存在故障的内存信息
网络端口状态信息：down or up
网络端口进出数据包信息：数据包统计，字节统计
进出口流量状态：各个端口流量状态图，可以显示1min,5mins,15mins的情况
按协议/IP地址/端口/地理位置统计信息：需要结合外部信息
网卡故障：显示网卡信息，能够显示故障网卡
磁盘大小与使用比例：超过80%报警，可以显示多个分区情况
磁盘故障：物理故障和逻辑故障
进程信息：默认显示TOP5高CPU、内存、网络使用进程，也可以完全显示。显示信息有CPU占用、内存占用、网络资源、端口、协议类型、CPU使用时间等
系统核心进程监控：可以自定义添加需要监控的进程信息，比如某些系统核心进程和服务进程，发生进程注入攻击时，或异常使用资源时都能够给出报警。
自定义需要监控的文件：比如文件访问，文件修改，文件权限变更，包括用户拥有者和读写执行权限
用户信息：用户创建、修改、删除信息
用户权限：权限变更，操作权限，系统权限，如资源使用，文件权限，登录权限等；
用户登录：用户登录成功，失败，只显示关键信息
补丁信息：是否存在高危漏洞，以及补丁修复情况

以上功能可以分标签自定义设置要监控项目实现，并能够按照分组进行分类需要监控的项目，会给出默认监控项，可以勾选需要监控的项。

同时，对于以上有告警的监控项目，能够实现设置维护时间，按照人，时间，事件，做什么等设置维护，并记录这些维护事件。

以上信息如可以都分别存储到数据库，事件保留时间为180天为计算，实行回滚覆盖。

这是第一个大屏所要显示的实时信息，主要是运维为主的安全监控。

第二个大屏要展示的是各个设备上收集到的关键日志信息，比如防火墙上的过滤日志，IDS上的拦截日志，WAF上的过滤日志，操作系统上的执行日志等，这些日志，也是我们要提炼的，防火墙和IDS上的主要是以异常流量为主的过滤，以TCP/UDP协议为主，这里可以展示的统计信息有：

TOP10的拦截IP，以及其地理位置，以及存在的设备名
TOP10的拦截域名，以及其地理位置，以及存在的设备名
TOP10的攻击类型，主要以WEB攻击为主，以及存在的设备名
TOP10的DDOS攻击类型，以及所影响的设备
TOP10程序执行的命令，恶意关联的，如数据库操作，系统越权等

这边的最重要的职责是通过异常发现能够发现设备中存在的漏报和误报，这是一种事后反哺事先的辅助措施。

除去内网IP和VPN敏感操作留下的日志，我们需要通过用户行为收集各个运维操作者的行为特征，当出现异常对象，异常操作时，我们期望可以发现内鬼和外部攻击，因单纯地看外部攻击，很多只要通过基于规则和规则的设备监控可以拦截和发现，而这种情况是无法防御内鬼的。同时基于规则的过滤，都很容易被绕过，无论是防火墙，还是WAF等设备，我们可以使用聚类，聚类出异常流量，聚类特征可以通过观察，日志属于时间序列学习，要设定好时间分片，聚类出的异常流量，再来一波分析，对于标注信息，我们可以基于各个设备上的判断，比如对于IP，更多地是基于外部威胁情报，而域名检测，可以使用统计特征，HTTP(s)的流量检测可以基于攻击类型，程序执行日志，比如webshell，是基于程序文件来提特征等，无论哪种类型的检测，思路都是一样的，先检出异常流量，再细分攻击类型，确定为恶意后，我们可以跟设备检测的进行对比，再这里给出误报率和漏报率，以及哪些被漏报和误报，同时，能够反哺到设备进行人为修补。以此不断加强设备的防御能力。

第三个大屏期望可以显示的是实时攻击节点告警，和攻击链路显示，当被入侵时，能够实现显示攻击的链路，以及给出告警提醒监控人员，及时响应，每个节点都是以设备形式呈现，点击可以显示设备的详细信息，事中、事后的攻击链路梳理，能够实时呈现出哪个节点存在的防御不足，如何实现这个攻击的链路相对准确的显示呢，这个就是通过上面说到的要求设备和日志不断加强自身的检出能力，那么就可以通过比如IP地址在各个设备上的存在来绘制出攻击链路。

第四个大屏可以给出图关联，比如给出任意域名，IP或设备都能够，实现其信息的溯源关联，如域名注册信息，是否被用作僵尸网络等。