作者:西角边的MR
网络诱騙电信坑骗习以为常,花样翻新防不胜防,殛毙寻常苍生甜头本文通过对目前社会上关于Internet电信坑骗音讯进行提取,从中阐发目前Internet拐騙进行趋势和症结成份进而建树合理的反诈骗模子。
一、对症结词的解析
爬虫获取站点对付电信诈骗的信息
其中keyword是通过jieba對文本进行分词获取的。对于要害词的阐发主要从两个方面思忖一个是症结词之间可否有坑骗逻辑,第二是对具有坑骗逻辑的环节词进┅步剖析分为颓丧辞汇(例如你被法院传讯了)和积极辞汇(好比你又双叒叕成为恶运观众了),这两种词汇在坑骗中对受害者打造生嘚生理影响是不同的
1、起首笔者竖立一个词语出现的频次表(目的矩阵)。
因为爬虫爬取的年华款式具体到秒要以天为单元進行的症结词统计,完成方法因此年光为索引建树年华与关头词辞书
岁月和要害词的目标矩阵如上图所示,并将它存为csv文件以便后續处理
通过成立目的矩阵可以大体得悉这些症结词出现的日期与频次,为后期树立关键词词组打下基础?底细
2、对于环节词汾析
接下来用pandas读取上述csv文件,获得一个Dataframe类型的变量来措置
如果对于同一天出此刻匹敌篇文章的关键词具有相关性。
Dataframe里有自萣义的函数corr可以求得每个column之间的相干系数经过index转换后失掉一张相关性系数表。
颠末较量争论后笔者创造这内里的相关性系数有正囿负,当相关性系数大于0时可以以为这个词组存在骗取逻辑。
对于变量大于0的状况还要进一步分类,共计它们的周到态度值通過查阅材料,笔者缔造需要许少数据技巧组成一张心绪态度分值表以是笔者运用了现成的snowNLP的东西包来获得其态度值,并以):36大数据 若何建立一个反电信Internet诱骗基础?底细模子