湛江电销不封号系统怎么办理,了解湛江电销不封号系统,咨询湛江电销不封号系统
电销防封系统,专为电销企业定制的封号解决方案
支持批量外呼,无高频,双备份线路
实体号码呼出,引入电话保护机制
从源头降低封号风险!!!
基于中文环境的微博与基于英文环境的Twitter在语言表达习惯上存在着很大的差异,因此用于微博文本的情感分析工具与Twitter平台上的情感分析相比有很大不同。刘智等人从集成学习的角度出发,设计了一种基于样本空间动态划分的机制,在此机制上构建了微博文本情感分类器,通过实验实现了大规模评论集的情感分析以及用户观点挖掘[9]。史伟等人提出了一种基于KBANN的情感分析方法来解决没有情感关键词存在的文本,通过构建隐性知识来推测文本的情感状态[10]。众多研究学者为微博话题发现和舆情文本情感分析注入了新的研究方法和思想理念。而基于多源数据挖掘与融合来研究舆情文本情感与舆情演化规律的研究很少。故本文从多源数据角度出发,利用文本情感分析技术,对不同数据源中的网络舆情情感状况进行分析,实现对网民情感的挖掘,为网络舆情的引导和控制提供有益借鉴。
(一)数据源选取。在中文语言环境中,舆情案例的数据源一般都来自新浪微博。它是一个为大众提供信息交流共享和娱乐休闲的平台。据央视财经统计,截止2020年第三季度,微博的月活跃用户数达5.11亿。因此,以新浪微博为数据源进行的研究具有一定的代表性。
(二)数据采集。在明确研究对象和数据来源后,要对舆情案例的相关数据进行采集。根据新浪微博平台的数据开放程度和网页结构特点,采用Python软件通过网络爬虫的方式获取文本数据,并且有针对性的编写Python脚本抓取微博文本数据。利用新浪微博的高级搜索功能,选定时间范围为2019年3月1日到2019年8月30日,以“经贸磋商”为搜索关键词,编写Python爬虫程序进行数据采集,采集的主要字段包括:用户名、发布内容、发布时间。共采集到17436条微博文本数据。
(三)数据预处理。由于微博平台具有大众化,不受任何的时空限制,灵活度较高的特点,用户在发表博文的过程中,不会受到文字格式的约束,因此文本内容中往往包含大量噪声数据,如网址HTML标签、话题标签、无用的表情符号等。这些噪声数据对文本的分词和词频统计都会造成影响,所以在数据预处理阶段要对这些无意义的信息进行清洗。使用正则表达式对文本内容数据进行清洗,删除重复的文本数据,删除@、数字、无用网址、表情等无关内容,提取文本内容,再将清洗后的数据进行分词处理,利用python中的JIEBA分词工具包,对文本内容逐条进行分词,去除停用词、标点符号等无意义的词。对处理好的数据进行高频词统计并绘制词云图,其结果如表1和图1所示。数据来源:根据采集的微博文本数据统计整理而得。由高频词可以看出,网民支持国家做出的决定,纷纷为国家加油打气,表示中国绝不会被此事件吓倒,此事件的发生会让国家变得越来越强大,不畏惧对方提出的挑战,表现出了网民的爱国主义情怀。
发表评论