本文介绍了如何构建情感分类器,从介绍自然语言处理开始,一步一步讲述构建过程。

自然语言处理简介

语言把人类联系在一起。语言是一种工具,它既可以让我们把想法和感受传达给另一个人,也能让我们理解别人的想法和感受。我们大多数人从 1 岁半到 2 岁开始说话。人脑是如何在如此年幼的时候掌握如此大量知识的,这仍是未解之谜。但是,人们已经发现大部分语言处理功能发生在大脑皮层内。

情感分析背后的动机

人类自己无法理解语言是如何被大脑处理的。那么,我们能教一台机器学习我们的语言吗?通过广泛研究,人们已经开发了许多方法来帮助机器理解语言。自然语言处理(NLP)是研究人类语言与计算机交互的领域。自然语言处理的一个子问题是情感分析,即把一个语句分类为积极或消极。把语句分类为积极或消极有什么用呢?以亚马逊网站为例。在亚马逊上,用户可以对一个产品发表评论,说明它是好是坏,甚至可以是中性的。然而,使用人工阅读所有评论并获得客户对产品的总体反馈既昂贵又耗时。再说说我们的机器学习模型。机器学习模型可以通过大量数据进行推断,对评论进行分类。利用这种机器学习模型,亚马逊可以通过客户评论改进其产品,从而为公司带来更多收入。

情感分析并不像看起来那么简单。如果你认为含有「好的」、「很棒」等词的评论可归为积极评论,而含有「坏的」、「苦恼的」等词的评论可归为消极评论,那你需要三思。例如,「完全没有好味道」和「一份好的快餐,但没有什么特别的」分别代表消极和中立的反馈,即使都有「好」字。因此,这项任务可能没有看起来那么简单。接下来让我们看看即将使用的数据。

数据集

我们将使用亚马逊产品评论、IMDB 电影评论和 Yelp 评论来构建情感分析模型。

数据下载链接:https://www.kaggle.com/marklvl/sentiment-labelled-sentences-data-set/data

所有数据都已经过注释,0 表示消极反馈,1 表示积极反馈。亚马逊的数据与下图相似。

4

代码

我们可以写一些代码:

4

数据存储于不同的文本文件中。我们打开每个文件并阅读所有的文本行,文本行还包括每个文本的标签。然后我们将其存储在一个名为「lines」的列表中。

4

数据集的每一行都包含文本,文本后是四个字符空间,还有该文本的标签(0 或 1)。因此,我们先将包含文本的第一部分添加到 features(x) 中,然后获取标签,标签的末尾有「\n」。所以标签被移除,然后添加到我们的标签列表 labels(y)。

4

Keras 有一个内置的 API,使得准备计算文本变得更容易。tokenizer 类共有 4 个属性,可用于特征准备。请看下面的示例,了解 tokenizer 的实际功能。

4

tokenizer 为句子中的每个单词分配索引值,并且可以使用该索引值表示新句子。由于我们使用的文本语料库包含大量不同的单词,因此我们设置了一个上限,只使用最经常出现的 2500 个单词。

4

现在,我们将文本转换为如上所示的数字序列,并填充数字序列。因为句子可以有不同的长度,它们的序列长度也会不同。因此,pad_sequences 会找出最长的句子,并用 0 填充其他较短语句以匹配该长度。

4

我们将标签转换为 one hot 编码,这有助于 LSTM 网络预测文本的标签。现在,我们已经准备好了文本数据,可以把它分为训练样本和测试样本。将 80% 的数据用于训练,20% 的数据用于测试模型。

4

我们现在建立了模型,并对其进行编译、训练和测试。该模型具有嵌入层。输入序列是文本的稀疏表征,因为词汇表巨大,并且给定单词将由大向量表示。如果我们能够构建序列的某种密集表征,那么网络将更容易进行预测。2500 个单词的词嵌入/密集表征是通过嵌入层对模型进行训练获得的。然后,我们将 LSTM 和密集层添加到模型中。LSTM 单元负责进行上下文推断,并帮助预测句子是否积极。密集层输出每个类的概率。本文不详细介绍 LSTM,若想了解其更多信息,请参阅此博客:http://colah.github.io/posts/2015-08-Understanding-LSTMs/。

输出

4

训练

4

测试

完成!你刚刚用 50 行代码构建了一个情感分类器~

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>
【数字匠人】联想袁帅青:“一横五纵” ,打造布局完整稳定高效算力基础设施
2024-07-12 16:42:33
恒润股份:算力租赁业务营收“较为有限” 上半年业绩预亏
2024-07-12 16:36:22
通信出海新举措:工信部批复四地设立国际通信业务出入口局
2024-07-11 14:51:09
国家“东数西算”枢纽节点绿色算力指数研究报告: 和林格尔领跑
2024-07-11 11:01:00
面向GPU高功率未来,相变浸没式液冷做好准备了吗?
2024-07-08 11:54:00
天府智算西南中心投运!四川能投天府云42KW智算风冷算力仓正式交付使用
2024-07-08 11:19:00
2024中国绿色算力(人工智能)大会:和林格尔数据中心集群的崛起与展望
2024-07-08 11:03:31
天罡智算交易平台正式上线 并携手沙利文发布人工智能算力行业白皮书
2024-07-04 11:37:37
以“红船精神”照亮奋斗之路——中国航信教育培训基地
2024-07-04 11:16:13
数能共振 绿算领航 数据中心全生命周期绿色算力指数论坛在京举行
2024-07-03 09:55:23
2024中国绿色算力(人工智能)大会在呼和浩特开幕
2024-07-02 14:30:00
阿里云宣布关停两地数据中心服务
2024-07-02 10:16:40
投资5.27亿元、3840架,中移动一国际数据中心投产
2024-07-02 10:13:42
数据中心如何大幅提升绿电利用率?丨绿色算力产业观察
2024-07-02 09:59:19
走进和林格尔:产业链升级促进算力高质量发展
2024-06-28 15:24:39