DialogueGCN -- A Graph Convolutional Neural Network for Emotion Recognition in Conversation

2020/02/17 DailyPaper

In this paper, we present Dialogue Graph Convolutional Network (DialogueGCN), a graph neural network based approach to ERC. We leverage self and inter-speaker dependency of the interlocutors to model conversational context for emotion recognition. Through the graph network, DialogueGCN addresses context propagation issues present in the current RNN-based methods. We empirically show that this method alleviates such issues, while outperforming the current state of the art on a number of benchmark emotion classification datasets.

Author(s) & Source

Deepanway Ghosal:目前是新加坡科技设计大学ISTD(Information Systems Technology and Design)博士生,师从Soujanya Poria教授建议,研究方向是自然语言处理、对话系统、图神经网络和多模式交互;

Navonil Majumder:美国国立工业大学计算研究中心博士研究生,研究方向为自然语言处理、机器学习、神经网络、深度学习;

Soujanya Poria:新加坡科技设计大学教授,研究方向为情感分析、多模态交互、自然语言处理、情感计算,曾被Journal of Information Sciences选为2000年至2016年情感分析领域最有影响力的研究人员之一,其有三篇论文被Web of Science列为计算机科学领域引用次数最多的论文;

Niyati Chhaya:印度Adobe研究院大数据体验实验室的高级计算机科学家,研究方向为情感计算、计算语言学、自然语言处理和机器学习;

Alexander Gelbukh:墨西哥国家政治研究所(IPN)研究中心(CIC)的研究教授兼自然语言实验室负责人、墨西哥科学院院士、墨西哥国家研究人员(SNI)、墨西哥人工智能学会前主席,研究方向为计算语言学、自然语言处理、情感计算、意见挖掘、情感分析.

本文发表于EMNLP 2019,https://arxiv.org/pdf/1908.11540

EMNLP全称Empirical Methods in Natural Language Processing,由ACL当中对语言数据和经验方法有特殊兴趣的团体主办,始于1996年。

EMNLP2019于2019年11月3日至7日在中国香港召开,本次会议提交论文2914篇,接收论文683篇,其中长文465篇,接收率为25.6%,短文218篇,接收率为20.5%,总接收率为23.7%,相比2018年24.6%的接收率略有下降。

EMNLP2020举办地点:Punta Cana, Dominican Republic;全文截稿:2020-05-11;开会时间:2020-11-08;CCF分类:B类。

Content & Comment

对话语句的情感识别(ERC)是基础但也异常重要的任务,过去的解决方法通常是将序列语句编码,然后情感分类,例如循环神经网络。但很显然,影响对话中的情感因素除了已经解决的时序(序列编码)因素,其他例如讲话主题\讲话参与者等因素也会影响当前话语的情感,本文解决的便是这样的问题,综合考虑讲话序列以及讲话者两个水平的影响因素,提出基于图卷积网络的DialogueGCN,实现情感识别。在三个情感识别数据集上取得SOTA结果。

  • INTRODUCTION,首先介绍对话情感识别(ERC)及重要性,接下来介绍用于情感识别的常见方法,指出现有方法存在的问题——关注信息不足,针对ERC需要关注时序、对话者、主题信息等问题,提出本文基于图卷积网络(GCN)的ERC模型DialogueGCN。

  • RELATED WORK,包括基于对话文本或多模态(文本\音频\视频)的ERC方法,以及图神经网络的工作。

  • DialogueGCN细节介绍及实现方法,DialogueGCN框架图如下,由文本序列上下文编码、说话者上下文编码和分类器三部分组成,其中,文本序列编码部分将每一句话视为序列成分,依次经过双向GRU进行编码;讲话者编码部分是本文的核心,在对话中参与者以及对话者自身都会影响当前话语的情绪,为此将这两种影响分别定义为inter-dependency以及self-dependency,建模为有向图,通过GCN进行讲话者水平上的上下文特征编码(这部分的更多细节在下面单独介绍);分类器部分将前两部分的编码拼接,多分类任务识别语句的情感。

Speak-level Context Encoding

一段对话被定义为有向图$\mathcal G=(\mathcal V,\mathcal E,\mathcal R,\mathcal W)$,节点$v_i$代表第$i$句对话,初始化为$g_i$;节点之间相互连接的边表示两节点对应的对话是否相互影响,例如假设所有句子之间相互影响,那么图便是一个全连接图,实际边的连接可以认为是人为定义的超参数,即定义一个大小为$p$的窗口,在该句于其前后$p$句之间建立联系;进一步,文章为每一条边定义关系类型$\mathcal R$和权重$\mathcal W$两个属性,关系类型$\mathcal R$从讲话者和先后顺序两个方面考虑,即指向某节点的边的另一节点是否为同一人的话语,另一节点的话语是在该句之前还是之后,框架图中的例子其关系类型如下图所示,共8种($2M^2$, M为讲话者个数);权重$\mathcal W$通过注意力模块计算该节点窗口内的语句与该节点的相关度,其值在0~1之间。最后,通过一个两层的GCN网络实现节点编码。

  • 实验分析和结论


⭐⭐⭐ 对于学习了图神经网络理论的人来说,如何在实际场景中应用图神经网络是非常重要的,本文就提供了一个非常好的场景,如何将对话中的语句\对话者这样的异构甚至抽象信息建模到图中,以利用图神经网络。这篇文章是在AI研习社的翻译版块发现的,原文通过例子进行介绍,非常简单明了,推荐有兴趣的继续阅读原文图卷积网络(GCN)情感识别,以增加自己的理解。

以上仅代表本人见解,如有纰漏,敬请指正!!!

Search

    欢迎关注我的微信公众号

    博士的沙漏

    Table of Contents