||
股票市场预测是自然语言处理领域长期存在的挑战,因为它涉及到处理格式不同的数据。中国的研究人员构建了一种新的异构图神经网络来模拟不同数据组之间的相互作用。他们的模型得出的预测优于基线数据。
对于金融投资者来说,如果他们希望自己的投资表现良好,找到有效预测股票和股票行为的方法是至关重要的。从新闻到财务报告,有很多关于推动股市波动因素的在线信息来源。但是,开发能够利用这些不同形式的自然语言数据来创建准确预测的模型并不容易。事实上,对于自然语言处理来说,这是一个巨大的挑战。
(图片来源:bing)
哈尔滨工业大学社会计算与信息检索研究中心的一组研究人员构建了一个模型,可以综合这些多个数据源及其包含的各种形式的数据。发表在KeAi期刊AI Open上的研究结果表明,他们的模型获得了比现有模型更高的AUC(area under the precision-recall curve)分数。
IMAGE: The architecture of the proposed framework. The green, red and blue solid circles denote sentence, word, and event triple nodes, respectively.
正如作者熊凯解释的那样:“金融文本包含单词级、事件级和句子级的信息。仅仅使用单个单词组合,也被称为单个语义单元,不足以收集有效预测模型所需的所有信息。”
根据共同作者丁效的解释,他们开发的基于异构图的顺序多粒度信息聚合框架Heterogeneous Graph-based Sequential Multi-Grained Information Aggregation Framework(HGM-GIF)可以解决这个问题。
“为了获得单词级别的信息,即细粒度数据,我们的框架使用了一个stopwords列表——换句话说,就是在处理自然语言数据时应该过滤掉的单词列表。为了获得事件信息,即中粒度数据,我们使用现有的openIE工具从金融文本中提取一系列由主语、动词和宾语组成的事件三元组。而为了从这些粗粒度数据中获取信息,我们对金融文本中的句子进行了拆分。”
“为了模拟这些不同数据集之间丰富的联系,我们使用启发式规则来建立单词、事件三元组和句子之间的联系。这就产生了一种新颖的异质图神经网络,可以模拟它们的相互作用。”
在他们的模型中,单词顺序与文本(事件三元组和句子)交互进行信息选择,事件三元组与事件三元组交互进行事件关系理解,句子与事件三元组交互进行上下文信息补充,事件三元组与句子交互进行信息选择。作者刘挺补充道:“然后我们将结果与特定公司的信息配对,得出最终的股市预测。”
该团队还从模型中去除不同种类的信息和图神经网络层,以调查影响。根据作者秦兵的研究,这些“消融”研究表明,词汇、事件三元组和句子对信息选择都很重要,而每个信息聚合层对最终的股票市场预测都很重要。
文章信息
Heterogeneous graph knowledge enhanced stock market prediction
Kai Xiong,Xiao Ding,Li Du,Ting Liu,Bing Qin
AI Open
Volume 2, 2021, Pages 168-174
扫码免费阅读
AI Open 致力于分享人工智能及其应用理论的可操作知识和前瞻性观点。该期刊欢迎关于人工智能及其应用的各个方面的文章。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-27 08:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社