外行看热闹,内行看门道。
伊芙卡莉从之前南风app进行的几组新闻摘要测试的输入输出结果中很快验证了她的猜测。
南风app果然采用了全新的文本摘要算法。
至于判断的依据么,很简单。
抽取式的文本摘要直接从原文中摘取单词或完整的短语作为文章的摘要。
这个过程并不会产生新闻原文中没有的单词和短语。
而南风app这款软件在新闻摘要中却会产生很多新闻原文中没有的单词和短语。
也就是说南风app中所采用的算法绝对不是抽取式算法,至少不单单是抽取式算法。
而这种新的算法在进行新闻摘要的一大特征是会产生新闻原文中没有的单词和短语。
比起传统的抽取式文本摘要,伊芙·卡莉觉得南风app里这种全新的摘要方式更像是生成式的摘要方式。
然而新的疑问旋即出现在伊芙·卡莉的脑海之中。
这个南风app的开发者究竟是怎么搞定这种姑且被叫做“生成式摘要算法”的全新算法呢?
所谓的生成式摘要算法这样类似的依托于神经网络的摘要算法他们的开发团队之前也曾经涉猎过。
当时他们将这种算法称为“概括式摘要算法”,可是这种算法经过他们小组多轮测试实际表现并不理想。
虽然这种概括式或者叫生成式文本摘要的摘要算法能够产生原文中没有出现过的表达,相比于抽取式摘要算法更加灵活。
但也正因此生成式摘要更容易产生事实性错误,这些错误既包括与原文信息相违背的内容,又包括与人们的常识相违背的内容。
除此之外,这种生成式文本摘要算法在应付长新闻时很容易表现出明显的疲软乏力。
虽然将这种生成式摘要算法和抽取式摘要算法放到一起的话会改善生成式摘要算法处理新闻长度的能力。
但经过测试,没有生成式摘要算法拖油瓶,抽取式摘要算法反而能够表现的更加理想。
为了稳妥起见,伊芙·卡莉所在的团队最终还是选择通过进一步强化抽取式文本摘要的速度和准确度这一传统文本摘要方向。
一个曾经被他们遗弃的方向,却被别人重新拾起?
听起来有点不可思议,但是事实就是南风app的开发者不但重新拾起他们曾经遗弃的研究方向,反而做的比他们更优秀,可以说是狠狠打脸了。
伊芙·卡莉有点困惑,她怎么也想不通南风app的开发者究竟是怎么在他们认为行不通的方向趟出一条道的。
但有一点可以肯定,南风app的开发者虽然用的也是跟概括生成式算法相类似的算法,但具体到生成式算法本身至少要比他们当初做的那个生成式算法先进一代。
尽管心中困惑加上狠狠被打脸,但伊芙·卡莉并没有表现出很情绪化,至少没有如同尼克在信中表现的那样情绪化。
多年的研究生涯早就养成了伊芙·卡莉宠辱不惊的理性性格。
再者科技方面的进步原本就是此起彼伏。
如果因为一时的得失就患得患失,那还不如尽早换行。
多余的情感波动非但没有必要,反而会影响理智的判断。
深入体验南风app,伊芙·卡莉不得不承认,虽然这款app很像是临时拿翻译软件过来凑数的,但核心算法确实很强。
甚至一如这款软件宣传标语所说的那样——“地表最强”。
除此之外这款软件宣称的摘要速度与摘要准确度碾压同类软件也所言非虚。
等等,想起南风app这款软件宣传标语中着重强调的“准确度”,伊芙·卡莉突然想到了什么。
现在的新闻摘要软件算法在宣传方面都是强调速度的,很少又在准确度方面大谈特谈的。
倒不是因为准确度在新闻摘要方面不重要,恰恰相反,准确度在新闻摘要这方面极其重要,可以说准确度是衡量一个摘要算法堪不堪用最根本的因素,但各种摘要算法很少有对精确度进行极其精确的量化宣传的。
原因无它,因为现在业内对准确度的衡量缺乏一个统一的标准。
听起来很不可思议,但是事实如此,评估一篇摘要的准确度看似很容易,但其实这是一件比较困难的任务。
对于一篇摘要的衡量而言,很难说有标准答案,不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。
在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等衡量摘要准确度的标准都缺乏一个统一的标尺。
https://www.cwzww.com https://www.du8.org https://www.shuhuangxs.com www.baquge.cc