褒贬在客观语言事实上确实是一个连续体,因此 把 love ... like ...dislike ...hate, 放在一个连续轴上 makes sense,特别是如果褒贬分析做得细的话。但是实际上,多数褒贬分析系统做得很粗,最粗的就是褒、贬、中三分法。我们算做得细的,是切了五刀,强褒(love),弱褒(like),中(default),弱贬(dislike),强贬(hate)。这是我们褒贬分析的目标和结果。如果对具体语言单位要切出比5更细的刀法,不是不可能,而是没必要,因为对大数据进行褒贬挖掘的时候,还有一个褒贬数量的因素可以参与计算,总体的量可以弥补个体的质之粗疏。
于是褒贬指数(所谓净情绪)出笼了,它是企业最想知道的情报之一。就是通过褒贬语的数量比,来看网民的总体情绪如何。这个褒贬指数 by nature 是连续的,因为每个品牌的褒贬量都可能不同。
从问答(question answering)系统的角度看,why 的问题和 how 的问题是公认的最难自动回答的问题。我们从根本上解决了这个问题。
镜子提到用 like/dislike 表达品牌的优劣作为情绪之外的另一维度,这实际是很有见解的一个思路。具体说就是,一维专门表达情绪(管它强度),另一维表达优劣(pros/cons),作为情绪的理由。这样的图示也许更insightful,但是有相当困难。维度通常只善于表达可以归类的概念(比如褒贬,比如烈度),而pros/cons千差万别,不同领域不同产品也很不同,不好统一归类到一根轴上去展示。除非 pros n cons 的具体内容隐而不显,likes/dislikes 这个维度只反映提到 pros/cons 的数量,否则似乎是不可行的。
我们目前表达pros/cons(也叫 likes/dislikes,用其可数名词的复数,正好与镜兄提议吻合),常常用 top n 来表达,对于成千上万的 pros/cons,只选取 top n (如 top 10)利用 pie chart 或者 word cloud 来显示,以此来应对不好归纳的困难。
RE:投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。