博文

（一）文本预处理

已有 8274 次阅读 2009-8-21 22:18 |个人分类:文本挖掘|系统分类:科研笔记

在用数据挖掘算法对文本进行处理之前的文本预处理有很多地方不明白。从后往前推会有这些问题：

（1）如何将文本转化成能用数据挖掘算法处理的结构化数据？

理论上的向量空间模型，如果我有一大堆文本要进行表示，现在有什么工具么？还是要自己编写程序来做？

（2）分词不是我研究的重点，但是还是有些疑问.

我可以直接用现有的分词软件来做吗？如果用分词软件，那其中涉及到的各种分词算法和去停用词等工作是不是就可以全部由分词软件来决定呢？

（3）理论上进行文本的特征表示后还有一个特征提取，那又什么可以批量处理的方法呢？

（4）信息检索的评估结果（查准率，查全率，召回率）是不是有个人工的过程？如果是某种体系，那我们又如何来证明这个体系的正确性呢？

要是用人工来对付几百甚至几千份数据是不是太恐怖了。加上如果是自己建立词库不是要耗费更大的精力。

看了众多论文，上面只有理论知识和实验结果，我实在不明白别人的实验结果是怎么得到的。

目前遇到的问题就这么多。还要继续努力，明天给论文的作者发邮件，希望能有某个论文的作者可以告诉我试验室怎么做的。

转载本文请联系原作者获取授权，同时请注明本文来自彭柳艳科学网博客。
链接地址：https://blog.sciencenet.cn/blog-211732-250757.html

上一篇：反思进步
下一篇：跑步

收藏 IP: .*| 热度|

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

扫一扫，分享此博文