|||
用JGibbLDA处理中文时,中文数据集不用UTF-8格式,会出现乱码;用UTF-8格式,会提示第一行数字(文档数)读取后无法转化。
经测试,可文档编辑器(如Editplus,UltraEdit之类)将数据文本保存为无bomb的UTF-8格式。
感谢毛进同学提供建议。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 13:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社