科学网

 找回密码
  注册
Token为什么翻译为词元?
李斌 2026-2-26 21:53
Token(词元)术语详解:来源、内涵、定义 Token译为 词元 ,是语言学、计算语言学、自然语言处理(NLP)领域的核心基础术语,其内涵从符号学、理论语言学的原生概念,逐步延伸至计算语言学、大模型技术场景,最终形成了国内学界统一的“词元”译法。而 Type与Token 是相伴而生的一对经典二分术语,是现代语言学、语 ...
个人分类: Computational Linguistics|667 次阅读|没有评论
2025年总结——充满奇迹 恍如一梦
李斌 2026-1-21 10:28
2025 年总结 今年是特别辛苦的一年,完成了太多不可能完成的任务,做成了许多不可思议的事情,恍如一场梦! 奇迹般地全程线上办完了第二届古代语言处理国际会议 ALP2025 ,在墨西哥州的NAACL上举办。楔形文字、希伯来文、拉丁文、古汉语等十多种古代语言计算的学者聚在一起,讨论大模型、小模型的种种应用 ...
个人分类: Computational Linguistics|754 次阅读|没有评论
林语堂发明的中文打字机终于找到了,已被斯坦福大学收藏
热度 1 李斌 2025-12-24 21:56
虽是旧闻,但刚刚得知,2025年,林语堂的中文打字机,终于在纽约地下室被发现了!! 跟学生讲了十几年的中文信息处理概论,年年都要讲林语堂的打字机,传言它存放在中国台北的林语堂故居, 我还专门拜托学院去台北交流的本科生去探访,结果没有找到,说书桌上只有英文打字机,还以为被工作人员收起来了。 2018年 ...
个人分类: Computational Linguistics|5135 次阅读|2 个评论 热度 1
中文信息处理前传之二|汉字设计的现代之路
李斌 2025-12-24 14:55
汉字设计的现代之路 作者: 岳洁琼 / 刘钊 出版社: 河北教育出版社 出版年: 2024-6 ISBN: 9787554578278 这本书是一本难得的实物考据的图文并茂的中文信息处理领域的新书。书中梳理了汉字在信息化和数字化过程中的种种遭遇,以及诸多天才学者的发明创造。姑且将它誉为《中文信息处理前传之二》。此书内容不论,仅相 ...
个人分类: Computational Linguistics|1698 次阅读|没有评论
我国语料库和计量语言学的早期探索
热度 1 李斌 2025-12-13 17:50
1922年11月,黎锦熙在《国文学会丛刊》创刊号上发表《国语中基本语词的统计研究》一文,经常被认为是语言统计方法用于汉语研究的开始。此文确实是提出了使用科学测验和统计方法,解决汉语教育问题,在理论和方法上提出了重要的研究问题、方向和路径。不过,此文仅有4页,篇幅不大,没有给出具体的统计数据。我们可以把它 ...
个人分类: Computational Linguistics|1894 次阅读|3 个评论 热度 1
748工程——汉字信息处理系统工程
李斌 2025-10-2 23:04
748工程是1974年8月由原第四机械工业部联合第一机械工业部、中国科学院、新华社等机构发起的国家重点科技攻关项目,全称“汉字信息处理系统工程”。该工程下设 精密中文编辑排版系统、中文情报检索系统和中文通信系统 三个子项目,旨在攻克汉字计算机信息处理技术难题,推动印刷技术革新。 工程启动后由北京大学王选团队 ...
个人分类: Computational Linguistics|2067 次阅读|没有评论
《论系统工程》笔记-社科技术
李斌 2025-10-2 10:29
《论系统工程》是钱学森等人合著、上海交通大学出版社于2007年1月出版的系统科学理论著作。 PS:为人文计算科学找理论依据,发现钱老的书多有精彩论述,颇有启发,有很多值得参考借鉴之处,谨记如下: 首先是人工智能和计算机的冲击下,人应该怎么办? 情报资料、图书、文献和档案工作的现代化及其影响 当我们讨论了 ...
个人分类: Computational Linguistics|1567 次阅读|没有评论
《触电的帝国:电报与中国近代史》——中文信息处理前传
李斌 2025-9-18 23:41
PS:备课查资料,不想看到马大侠的书,一发不可收拾,半日读完,精彩万分! 《触电的帝国:电报与中国近代史》 马伯庸、阎乃川, 2012年4月,浙江大学出版社出版 这是一部奇书,充满了快意江湖色彩的科技史! 电报,作为计算机诞生之前人类书面通信的杰出发明,给全世界带来了巨大的动力和震撼,而清末民 ...
个人分类: Computational Linguistics|1203 次阅读|没有评论
宗成庆老师重磅报告——计算语言学没有退路
李斌 2025-8-29 20:18
按:这也许是中国计算语言学大会近十几年来最精彩的一场报告,近六百人的会场一开始还有点空,讲到后半程几乎都坐满了,大家表情严肃,提问不断!这个报告,既有历史回顾,又揭示了学科存在的本质问题,更难能可贵的是,自己带队耗费几百万的积累资金,探索计算神经语言学的新路径!让人叹服!一直希望国内有这样的计算神 ...
个人分类: Computational Linguistics|2539 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-28 14:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部