wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

按标题搜索
如何免费获得高质量标注数据?
2019-6-12 09:46
用第一性原理,破解科研数据获取难题。 标注 自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。 请你再次回顾一下这张图。 我多次外出讲座时,这张图总能让与会者感到眼前一亮。 图片的原作者是华盛顿大学的 Pedro Domingos 教授。但是因为许多著名的机器学习课程争相引 ...
5091 次阅读|没有评论
如何用 Pandas 存取和交换数据?
2019-5-31 10:08
本文为你介绍 Pandas 存取数据的3种主要格式,以及使用中的注意事项。 问题 在数据分析的过程里,你已经体会到 Python 生态系统的强大了吧? 数据采集、整理、可视化、统计分析……一直到深度学习,都有相应的 Python 包支持。 但是你会发现,没有任何一个 Python 软件包,是全能的。 这是一种非常好的设计思维— ...
1363 次阅读|没有评论
如何用 Python 和 BERT 做多标签(multi-label)文本分类?
2019-5-21 09:08
10余行代码,借助 BERT 轻松完成多标签(multi-label)文本分类任务。 疑问 之前我写了《 如何用 Python 和 BERT 做中文文本二元分类? 》一文,为你讲解过如何用 BERT 语言模型和迁移学习进行文本分类。 不少读者留言询问: 王老师,难道 BERT 只能支持二元分类吗? 当然 不是 。 BERT 是去年以来非常流行的 ...
2125 次阅读|没有评论
那本 Tensorflow 2.0 奇书,你可以限时免费下载了
2019-5-12 10:49
还记得在《 文科生 Python 与数据科学入门教材推荐 》一文里,我推荐给你的这本书吗? 它的第一版,是数据科学出版史上的奇迹。 就连放在 Github 上 的配套代码,居然都获得了超过 14000 星。 还专门有人,做了一期视频。给你讲为什么这是他读过的,关于深度学习的 最好的一本书 。 视频的链接在 这里 ( http:/ ...
1935 次阅读|没有评论
数据科学入门后,该做什么?
热度 2 2019-5-10 10:28
三种学习方式,助你建构多重网络,获得能力与价值的非线性增长。 疑问 有不少读者,在我的数据科学教程下留言,问我类似这样的问题: 王老师,我已经跟着您的全部教程,从头到尾实践了一遍。中间不懂的地方,也专门看书或者上网查找,补充了知识。感觉数据科学算是入门了。但是之后我该做什么呢?有没有什么进阶教 ...
10978 次阅读|2 个评论 热度 2
你的机器“不肯”学习,怎么办?
热度 1 2019-5-1 08:30
给你讲讲机器学习数据预处理中,归一化(normalization)的重要性。 前情回顾 Previously, on 玉树芝兰 …… 我给你写了一篇《 如何用 Python 和 Tensorflow 2.0 神经网络分类表格数据? 》,为你讲解了 Tensorflow 2.0 处理结构化数据的分类。 结尾处,我给你 留了一个问题 。 把测试集输入模型中,检验效果。 ...
5904 次阅读|1 个评论 热度 1
文科生 Python 与数据科学入门教材推荐
2019-4-22 10:50
从入门到精通,给你推荐几本 Python 与数据科学好书。 需求 最近读者数量增长了不少。有许多新读者留言,说自己想入门 Python 与数据科学,希望我能够推荐一些教材书籍。 老读者们都知道,我经常会在教程末尾的“资源”或者“小结”章节,推荐相关的书目。我推荐的书籍,有个特点,就是写得简明易懂,适合文科生阅 ...
5550 次阅读|没有评论
如何用 Python 和 Tensorflow 2.0 神经网络分类表格数据?
热度 1 2019-4-15 11:51
以客户流失数据为例,看 Tensorflow 2.0 版本如何帮助我们快速构建表格(结构化)数据的神经网络分类模型。 变化 表格数据,你应该并不陌生。毕竟, Excel 这东西在咱们平时的工作和学习中,还是挺常见的。 在之前的教程里,我为你分享过, 如何利用深度神经网络,锁定即将流失的客户 。里面用到的,就是这样的表 ...
4272 次阅读|1 个评论 热度 1
如何用 Python 和 BERT 做中文文本二元分类?
2019-4-8 08:59
兴奋 去年, Google 的 BERT 模型一发布出来,我就很兴奋。 因为我当时正在用 fast.ai 的 ULMfit 做自然语言分类任务(还专门写了《 如何用 Python 和深度迁移学习做文本分类? 》一文分享给你)。ULMfit 和 BERT 都属于预训练语言模型(Pre-trained Language Modeling),具有很多的相似性。 所谓语言模型,就是利 ...
4242 次阅读|没有评论
如何将 PDF 表格数据免费转换到 Excel ?
2019-4-1 08:50
所见即所获,提升你的数据采集效率。 需求 写了那篇《 如何用Python批量提取PDF文本内容? 》后,我在后台收到了许多留言。 不少读者询问,如果是 PDF 文件中的表格呢?能否正确转换? 我当时没有理解这种需求。因为那篇文章谈的主要是把文本抽取出来,目的主要是进行下一步的自然语言处理。这种 PDF 文件中大量的 ...
2510 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-21 11:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部