TG Telegram Group Link
Channel: Data Science Archive
Back to Bottom
Yandex 的 NLP 课程资料,这家俄罗斯的公司实力很强,也是 catboost 和 Clickhouse 的东家。
link: https://github.com/yandexdataschool/nlp_course
顺便可以看看托管:https://github.com/yandexdataschool
似乎是他们做的DataScience公开课,值得关注。
一个 GBM 的实验,比较纯 Python+numba jit 和efficient version histogram binning优化过的 GBT(lightGBM) 的 benchmark。试了一下,貌似 master 分支上的 code 已经相差无几,更新比较活跃。
code: https://github.com/ogrisel/pygbm
关于 numba jit:http://numba.pydata.org/
介绍wasserstein距离的一篇科普文章,深入浅出写得非常好。link:http://www.mindcodec.com/an-intuitive-guide-to-optimal-transport-for-machine-learning/
介绍 QTE/ATE,以及 Local ATE,来自 Uber Eng,有不少产品角度的数据科学思考。
link: https://eng.uber.com/analyzing-experiment-outcomes/
顺带找到一个知乎上关于 Local ATE 的介绍:https://www.zhihu.com/question/32199571/answer/55792738
一个 ML 扩展包,配合scikit-learn 一起食用还是很不错的,以前用过,主要优势在于 ensemble 和各种常用应用层面的封装,毕竟scikit-learn 里面不常用的方法还是有点多。
link: http://rasbt.github.io/mlxtend/
作者是威斯康辛麦迪逊的统计系老师,也是这本《Python Machine Learning》的作者。
书:https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130
cuDF: GPU DataFrame Library,pandas-like API。貌似 NVIDIA 也有一个类似的项目?但是刚才去找了半天没找到。来自 rapids.ai。
link: https://github.com/rapidsai/cudf
团队还有其他不错的项目,cuML,cuGRAPH,可视化的工具等等,可能是想做一个 GPU Data Science Ecosystem,可以关注一下。
团队主页:https://rapids.ai/
团队项目主页:https://github.com/RAPIDSai
一个收集 NLP 各个子领域进展的 markdown 项目,这里对进展的定义不错,都是基于某某公开数据集,以及相应的 metrics,非常适合刚刚入门某个领域。扫了一眼 text classification & summarization,还是比较系统的。遗憾的是对于各个领域独有的(默认的)一些 trick 没有提及。
link: https://github.com/sebastianruder/NLP-progress
EMNLP 2018 上一个非监督的Statistical Machine Translation,WMT14 的 BLEU 分数26.2,还是挺不错的。翻译领域其实不太了解,NMT 还算实践过一些,传统的Statistical MT几乎不太懂。
看了一下项目里的requirements,看到了Moses 的身影,似乎这个是早期传统的 SMT 的重要工具?(上次在一个文言文翻译现代汉语的项目里见到过。
code: https://github.com/artetxem/monoses
link: https://arxiv.org/abs/1809.01272
Moses: http://www.statmt.org/moses/
一个用featuretools做特征工程的例子,ft这个工具还不错,上次做Kaggle也有用到,如果是不太熟悉的领域,又是categorical data,先ft提一波高阶组合特征,跑一个baseline还是不错的。
不过这个工具有相当多tricky的参数,时间开销也比较大。
link:https://medium.com/@rrfd/simple-automatic-feature-engineering-using-featuretools-in-python-for-classification-b1308040e183
一篇快速回顾统计概念的小文,举的例子还是挺不错的,写得也很好。贝叶斯学派和统计学派,虚空假设,Type Error,p-value。
link: https://towardsdatascience.com/statistics-for-people-in-a-hurry-a9613c0ed0b
Sebastian Raschka终于写完了他的这套博文系列《Model evaluation, model selection, and algorithm selection in machine learning》的第四章,非常详细地介绍了模型评测部分需要考虑的各种环节,需要一些统计基础。
前三篇连载都是两年前写的,当时看得也是获益匪浅,统计背景比较强的老师看模型和算法的角度会不太一样,非常推荐。
link:
1. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part1.html
2. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part2.html
3. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part3.html
4. https://sebastianraschka.com/blog/2018/model-evaluation-selection-part4.html
PyCM: 一个 multi-class 混淆矩阵分析的工具,对于特定的分类问题的结果评估也许可以用得上,不过我先前用 scikit-learn 自带的 https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html 就基本满足了。看了一下,这个支持的存储类型更为丰富,统计标准也更多。
link: http://www.shaghighi.ir/pycm/
github: https://github.com/sepandhaghighi/pycm
HTML Embed Code:
2025/07/07 23:48:28
Back to Top