TG Telegram Group Link
Channel: Data Science Archive
Back to Bottom
来自Uber AI 的一个不错的轮子,玩了一天非常适合跑demo和验证,许多state of the art 的解决方案都可以先做验证。https://uber.github.io/ludwig/
blog介绍:https://eng.uber.com/introducing-ludwig/
DVC:做data science model管理的工具,大致原理是使用git和s3之类的进行联合存储。多人团队,跨多业务团队还是蛮有用的,上一次和其他队员一起刷Kaggle的时候用过一次体验不错。https://github.com/iterative/dvc
FAIR的ELF发布了ELF Go的新版,应该后面会继续发更多Go bot,https://facebook.ai/developers/tools/elf
ELF OpenGo:https://research.fb.com/facebook-open-sources-elf-opengo/
lecun的fb post:https://www.facebook.com/yann.lecun/posts/10155789997817143
早上试玩了一下JAX,前段时间有关注,昨天看Francois又在提到。简单来说就是Numpy+gradients,有XLA https://github.com/tensorflow/tensorflow/blob/master/tensorflow/compiler/xla/g3doc/overview.md 加成的GPU加速。想实现一些底层框架的话也许是一个不错的选择。https://github.com/google/jax
前有StanfordNLP,又发现 https://github.com/zalandoresearch/flair 不过现在对这种轮子有点免疫。看了一些源码觉得项目代码写得还是挺不错的,自己造轮子的朋友不妨一看,看得多才能造得好。
Foundations of Data Science,一份来自MSR India的资料,作者是MSR India的DataScience Lead。看一眼,书质量非常高。https://www.cs.cornell.edu/jeh/book.pdf
BAMBI 是一个在PyMC3上的Python高级api,如果你经常用Bayesian statistical model的话,可以一试。我只用过PyMC3,打算试试这个BAMBI,希望好用。https://github.com/bambinos/bambi
Catalyst 19.06rc2 把 TensorFlow 的依赖全去掉了,完全使用 PyTorch。新版本还没试用,不过把tf去掉倒是一个好消息。
link:https://catalyst-team.github.io/catalyst/index.html
Sergey的介绍:https://docs.google.com/presentation/d/1NQGWb53Kqm-f3hZ2JIoHjX-he3C39eOcSszZzp5o07U/edit#slide=id.p
如何管理ML实验结果和模型其实是一个老生常谈的问题,reddit这个帖子总结的一些工具还是不错的,下面的评论不少也值得一看。
https://old.reddit.com/r/MachineLearning/comments/bx0apm/d_how_do_you_manage_your_machine_learning/
Forwarded from AirOnG
https://github.com/PacktPublishing/Hands-On-Data-Structures-and-Algorithms-with-Rust 使用Rust入手数据结构和算法 数据结构和算法是每种计算机语言都要面对的基础知识,而Rust由于独特的所有权问题,在实现数据结构和算法时需要一定技巧,也更能体会语言的独特性。这个repo保存了书里所有例子代码,可以用来入门,也可以用来查阅具体算法的写法。
最近在看一些NLP项目corpus的序列化部分,http://matthewrocklin.com/blog/work/2015/03/16/Fast-Serialization
文章有点老,实验部分尚可一看。
HTML Embed Code:
2025/07/07 05:06:00
Back to Top