通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:

数据-用于数据管理,处理和其他处理的库

数学-虽然许多库都执行数学任务,但这个小型库却专门这样做

机器学习-自我解释;不包括主要用于构建神经网络或用于自动化机器学习过程的库

自动化机器学习-主要用于自动执行与机器学习相关的过程的库

数据可视化-与建模,预处理等相反,主要提供与数据可视化相关的功能的库。

解释与探索-主要用于探索和解释模型或数据的库

数据

1. Apache Spark

https://github.com/apache/spark

star:27600,贡献:28197,贡献者:1638

Apache Spark-用于大规模数据处理的统一分析引擎

2.Pandas

https://github.com/pandas-dev/pandas

star:26800,贡献:24300,贡献者:2126

Pandas是一个Python软件包,提供了快速,灵活和可表达的数据结构,旨在使使用“关系”或“标记”数据既简单又直观。它旨在成为在Python中进行实用,真实世界数据分析的基本高级构建块。

3.Dask

https://github.com/dask/dask

star:7300,贡献:6149,贡献者:393

任务调度的并行计算

数学

4. Scipy

https://github.com/scipy/scipy

star:7500,贡献:24247,贡献者:914

SciPy发音为“ Sigh Pie”是用于数学,科学和工程的开源软件。它包括用于统计,优化,积分,线性代数,傅立叶变换,信号和图像处理,ODE求解器等的模块。

5. Numpy

GitHub – numpy/numpy: The fundamental package for scientific computing with Python.

star:1500,贡献:24266,提供者:1010

使用Python进行科学计算的基本软件包。

机器学习

6. Scikit-Learn

https://github.com/scikit-learn/scikit-learn

star:42500,贡献:26162,贡献者:1881

Scikit-learn是一个基于SciPy的Python机器学习模块,并以3条款BSD许可分发。

7. XGBoost

GitHub – dmlc/xgboost: Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Dask, Flink and DataFlow

star:19900,贡献:5015,贡献者:461

适用于Python,R,Java,Scala,C ++等的可扩展,便携式和分布式梯度增强GBDT,GBRT或GBM库。在单机,Hadoop,Spark,Flink和DataFlow上运行

8. LightGBM

https://github.com/microsoft/LightGBM

star:11600,贡献:2066,贡献者:172

基于决策树算法的快速,分布式,高性能梯度提升GBT,GBDT,GBRT,GBM或MART框架,用于排名,分类和许多其他机器学习任务。

9.Catboost

https://github.com/catboost/catboost

star:5400,贡献:12936,贡献者:188

快速,可扩展,高性能的“决策树上的梯度提升”库,用于对Python,R,Java,C ++进行排名,分类,回归和其他机器学习任务。支持在CPU和GPU上进行计算。

10. Dlib

https://github.com/davisking/dlib

star:9500,贡献:7868,贡献者:146

Dlib是一个现代的C ++工具箱,其中包含机器学习算法和工具,这些工具和工具可以用C ++创建复杂的软件来解决实际问题。可以通过dlib API与Python一起使用

11.Annoy

https://github.com/spotify/annoy

star:7700,贡献:778,贡献者:53

C ++ / Python中的近似最近邻居已针对内存使用情况以及加载/保存到磁盘进行了优化

12.H20ai

https://github.com/h2oai/h2o-3

star:500,贡献贡献:27894,贡献者:137

适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模逻辑回归,弹性网,K均值,PCA,堆叠集成,自动机器学习AutoML等。

13. StatsModels

https://github.com/statsmodels/statsmodels star:5600,承诺:13446,贡献者:247

Statsmodels:Python中的统计建模和计量经济学

14. mlpack

https://github.com/mlpack/mlpack

star:3400,贡献:24575,贡献者:190

mlpack是一个直观,快速且灵活的C ++机器学习库,具有与其他语言的绑定

15.Pattern

https://github.com/clips/pattern

star:7600,贡献:1434,贡献者:20

用于Python的Web挖掘模块,具有用于抓取,自然语言处理,机器学习,网络分析和可视化的工具。

16.Prophet

https://github.com/facebook/prophet

star:11500,贡献:595,贡献者:106

用于为具有多个季节性且线性或非线性增长的时间序列数据生成高质量预测的工具。

自动化机器学习

17. TPOT

https://github.com/EpistasisLab/tpot

star:7500,贡献:2282,贡献者:66

一个Python自动化机器学习工具,可使用遗传编程来优化机器学习pipeline。

18. auto-sklearnhttps://github.com/automl/auto-sklearn

star:4100,贡献:2343,贡献者:52

auto-sklearn是一种自动化的机器学习工具包,是scikit-learn估计器的直接替代品。

19. Hyperopt-sklearn

https://github.com/hyperopt/hyperopt-sklearn

star:1100,贡献:188,贡献者:18

Hyperopt-sklearn是scikit-learn中机器学习算法中基于Hyperopt的模型选择。

20. SMAC-3

https://github.com/automl/SMAC3

star:529,贡献:1882,贡献者:29

基于顺序模型的算法配置

21. scikit-optimizehttps://github.com/scikit-optimize/scikit-optimize

star:1900,贡献:1540,贡献者:59

Scikit-Optimize或skopt是一个简单高效的库,可最大限度地减少非常昂贵且嘈杂的黑盒功能。它实现了几种基于顺序模型优化的方法。

22. Nevergrad

https://github.com/facebookresearch/nevergrad

star:2700,贡献:663,贡献者:38

用于执行无梯度优化的Python工具箱

23.Optuna

https://github.com/optuna/optuna

star:3500,贡献:7749,贡献者:97

Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。

数据可视化

24. Apache Superset

https://github.com/apache/incubator-superset

star:30300,贡献:5833,贡献者:492

Apache Superset是一个数据可视化和数据探索平台

25. Matplotlib

https://github.com/matplotlib/matplotlib

star:12300,贡献:36716,贡献者:1002

Matplotlib是一个综合库,用于在Python中创建静态,动画和交互式可视化。

26.Plotly

https://github.com/plotly/plotly.py

star:7900,贡献:4604,贡献者:137

Plotly.py是适用于Python的交互式,基于开源和基于浏览器的图形库

27. Seaborn

https://github.com/mwaskom/seaborn

star:7700,贡献:2702,贡献者:126

Seaborn是基于matplotlib的Python可视化库。它提供了用于绘制吸引人的统计图形的高级界面。

28.folium

GitHub – python-visualization/folium: Python Data. Leaflet.js Maps.

star:4900,贡献:1443,贡献者:109

Folium建立在Python生态系统的数据处理能力和Leaflet.js库的映射能力之上。用Python处理数据,然后通过folium在可视化的Leaflet贴图中显示。

29. Bqplot

https://github.com/bqplot/bqplot

star:2900,贡献:3178,贡献者:45

Bqplot是Jupyter的二维可视化系统,基于图形语法的构造。

30. VisPy

https://github.com/vispy/vispy

star:2500,贡献:6352,贡献者:117

VisPy是一个高性能的交互式2D / 3D数据可视化库。VisPy通过OpenGL库利用现代图形处理单元GPU的计算能力来显示非常大的数据集。

31. PyQtgraph

https://github.com/pyqtgraph/pyqtgraph

star:2200,贡献:2200,贡献者:142

用于科学/工程应用的快速数据可视化和GUI工具

32.Bokeh

https://github.com/bokeh/bokeh

star:1400,贡献:18726,贡献者:467

Bokeh是用于现代Web浏览器的交互式可视化库。它提供通用图形的优雅,简洁的构造,并在大型或流数据集上提供高性能的交互性。

33.Altair

https://github.com/altair-viz/altair

star:600,贡献:3031,贡献者:106

Altair是用于Python的声明性统计可视化库。使用Altair,您可以花费更多时间来理解数据及其含义。

解释与探索

34. eli5https://github.com/TeamHG-Memex/eli5

star:2200,贡献贡献:1198,贡献者:15

一个用于调试/检查机器学习分类器并解释其预测的库

35. LIMEh

ttps://github.com/marcotcr/lime star:800,承诺:501,贡献者:41

Lime:解释任何机器学习分类器的预测

36. SHAP

https://github.com/slundberg/shap

star:10400,贡献:1376,贡献者:96

一种博弈论方法,用于解释任何机器学习模型的输出。

37. YellowBrick

https://github.com/DistrictDataLabs/yellowbrick

star:300,贡献:825,贡献者:92

可视化分析和诊断工具,有助于机器学习模型的选择。

38.pandas-profiling

https://github.com/pandas-profiling/pandas-profiling

star:6200名,贡献:704名,贡献者:47名

原文链接:

生态、遥感、水文水资源、大气科学多领域详细操作教程​

查看全文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dgrt.cn/a/2167340.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章:

收藏! 38个Python数据科研库-编程知识网

收藏! 38个Python数据科研

通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:
数据-用于数据管理,处理和其他处理的库
数学-虽然许多库都执行数学任务,但这个小型库却专门这样做
机……

收藏! 38个Python数据科研库-编程知识网

银行数字化转型导师坚鹏:机构客户营销技巧与业务能力提升

数字化背景下机构客户营销技巧与业务能力提升课程背景:
很多银行存在以下问题:不知道对公客户分类及相关金融需求?不清楚如何提升机构客户营销技巧?不知道如何提升对公数字化营销能力?
课程特色:焕发精神、启发……

收藏! 38个Python数据科研库-编程知识网

算法leetcode|44. 通配符匹配(rust重拳出击)

文章目录44. 通配符匹配:样例 1:样例 2:样例 3:样例 4:样例 5:分析:题解:rustgoccpythonjava44. 通配符匹配:
给定一个字符串 (s) 和一个字符模式 (p) ,实现……

收藏! 38个Python数据科研库-编程知识网

JVM内存区域面试详解

JVM 组成
JVM(Java Virtual Machine,Java 虚拟机)是 Java 程序的运行环境,它负责将字节码转换为机器码并执行。JVM 由以下三部分组成:
Java虚拟机(Java Virtual Machine,JVM)包含以……

收藏! 38个Python数据科研库-编程知识网

Ae 入门系列之八:关键帧动画进阶

◆ ◆ ◆基于空间的关键帧空间类的属性包括位置、锚点以及效果控制点等。除了通过修改属性值的方式设置关键帧外,还可使用钢笔工具或选择工具直接在查看器面板上添加、删除或编辑空间类属性的关键帧。运动路径上方块表示关键帧,中间小点表示插值帧空间……

收藏! 38个Python数据科研库-编程知识网

合计汇总金额SQl

select (sum(case when a.wtfx买入 then a.cjje end) -sum(case when a.wtfx卖出then a.cjje end)) as hj from amountsum a where a.jjname like %沪港深%…

收藏! 38个Python数据科研库-编程知识网

跳一跳小程序给我们的生活启发

2018年04月23日 18:43:52 跳一跳小程序这款游戏跳出了我的很多感悟:1、人就像弹簧被压的越低,跳的越远;2、人生没有回头路,每一步都要深思熟虑;3、步子太大容易掉进坑;胆子太小跨不过坎;4、人生……

收藏! 38个Python数据科研库-编程知识网

勤奋成就生活之美

2018年04月23日 18:45:49 人的心灵就像一个容器,时间长了里面难免会有沉渣,要时时清空心灵的沉渣,该放手时就放手,该忘记的要忘记。删除心灵的垃圾,每天刷新自己,这样才能重获新生。人生需要“归零”。每过……

收藏! 38个Python数据科研库-编程知识网

淘淘商城分布式电商系统项目总结

淘淘商城是采用分布式架构部署的一个大型网上商城系统,类似于京东商城。本系统分前台系统和后台系统。前台系统主要负责商城的页面的显示功能,这里采用的面向服务的方式,pc端手机端只负责显示页面,业务逻辑都在服务层实现&#xf……

收藏! 38个Python数据科研库-编程知识网

购物车的原理及实现.(仿京东实现原理)

今天来开始写一下关于购物车的东西, 这里首先抛出四个问题:
1)用户没登陆用户名和密码,添加商品, 关闭浏览器再打开后 不登录用户名和密码 问:购物车商品还在吗?
2)用户登陆了用户名密码,添加商品,关闭浏览器再打开后 不登录用……

收藏! 38个Python数据科研库-编程知识网

k8s学习-CKS真题-K8S安全策略PodSecurityPolicy

目录题目环境搭建解题参考题目 Task 使用 Trivy 开源容器扫描器检测 namespace kamino 中 Pod 使用的具有严重漏洞的镜像。 查找具有 High 或 Critical 严重性漏洞的镜像,并删除使用这些镜像的 Pod。 注意:Trivy 仅安装在 cluster 的 master 节点上&……

收藏! 38个Python数据科研库-编程知识网

STM32F103基于HAL库I2C/SPI硬件接口+DMA驱动 SSD1306 Oled

STM32F103基于HAL库I2C/SPI硬件接口DMA驱动 SSD1306 Oled✨由于手上只有I2C接口的SSD1306 OLED屏幕,仅测试了硬件I2C驱动显示功能,实际测试的FPS帧率在37或38变化。 📢本项目从Github开源项目中移植过来,开源地址:http……

收藏! 38个Python数据科研库-编程知识网

English Learning – L2 第 14 次小组纠音 复习元音 [ɔɪ ] [aʊ] [əʊ] [ɪə] 弱读 2023.4.12 周三

English Learning – L2 第 14 次小组纠音 复习元音 [ɔɪ ] [aʊ] [əʊ] [ɪə] 弱读 2023.4.12 周三共性问题coin voice /kɔɪn/ /vɔɪs/ 中 ɔɪvowel pounds /ˈvaʊəl/ /paʊndz/ 中的 aʊshow /ʃəʊ/beer nearly /bɪə/ /ˈnɪəlɪ/ 中的 ɪəbest bed ten /best/……

收藏! 38个Python数据科研库-编程知识网

LC-1157. 子数组中占绝大多数的元素(二分查找+随即猜,摩尔投票+线段树,upper_bound和lower_bound函数)

文章目录[1157. 子数组中占绝大多数的元素](https://leetcode.cn/problems/online-majority-element-in-subarray/)统计每个元素的索引-超时二分查找 随机猜摩尔投票 线段树[剑指 Offer 39. 数组中出现次数超过一半的数字](https://leetcode.cn/problems/shu-zu-zhong-chu-xi……

收藏! 38个Python数据科研库-编程知识网

杭州旭航集团,申请纳斯达克IPO上市,募资9800万美元

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,为中国企业提供数字内容营销服务的杭州旭航网络科技有限公司的控股公司Xuhang Holdings Ltd(以下简称:旭航集团),近期已向美国证券交易委员会(SEC)提……

收藏! 38个Python数据科研库-编程知识网

深度学习快速参考:11~13

原文:Deep Learning Quick Reference 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,只关心如何实现目……

收藏! 38个Python数据科研库-编程知识网

基于copula的风光联合场景生成与缩减

目录
1 主要内容
风光出力场景生成方法
2 部分程序
3 程序结果
4 程序链接
点击直达! 1 主要内容
该程序方法复现《融合风光出力场景生成的多能互补微网系统优化配置》风光出力场景生成部分,目前大多数研究的是不计风光出力之间的相关性影响&amp……

收藏! 38个Python数据科研库-编程知识网

TS 使用自动提示生成对象中的键

TS 使用自动提示生成对象中的键
使用 plain object 而不是 class 的原因主要是在于 redux 中保存的对象需要为可序列化的对象。当然,具体操实现的时候肯定是可以无视这个需求的,不过 Redux 团队强烈建议使用可序列化对象,具体的官方文档说明……

收藏! 38个Python数据科研库-编程知识网

Spring Boot概述(一)

1. SpringBoot 概述
1.1 SpringBoot 概念
SpringBoot提供了一种快速使用Spring的方式,基于约定优于配置的思想,可以让开发人员不必在配置与逻辑业务之间进行思维的切换,全身心的投入到逻辑业务的代码编写中,从而大大提高了开发的……

收藏! 38个Python数据科研库-编程知识网

计算机笔试/面试常见逻辑题/智力题汇总

说明:按种类汇总,难度不分先后,做了分级罗列,方便后续扩充,大家有比较有意思的题目可以在讨论区讨论。 下面有的题题解相对复杂的直接参考了网上的一些解答,而有的题解我认为并不好的也做了补充&#xff0c……