DataSpell是一个由知名软件 IntelliJ Idea IDE 和 Kotlin 编程语言的开发商 JetBrains 推出的专门针对数据科学的 IDE 。
该 IDE 将为从事探索性数据分析和机器学习模型原型设计的数据科学专业人士提供了一个开发环境。其特色是一个旨在优先处理数据的界面,同时允许编码。根据 JetBrains 的说法,DataSpell 对 Jupyter Notebook 提供支持,并提供了比传统 Jupyter Notebook 更好的体验。用户可以在命令和编辑模式之间切换,以操作单元格及其内容,其中增强的功能包括:
针对 Python 的智能编码辅助
开箱即用的目录
折叠式回溯
交互式表格
单元格输出支持 Markdown 和 JavaScript。DataSpell 与运行在本地设备上的 Jupyter Notebook 以及远程 Jupyter、JupyterHub 和 JupyterLab 服务器兼容。
此外,DataSpell 支持 Python 脚本,提供了一个运行代码的 REPL,以及用于处理数据和数据可视化的额外工具,包括可交互式的和静态的。DataSpell 还支持包括 Plotly、Bokeh、ipywidgets 和 Altair 在内的 Python 科学类库。目前这个尚处于早期预览阶段的 DataSpell 除了支持 Python 以外,还提供了对 R 语言的基本支持,将来还会增加对 Julia 等其他数据科学语言的支持。
当然,在引入任何需要工具时,使用习惯是最大的挑战,因为每个数据科学团队都有一套自己常用的工具和定义的工作流程。DateSpell 如何能够快速融入数据科学家团队的工作流程,以提高生产力也将是 JetBrains 面临的一大挑战。
更新日志
我们的 ML 团队增强了驱动 Python 的 ML 辅助全行代码补全的本地模型,现在模型可以生成更长的建议并考虑更多上下文,同时不会将数据发送到互联网并且完全免费。
在 DataSpell 2024.1 中,您现在可以直接在 Jupyter Notebook 中编写 SQL 来查询 DataFrame 和 CSV 文件。 我们引入了 Import Data(导入数据)单元,这是 DataSpell 中的新单元类型。 您可以将文件拖放到表格数据中,轻松开始处理。
最新更新显著增强了 dbt Core 支持。 您现在可以直接在 DataSpell 中查看图表。 我们为 dbt Core 项目改进了代码补全,现在您可以直接从 SQL 文件轻松运行、预览和测试模型。
从我们的网站下载新版本的 DataSpell,直接从 IDE 或通过免费的 Toolbox App 更新,或使用 Ubuntu 的 snap 包。
ML 赋能的代码补全
我们的 ML 团队显著改进了驱动 Python 的 ML 辅助全行代码补全的本地模型。 全行代码补全会生成更长的建议并考虑更广泛的上下文,进而提供更好的建议并减少输入。 这款纯本地模型提供代码建议和整行代码,不会将任何数据发送到外部服务器。
用于 DataFrame 和 CSV 文件的 SQL
在 DataSpell 2024.1 中,您可以直接从 Jupyter Notebook 编写 SQL 来查询 DataFrame 和 CSV 文件。 为此,首先创建 SQL 单元,选择 DataFrame 作为数据源,然后编写查询,享受出色的 SQL 编码辅助。
Import Data(导入数据)单元
Import Data(导入数据)单元是 DataSpell 2024.1 中 Jupyter Notebook 的另一个新功能。 将包含表格数据的文件拖放到 Import Data(导入数据)单元上,然后使用可视化控件或 Python 代码即可开始处理。
dbt Core
最新版本为现有 dbt 支持引入了多项更新:
DAG 是面向分析工程师的强大工具,在此版本中,您可以直接在 DataSpell 中查看图。 导航也已简化,在 DAG 中点击节点即可。
dbt Core 项目的代码补全得到显著改进,Jinja、模型名称、列名、YAML 文件等的补全获得更新。
您现在可以直接从 SQL 文件轻松运行、预览和测试任何模型, 点击装订区域并从可用选项选择即可。