导入数据

对于外部数据,DolphinDB提供了以下数据导入的方法:

  • 通过文本文件导入

  • 通过HDF5文件导入

  • 通过ODBC插件导入

  • 通过MySQL插件导入

HDF5, ODBC 与 MySQL 插件均可从 http://www.dolphindb.com/downloads.html 下载。

通过文本文件导入

通过文本文件进行数据中转是较为通用的一种数据迁移方式。DolphinDB提供了以下三个函数来加载文本文件:

  • loadText:把文本文件加载到内存中

  • ploadText:以并行的方式把文本文件加载到内存中,它的速度比loadText要快

  • loadTextEx:把文本文件导入到DolphinDB的数据库中

若要把数据导入到数据库中,loadTextploadText 需要与 append!tableInsert 函数函数一起使用。

$ t = ploadText("/stockData/trades.csv")
$ db=database("dfs://stock",VALUE,2019.08.01..2019.08.10)
$ pt=db.createPartitionedTable(t,`pt,`timestamp)
$ pt.append!(t)

使用 loadTextploadText 函数时,需要先把数据加载到内存,然后再落盘到数据库。如果文本文件过大,可能会出现内存不足。因此这两个函数不能用于导入大于本地机器内存的文本文件。loadTextEx 可以避免这个问题,它会把文本文件分为许多批次逐步载入内存并落盘到数据库,因此它可以导入超出本地机器内存的文本文件。

$ db=database("dfs://stock",VALUE,2019.08.01..2019.08.10)
$ loadTextEx(db,`pt,`timestamp,"/stockData/trades.csv")

在下例中,原始数据是2018年5月至今的股票报价数据,每天一个CSV文件,保存在文件夹 /stockData 下。按照下面的步骤,创建一个数据库并把数据导入。

  1. 创建组合分区类型(COMPO)的分布式数据库 dfs://stockDB ,根据日期进行值分区,根据股票代码进行范围分区。由于后续的数据都会导入到数据库,所以在创建数据库时我们扩大了日期的分区方案。

$ t = ploadText("/stockData/TAQ20180501.csv")
$ tmp = select count(*) as count from t group by sym order by sym;
$ buckets = cutPoints(tmp.sym, 128, tmp.count)

$ dateDomain = database("", VALUE, 2018.05.01..2030.07.01)
$ symDomain = database("", RANGE, buckets)
$ stockDB = database("dfs://stockDB", COMPO, [dateDomain, symDomain])
$ stockDB.createPartitionedTable(t, "quotes", `date`sym)
  1. 编写用户自定义函数loadCsv把文件文件加载到数据库。

$ def loadCsv(){
$    fileDir='/stockData'
$    filenames = exec filename from files(fileDir)
$    db = database("dfs://stockDB")
$    for(fname in filenames){
$        jobId = fname.strReplace(".csv", "")
$        submitJob(jobId, , loadTextEx{db, "quotes", `date`sym, fileDir+'/'+fname})
$    }
$ }
$ loadCsv()

通过HDF5文件导入

HDF5是一种高效的二进制数据文件格式,在数据分析领域广泛使用。DolphinDB支持导入HDF5格式数据文件。

HDF5插件提供了以下方法:

  • hdf5::ls:列出HDF5文件中所有 group 和 dataset 对象

  • hdf5::lsTable:列出HDF5文件中所有 dataset 对象

  • hdf5::hdf5DS:返回HDF5文件中 dataset 的元数据

  • hdf5::loadHdf5:将HDF5文件导入内存表

  • hdf5::loadHdf5Ex:将HDF5文件导入分区表

  • hdf5::extractHdf5Schema:从HDF5文件中提取表结构

下载HDF5插件,再将插件部署到 /server/plugins 目录下。使用以下脚本加载插件:

$ loadPlugin("plugins/hdf5/PluginHdf5.txt")

调用插件方法时需要在方法前面提供namespace,比如调用loadHdf5可以使用hdf5::loadHdf5。另一种写法是:

$ use hdf5
$ loadHdf5(filePath,tableName)

若要导入包含一个Dataset candle_201801的文件candle_201801.h5,可使用以下脚本:

$ dataFilePath = "/home/data/candle_201801.h5"
$ datasetName = "candle_201801"
$ tmpTB = hdf5::loadHdf5(dataFilePath,datasetName)

如果需要指定数据类型导入可以使用hdf5::extractHdf5Schema,脚本如下:

$ dataFilePath = "/home/data/candle_201801.h5"
$ datasetName = "candle_201801"
$ schema=hdf5::extractHdf5Schema(dataFilePath,datasetName)
$ update schema set type=`LONG where name=`volume
$ tt=hdf5::loadHdf5(dataFilePath,datasetName,schema)

如果HDF5文件超过服务器内存,可以使用hdf5::loadHdf5Ex载入数据。

$ dataFilePath = "/home/data/candle_201801.h5"
$ datasetName = "candle_201801"
$ dfsPath = "dfs://dataImportHDF5DB"
$ db=database(dfsPath,VALUE,2018.01.01..2018.01.31)
$ hdf5::loadHdf5Ex(db, "cycle", "tradingDay", dataFilePath,datasetName)

通过ODBC接口导入

DolphinDB支持ODBC接口连接第三方数据库,使用该插件可以方便的从ODBC支持的数据库迁移数据至DolphinDB中。

ODBC插件提供了以下四个方法用于操作第三方数据源数据:

  • odbc::connect:创建连接。

  • odbc::close: 关闭连接。

  • odbc::query:根据给定的SQL语句查询数据并将结果返回到DolphinDB的内存表。

  • odbc::execute:在第三方数据库内执行给定的SQL语句,不返回结果。

在使用ODBC插件之前,需要安装ODBC驱动程序。

下面的例子使用ODBC插件连接以下SQL Server:

IP地址:172.18.0.15
连接用户名:sa
密码:123456
数据库名称: SZ_TAQ

下载插件解压并拷贝 plugins/odbc 目录下所有文件到DolphinDB server/plugins/odbc 目录下,通过下面的脚本完成插件初始化:

$ loadPlugin("plugins/odbc/odbc.cfg")
$ conn=odbc::connect("Driver=ODBC Driver 17 for SQL Server;Server=172.18.0.15;Database=SZ_TAQ;Uid=sa;Pwd=123456;")

创建DolphinDB分布式数据库dfs://dataImportODBC。使用SQL Server中的数据表结构作为DolphinDB数据表的模板,在dfs://dataImportODBC中创建数据库cycle。

$ tb = odbc::query(conn,"select top 1 * from candle_201801")
$ db=database("dfs://dataImportODBC",VALUE,2018.01.01..2018.01.31)
$ db.createPartitionedTable(tb, "cycle", "tradingDay")

从SQL Server中导入数据并保存入cycle表中:

$ tb = database("dfs://dataImportODBC").loadTable("cycle")
$ data = odbc::query(conn,"select * from candle_201801")
$ tb.append!(data);

通过MySQL插件导入

DolphinDB提供了专门的插件来导入MySQL数据。MySQL插件导入数据的速度比ODBC接口要快,并且不需要配置数据源,使用更加便捷。

MySQL插件提供了以下接口函数:

  • mysql::connect:创建连接

  • mysql::showTables:列出MySQL数据库中的所有表

  • mysql::extractSchema:获取MySQL数据表的结构

  • mysql::load:把MySQL数据加载到DolphinDB的内存表

  • mysql::loadEx:把MySQL中的数据加载到DolphinDB的分区表

下载插件解压并拷贝 plugins\mysql 目录下所有文件到DolphinDB server的 plugins/mysql 目录下,通过下面的脚本完成插件初始化:

$ loadPlugin("plugins/PluginMySQL.txt")

连接本地MySQL服务器中的employees数据库:

$ conn=connect("127.0.0.1",3306,"root","123456","employees")

确定分区类型和分区方案,创建数据库,用于保存MySQL数据:

$ db=database("dfs://mysql",VALUE,`F`M)

导入数据:

$ pt=loadEx(conn,db,"pt","gender","employees")