quantopian系列—Self-Serve Data( 四 )


对于自定义数据集 , 每个BoundColumn的dtype由你第一次上传自定义数据集时选择的类型决定 。 例如 , 如果你选择Numeric作为列的类型 , 它将在Pipeline中被加载为dtype float64的BoundColumn 。 以String类型上传的列 , 将以dtype对象加载为BoundColumn , 以此类推 。
数据限制目前 , 社区成员最多只能有30个自定义数据集 。 每个数据集有以下限制 。

  1. 最多20列 。
  2. 最大文件大小为300MB 。
  3. 最大数据集名称为51个字符 。
此外 , 实时上传的数据集将在每天早上7:00至上午10:00UTC(每小时一小时)由Quantopian下载并处理其文件 。 目前 , 在这个范围之外 , 没有办法自定义自定义数据集的上传时间 。
思考在使用 Self-Serve 上传自定义数据集时 , 您需要牢记以下注意事项和限制 。
保留列名 。 列名 "timestamp "和 "sid "将由Quantopian在数据处理过程中添加 , 因此您不能在源数据中使用这些列名 。 如果您有一个名为 "symbol "的源列 , 必须将其设置为主要资产 。
看未来数据 。 主要日期列不应包括未来日期的历史值;任何主要日期在未来的行将被自动忽略 。 对于实时数据也有类似的要求(asof_date不得大于时间戳) 。
交易日期信号 。 如果你的日期字段代表了你期望算法对信号采取行动的日子 , 你应该创建一个trade_date_minus_one列 , 可以作为主要日期列使用 。
重新加载notebook 。 如果你要将一个新的数据集加载到笔记本中 , 你需要重新启动笔记本内核才能访问新的导入 。
每次共享数据 。 目前 , 在自定义数据集中不支持公司动作调整 , 所以由你决定如何上传 。 后面不会有任何调整 。 通常最好以总数量(而不是以每股单位)上传数据 。
提示和技巧以下是您在上传自定义数据集时可以用来绕过自助数据的某些限制的提示和技巧 。
  • 上传宏观数据
目前 , 上传宏观经济数据 , 如GDP、VIX或任何其他不直接映射到股票的信息 , 在自助服务中不直接支持 。 然而 , 您可以通过将宏观经济时间序列映射到您预期会长期交易的既定股票(如SPY)来解决这一限制 。 将你的数据映射到SPY这样的股票上 , 你就可以像其他自定义数据集一样在Pipeline中加载数据 。
  • 常见错误
【quantopian系列—Self-Serve Data】ZeroRowsProcessed 这个错误通常是由于您的主要资产列数据与Quantopian美国股票数据库中的任何资产不匹配造成的 。 查看这个社区帖子 , 了解更多关于symbol/ticker的细节 , 支持哪些美国交易所 , 以及我们未来的全球扩展计划 。 它还包括一个notebook来帮助您快速检查匹配的symbol 。