在CoreLogic,我们不断追求为客户提供更深入的分析和见解,我们每天都在挑战自己,不断发展。manbetx官网手机登入人工智能(AI)和机器学习(ML)是我们不断寻求创新和效率提高的领域。我们已经在我们的平台、解决方案和流程中实现了各种ML模型,但伟大的创新也会遇到挫折。网上买球 manbetx
大量的数据和大量的计算
通常,ML模型需要大量的数据和计算能力。CoreLogic覆盖美国99.9%的房产,超过55亿条记录,每年更新超过10亿条记录,数据丰富。在技术方面,考虑到我们与谷歌云平台的合作,我们在计算能力上也没有太多限制。
但这正是需要高度警惕和优化的地方。有了这么多的数据和处理能力,构建、培训和实施这些模型的成本真的会增加,而它们产生的输出却没有任何显著的改善。
关于ML和分析模型的实现和开发有几种不同的方法。传统上,这是通过选择模型所需的数据,处理数据(通常在内存中)以进行特征工程和训练,然后将其输入模型以进行准确的预测。
然而,在很多用例中,这种方法需要大量的数据流,这就需要大量的处理能力、与数据管道的复杂集成,最重要的是,更长的运行时间。
通过创新提高效率
为了提高模型的效率,我们建立了一种新的方法,将计算能力引入数据。在我们的实现中,数据和计算位于同一个云环境中。
例如,当我们在属性数据上实现ML模型,通过推断和预测来丰富属性数据时,我们有几个使用谷歌AutoML Tables和谷歌BigQuery ML实现的模型。我们没有在Spark等工具中执行特性工程流程,而是结合使用数据构建工具(DBT)和谷歌BigQuery引擎来实现模型,从而为数据带来计算能力。
虽然我们使用DBT将大型进程分解为可重用的组件,组织成一个允许它们并发运行的有向无环图(DAG),但谷歌BigQuery将其大规模并行处理架构带到了表中。
最后,不仅模型的实现,集成到管道和测量模型变得更加简单,计算和运行时间减少了高达85%。
保持机器学习
总的来说,随着AI/ML领域的进步,构建和实现这些模型变得越来越容易。然而,成功实施这些模型不仅仅是应用最好的工具和技术;关键是采用更广泛的方法以有效的方式整合和维持这些模型。从长远来看,这有助于组织获得利益并取得成功。
作者

阿南德·辛格
数据技术高级主管

晴春柔祥
高级专业人员,数据科学家