合同管理中的人工智能(第四部分:自然语言处理和机器学习)

NLP agsandrew / Adobe股票

在本系列关于合同管理中的人工智能的最后一部分中,我们将关注自然语言处理(NLP)。

在本系列的前几篇文章中,我提到了聊天机器人和图灵测试,它们都需要NLP。我还提到了机器学习和将文本分类到为商业知识建模的特定领域本体的过程。在这一点上,您可能会想,“是的,但是我如何真正建模并从现有的合同文档中提取所有这些知识呢?”

这是一个很好的问题,但答案是它并不容易,因为在进入更高层次的知识本体之前,您需要解决多语言的语法和语义问题。这就是NLP的用武之地。对于外部“大数据”源的数据挖掘和解决遗留契约编码问题都需要它。

后者是最大的短期问题,特别是如果你的公司是通过收购发展起来的,或者没有严格建立标准化的条款库。但合同分析提供商(工具和/或服务)可以根据您的情况提供帮助。这是一个棘手的问题,因为用各种语言编写的密集的“法律术语”(有多种语义和法律解释)必须进行分类和挖掘,以提取有关义务、权利和利益风险的原子级见解。这种“自然”商业语言的NLP无法通过人类编码的、基于规则的方法可伸缩地解决。

这就是机器学习的用武之地。

机器学习

术语机器学习指的是计算机从它们处理的数据中“学习”,而不是依靠人类进行基于规则的程序编程来对数据进行操作。它不仅发现数据中的模式,而且还特别帮助关联各种数据输入和关键数据输出,这有助于实现预测分析。

在“监督学习”方法中,人类专家决定输出,系统“学习”如何模仿人类专家,同时发现人类自己无法发现的潜在变量和相互作用。“无监督学习”不依赖人类进行直接训练,而是延伸到深度学习的领域,这超出了本系列的范围。

请注意,基于规则的逻辑和更复杂的算法也可以放在顶层,以帮助提高整体预测分析的有效性。这种总体方法在花费分析领域得到了验证,但在遗留合同转换中也类似,其中输入数据是原始合同文本,输出数据是分类、抽象和协调的合同条款。训练过的系统还可以用于帮助对CLM工作流中的用户意图进行分类(例如,本系列前面讨论的“指导契约”场景)。

总结

没有知识,原始的人类智力是毫无意义的。同样的情况也适用于人工智能系统。组织必须开始不再将知识管理视为文档管理的内部网,而是通过支持人工智能的计算机系统将人类知识与模拟知识交叉起来的能力。

在CLM中,这个活动现在就可以开始了。然而,构建这样一个商业知识库是不能被老一代CLM方法和系统所支持的(例如,存储合同文档元数据和附件的关系数据库)。构建这样一个企业知识库的能力可以形成支持人工智能的商业信息的基础,需要高质量的合同和在整个生命周期中管理这些合同的高质量流程。

因此,领先的CLM应用程序是开始构建基于ai的CLM基础的好地方。我从CLM中的三个简单步骤开始本系列:

  1. 以合同存储库的形式构建关于所有合同的高级知识库。
  2. 从合同条款数据/元数据中获取关键情报,以识别风险和回报。
  3. 开始在上游CLM流程和其他具有商业信息的企业流程中利用您增强的商业智能

人工智能在合同管理中的应用是不断发展的。进化跨越了几代人,包括技术世代。随着下一代云CLM提供商为多个公司运行他们的应用程序,他们的系统(“机器”,如果你愿意的话)也将越来越多地向终端用户学习。这不仅仅是在单个公司内部,而是跨越数百甚至数千个使用真正基于saas的解决方案的公司。该系统将“大规模”学习。

外卖吗?在开始使用“智能CLM”之前,要变得聪明并获得适当的CLM功能。在你监督任何学习并开始在任何领域训练机器之前,最好在人工智能的话题上有所了解,以帮助你。希望这篇论文对这方面有所帮助。我鼓励所有采购从业人员不断学习、试验和分享您的成果。我们很乐意听到你在这方面的想法、经验和意见。

在Procurious分享

的声音(5)

  1. Jayant穆克吉

    嗨,Pierre,关于如何将AI应用于合同管理的优秀文章集。我喜欢你强调的AI系统如何在基于SaaS的实现中“大规模”学习的观点。我们目前正在开发一个基于SaaS的CLM解决方案的原型,以解决复杂的IT服务/外包安排的挑战。如果你能在原型准备好后给我们反馈,我会非常感激。愿意保持联系。最好的问候,Jayant

  2. Nikhil

    漂亮的一个。在CloudMoyo,我们也使用ML和NLP从合同和其他法律文件中提取见解http://www.cloudmoyo.com/blog-posts/contract-analytics/

  3. 皮埃尔·米切尔

    作为后续,我从我的同事Michael Lamoureux博士那里收到了对Yogesh的问题的答案....

    “本体开发依赖于一个复杂的描述性模型,该模型定义了领域、关系和解释数据的方法,而机器学习依赖于数据的数值表示。机器学习可以建立在统计算法、模式识别和其他知识发现技术的基础上。

    虽然机器学习可以使用指纹和特征编码的统计技术来识别相关语义概念的可能实例,但只有真正的语义算法才能使用域模型提取语义知识。

    在提取语义概念的CLM实现中工作最好的工具是Seal Software,它最近为专家用户创建了扩展领域模型的能力,以提高检测的准确性和相关性。

    很难说哪个解析器工作得最好——因为所有解析器都需要在相关的本体上进行定义,并根据数据进行训练,就像神经网络需要根据数据进行训练以提高精度一样。换句话说,没有理由说开源Stanford解析器不能像任何专利/专有解析器一样工作。

    至于哪种机器学习算法适合单词分析,你最适合使用混合指纹/特征提取技术,它封装单词距离,并使用高级统计技术(聚类、核机等)来识别相关数据点。”

  4. 皮埃尔·米切尔

    嗨·库马尔,
    据我所知,这是机器学习(例如,支持向量机,帮助将条款语言分类为特定的条款类型)和针对特定合同领域(例如,期权合同)和更一般的领域的特定于本体的知识建模的结合。不同的初创公司(以及一些老牌公司)在这些本体论数据框架上的工作与分析工具一样多。
    我们没有运行比较基准,但我们看到Seal Software在企业部署中使用最多,但也有其他公司的工具,如Kira、Ravn、recommendation (Opentext)、eBrevia、LegalRobot、Counselytics和其他公司(他们可能会在这篇博客文章中发表评论!)如果你想查看一个很酷的供应商(和网站),看一个关于所有法律技术的好摘要转储,请访问https://legalese.com/v1.0/page/present
    你也可以看看博客“人工律师”——它非常棒。
    谢谢你的来信。

  5. 优:

    本体开发依赖描述逻辑,而机器学习依赖数据的统计表示。你能解释一下如何提取契约的语义方面和有效的工具吗?哪一个解析器具有最佳的准确性,哪一个消歧技术将工作得很好,哪一个机器学习算法将适合缩略词分析?

讨论:

您的电邮地址将不会公布。必填项已标记

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据