时间:2022-09-22 14:40:49 | 浏览:360
作为搜索引擎起家的科技巨头,谷歌曾推出过很多有意思的搜索工具。昨天,这家公司的研究机构发布了一款基于人工智能的搜索引擎,该实验项目可以让普通人也能感受最新语义理解和自然语言处理技术的强大能力:它们是目前人工智能技术发展的重要方向。值得一提的是,《奇点临近》一书的作者,谷歌研究院工程总监雷·库兹韦尔也参与了这一工作。
项目链接:
https://research.google.com/semanticexperiences/
预训练模型下载地址:
https://tfhub.dev/google/universal-sentence-encoder/1
这一项目目前包含交互式 AI 语言工具,它展示的主要人工智能技术是「词向量」。词向量是一种自然语言处理形式,向量的一些几何性质能够很好的反映词的句法或者句义。例如,两个词向量的差值对应词的关系,词向量的距离则对应词的相关或者相似性。对于选定的一组词,将其向量投影到空间中,词义相近的词向量在向量空间中表现出了有趣的聚类现象。例如国家名词聚成一类,大学名称则形成另一个聚类。
自然语言理解在过去几年发展迅速,部分要归功于词向量的发展,词向量使算法能够根据实际语言的使用实例了解词与词之间的关系。这些向量模型基于概念和语言的对等性、相似性或关联性将语义相似的词组映射到邻近点。去年,谷歌使用语言的层次向量模型对 Gmail 的 Smart Reply 进行了改进。最近,谷歌一直在探索这些方法的其他应用。
今天,谷歌向公众分享了 Semantic Experiences 网站,该网站上有两个示例,展示了这些新的方法如何驱动之前不可能的应用。Talk to Books 是一种探索书籍的全新方式,它从句子层面入手,而不是作者或主题层面。Semantris 是一个由机器学习提供支持的单词联想游戏,你可以在其中键入与给定提示相关联的词汇。此外,谷歌还发布了论文《Universal Sentence Encoder》,详细地介绍了这些示例所使用的模型。最后,谷歌为社区提供了一个预训练语义 TensorFlow 模块,社区可以使用自己的句子或词组编码进行实验。
建模方法
谷歌提出的方法通过为较大的语言块(如完整句子和小段落)创建向量,扩展了在向量空间中表征语言的想法。语言是由概念的层次结构组成的,因此谷歌使用模块的层次结构来创建向量,每个模块都要考虑与不同时间尺度上的序列所对应的特征。关联、同义、反义、部分关系、整体关系以及许多其他类型的关系都可以用向量空间语言模型来表示,只要我们以正确的方式进行训练,并且提出正确的「问题」。谷歌在论文《Efficient Natural Language Response for Smart Reply》中介绍了这种方法。
Talk to Books
通过 Talk to Books,谷歌提供了一种全新的图书搜索方式。你陈述一件事或提出一个问题,这个工具就会在书中找出能回答你的句子,这种方法不依赖关键词匹配。从某种意义上来说,你在和书「交谈」,得到的回答可以帮助你确定自己是否有兴趣阅读它们。
Talk to Books
该模型在十亿聊天句对上训练而成,学习识别哪些可能是好的回复。一旦你问问题(或者作出陈述),工具就在搜索十万本书中的所有句子,根据句子层面的语义找到与输入语句对应的内容;没有限制输入和输出结果之间关系的预置规则。
这是一种独特的能力,可以帮助你找到关键词搜索未必找得到的有趣书籍,但是仍有改进空间。例如,上述实验在句子层面有作用(而不是像 Gmail 的 Smart Reply 那样是在段落层面),那么「完美」匹配的句子可能仍属「断章取义」。你可能会发现找到的书或文章并非自己想要的,或者选中某篇文章的理由并不明显。你还可能注意到著名的书籍未必排序靠前;该实验仅观察了单个句子的匹配程度。不过,它有一个好处,就是这个工具可以帮助人们发现意想不到的作者和书籍,以及 surface book。
Semantris
谷歌还发布了 Semantris,一个由该技术支持的单词联想游戏。你输入一个单词或词组,游戏屏幕上会排列出所有单词,排序根据这些单词与输入内容的对应程度。使用该语义模型,近义词、反义词和邻近概念都不在话下。
试用地址:
https://research.google.com/semantris
Arcade 版本(见下图)的时间压力使得你输入单个单词作为提示。而 Blocks 版本没有时间压力,你可以尽情尝试输入词组和句子。
Semantris Arcade
本文分享的示例仅仅是使用这些新工具的几个可能方式。其他潜在应用还包括分类、语义相似度、语义聚类、白名单应用(从多个方案中选择正确的回复)和语义搜索(比如 Talk to Books)。期待社区提出更多想法和更多有创意的应用案例。
相关论文:Universal Sentence Encoder
论文链接:
https://arxiv.org/abs/1803.11175
摘要:我们展示了将句子编码成嵌入向量的模型,可用于面向其他 NLP 任务的迁移学习。该模型高效,且在多项迁移任务中性能良好。该编码模型的两个变体允许准确率和计算资源之间的权衡。对于这两种变体,我们调查并作了关于模型复杂度、计算资源消耗、迁移任务可用性和任务性能之间关系的报告。我们将该模型与通过预置词嵌入使用单词级别迁移学习的基线模型和未使用迁移学习的基线模型进行了对比,发现使用句子嵌入的迁移学习性能优于单词级别的迁移学习。句子嵌入的迁移学习在具备少量监督训练数据的迁移任务中也能实现非常好的性能。我们在检测模型偏差的词嵌入关联测试(WEAT)中获得了很好的结果。
探寻北京文化旅游体验基地⑬|左驭菓潮•和平菓局京味文化体验基地、老舍茶馆京味文化体验基地2020年以来,北京市文化和旅游局创新性地开展了北京市文化旅游体验基地的认定工作,推出六大主题,共100家文化旅游体验基地。本期探寻之旅,我们一起走进左
原标题:走进前门大街体验传统文化,感受“非遗”魅力2020年以来,北京市文化和旅游局创新性地开展了北京市文化旅游体验基地的认定工作,推出六大主题,共100家文化旅游体验基地。本期探寻之旅,我们一起走进荣宝斋教育传统文化体验基地和吴裕泰茶文化。
探寻京味文化旅游体验基地⑯ | 吉祥大戏院国粹京剧体验基地、亮相 • 天乐园国粹京剧体验基地2020年以来,北京市文化和旅游局创新性地开展了北京市文化旅游体验基地的认定工作,推出六大主题,共100家文化旅游体验基地。本期探寻之旅,我们一起走
原标题:探寻北京文化旅游体验基地⑧|古北水镇北方风情小镇文化体验基地、北京躬耕乐道永宁古城非遗体验基地为充分展示北京丰富的文化旅游资源,加快推动文化和旅游在更广范围、更深层次、更高水平上的深度融合,更好地满足广大游客和市民在旅游活动中日益增
本期探寻之旅,我们一起走进北京市珐琅厂景泰蓝非遗文化体验基地和北京市良山珐琅厂景泰蓝工艺体验基地。2020年以来,北京市文化和旅游局创新性地开展了北京市文化旅游体验基地的认定工作,推出六大主题,共100家文化旅游体验基地。
搭建一套家庭影院究竟需要怎样的筹备?这个问题对于大多数朋友都是“天书”级别的存在。可经历了近两年的生活节奏之后,越来越多朋友选择面对这个问题。无他,家永远是安稳的避风港,科技进步也让人能在家享受到出色的影音体验。 在解答这个问题之前,我们
■ ■ ■ ━━━━━━━━━━━1九曲溪乘竹筏游山长水阔,高歌一曲青山相扶,绿水相送,歌声会跟随着我们的竹筏随风飘荡,让人忘记了城市的喧嚣,心沉寂下来,在处处弥漫着一种宁静柔美的意境,两岸是茂林,在荡漾的碧波上高歌一曲。━━━━━━━━━
全国2022“全民健身日”主题示范活动东莞市第五届市民运动会暨2022时尚运动节各项赛事已接近尾声。其中,在网上有着“露营新网红”之称的飞盘运动将压轴登场,为市民运动会带来独特的潮流运动魅力。生活或居住在东莞的6—60岁各年龄层的市民朋友均
长江三峡长江三峡万里长江在重庆和湖北之间横切巫山山脉,形成三段连续的高山峡谷,合称为长江三峡。长江三峡西起重庆奉节瞿塘峡口,东至湖北宜昌南津关,全长193公里。瞿塘雄、巫峡秀、西陵险已经成为了三峡的标志。
国泰君安君弘App也推出818新版本,以“客户为中心”为根本出发点,打造好产品、好投顾、好服务三位一体的一站式数字化财富管理平台,提供覆盖全生命周期的端到端、旅程式、智能化服务。国泰君安数字人“小安”以金融科技迅猛发展背景下的先进实践及前沿探索为基础,探究AI、数字人技术在证券服务数字化、智能化创新方面的应用,推动证券服务交互模式创新。
财联社8月16日讯(编辑胡家荣)汽车和工业显示屏生产商京东方精电(00710注:公告从公告上来看,京东方精电实现收入4831亿港元,较2021年同期增加51%;据悉,京东方精电主要从事汽车及工业显示屏业务,具备单色显示屏制造、薄膜晶体管TFT以及触控屏显示模组装配产能。
今夏申城热浪滚滚,与火热天气同步,本地消费市场也燃起了激情——“2022国际消费季”第三届“五五购物节”已经启动,12个标杆活动相继亮相、“一区一主题”点亮沪上每一个商圈、多场特色主题活动提升了消费的丰富度和层次感,在“五五购物节”上半场的活动中,很多消费者通过“购物大礼包”为咖啡奶茶“买单”,通过分期付款买下了心仪的新能源车,进一步释放消费潜力。
记者谢羲薇摄活动首站,网友及新闻媒体代表来到广西柯瑞机械设备有限公司,一台台大型智能化移动破碎筛分设备和林业砍伐设备让网友们大开眼界。工作人员在广西桂芯半导体科技有限公司芯片生产流程线上细致操作。实习生周颖摄活动的最后一站是“国家级”绿色工厂——广西博世科环保科技股份有限公司。
记者谢羲薇摄活动首站,网友及新闻媒体代表来到广西柯瑞机械设备有限公司,一台台大型智能化移动破碎筛分设备和林业砍伐设备让网友们大开眼界。工作人员在广西桂芯半导体科技有限公司芯片生产流程线上细致操作。实习生周颖摄活动的最后一站是“国家级”绿色工厂——广西博世科环保科技股份有限公司。
金堂推出“湾”生活系列、大邑西岭雪山8月免门票、平乐古镇/安仁古镇等上新优惠活动、推出“旅游”特色产品……20℃西岭雪山,8月免门票大邑西岭雪山日前推出了8月免门票优惠活动,邀请全国游客夏日入雪山避暑。