CN117112775A - 自动填写输入表单以生成列表的技术 - Google Patents
自动填写输入表单以生成列表的技术 Download PDFInfo
- Publication number
- CN117112775A CN117112775A CN202310586683.2A CN202310586683A CN117112775A CN 117112775 A CN117112775 A CN 117112775A CN 202310586683 A CN202310586683 A CN 202310586683A CN 117112775 A CN117112775 A CN 117112775A
- Authority
- CN
- China
- Prior art keywords
- attribute
- list
- machine learning
- learning model
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 90
- 238000010801 machine learning Methods 0.000 claims abstract description 184
- 238000012549 training Methods 0.000 claims description 70
- 230000000873 masking effect Effects 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 230000006399 behavior Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 6
- 239000010931 gold Substances 0.000 description 6
- 229910052737 gold Inorganic materials 0.000 description 6
- 239000002184 metal Substances 0.000 description 6
- 229910052751 metal Inorganic materials 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100023264 Zinc finger and BTB domain-containing protein 7A Human genes 0.000 description 1
- 101710096779 Zinc finger and BTB domain-containing protein 7A Proteins 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0603—Catalogue ordering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0621—Item configuration or customization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
***可以经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本。***可以基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值。在一些示例中,项目描述属性的值可以在自然语言文本中未指定,并且可以描述与所产生的项目相关联的特征。然后,***可以使得经由与在线市场相关联的用户界面来呈现包括项目描述属性的预测值的列表。
Description
相关申请的交叉引用
本申请要求于2022年5月24日提交的题为“TECHNIQUES FOR AUTOMATIC FILLINGOF AN INPUT FORM TO GENERATE A LISTING”的美国专利申请No.17/752,652的优先权,其全部内容通过引用并入本文。
技术领域
本公开总体上涉及数据库***和数据处理,并且更具体地涉及用于自动填写输入表单以生成列表的技术。
背景技术
计算机网络允许在互连的计算机之间传输数据。搜索引擎技术允许用户从经由计算机网络可用的一大批资源中获得信息。搜索引擎可以是这样的程序,其在数据库中搜索并识别与用户输入的关键字或字符相对应的内容,并且可以基于搜索返回经由互联网可用的网站。为了生成搜索,用户可以与诸如计算机或移动电话之类的用户设备交互,以经由搜索引擎提交搜索查询。搜索引擎可以基于与其他应用和服务器的通信来执行搜索并显示搜索查询的结果。数字表单通常被用于从用户收集结构化信息。在一些情况下,填写包括大量字段的数字表单可能是乏味且易于出错的。具体地,由于数字表单被用于获取生成列表的信息,因此准确的文本摘要变得与搜索引擎、电子商务网站、新闻网站、社交网站等相关。因此需要有效地自动填写在线表单以生成列表的技术。
发明内容
描述了一种用于生成项目的列表的方法。该方法可以包括:经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本;基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表。
描述了一种用于生成项目的列表的装置。该装置可以包括处理器、与处理器耦合的存储器以及存储在存储器中的指令。该指令可由处理器执行以使该装置:经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本;基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表。
描述了用于生成项目的列表的另一装置。该装置可以包括:用于经由与在线市场相关联的用户界面接收生成项目的列表的请求的部件,该请求包括作为列表的标题输入的自然语言文本;用于基于将自然语言文本输入到基于转换器的机器学习模型来生成项目的项目描述属性的预测值的部件,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及用于使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表的部件。
描述了一种存储用于生成项目的列表的代码的非暂时性计算机可读介质。该代码可以包括指令,该指令可由处理器执行以:经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本;基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表。
在本文描述的方法、装置和非暂时性计算机可读介质的一些示例中,生成预测值可以包括用于执行以下步骤的操作、特征、手段或指令:解析自然语言文本以生成标题标记;基于标题标记来识别与自然语言文本中未指定属性值的项目相关联的基于转换器的机器学习模型的属性标记;以及应用基于转换器的机器学习模型以基于标题标记和属性标记的集合来生成项目描述属性的预测值。
本文描述的方法、装置和非暂时性计算机可读介质的一些示例还可以包括用于执行以下步骤的操作、特征、手段或指令:基于确定项目描述属性的预测值满足概率阈值,使得经由用户界面在列表创建表单中呈现项目描述属性的预测值。
本文描述的方法、装置和非暂时性计算机可读介质的一些示例还可以包括用于执行以下步骤的操作、特征、手段或指令:经由用户界面接收确认或不同意项目描述属性的预测值的指示;以及基于指示更新与项目描述属性相关联的概率值。
本文描述的方法、装置和非暂时性计算机可读介质的一些示例还可以包括用于执行以下步骤的操作、特征、手段或指令:基于指示,根据基于转换器的机器学习模型生成项目的第二属性的第二预测值。
在本文描述的方法、装置和非暂时性计算机可读介质的一些示例中,向基于转换器的机器学习模型输入列表的属性字段标记的指示,屏蔽与属性字段标记相对应的一个或多个属性字段值;以及基于属性字段标记和自然语言训练文本样本来训练基于转换器的机器学习模型以预测属性字段值。
在本文描述的方法、装置和非暂时性计算机可读介质的一些示例中,生成项目的列表的请求是作为对显示在用户界面上的数字表单的输入而接收的。
附图说明
图1示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的生成项目列表的***的示例。
图2示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的应用流程的示例。
图3示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的***的示例。
图4示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的基于转换器的机器学习模型的示例。
图5示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的用户界面的示例。
图6示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的装置的框图。
图7示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的表单填写组件的框图。
图8示出了根据本公开的方面的包括支持用于自动填写输入表单以生成列表的技术的设备的***的图。
图9至图11示出了说明根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的方法的流程图。
具体实施方式
在线市场的平台通常允许卖家提供对列出待售的项目的描述。项目可以指具有特定的独特属性集合的产品。当潜在买家发起产品搜索时,在线市场的平台(例如,搜索平台)识别出与产品搜索相匹配的项目列表的集合,并传输可供销售的项目的列表以呈现给潜在买家。浏览器可以向卖家呈现用于输入与列表相关的属性的数字表单。
数字表单通常被用于从用户收集结构化信息。然而,填写包括大量字段的数字表单可能是乏味且易于出错的。在线电子商务平台可能经常使用多个表单来收集用户信息。在线电子商务市场利用此类表单来收集列出待售的项目的属性。在创建列表时,卖家可以为列表提供标题,并从下拉菜单中选择项目的一个或多个属性。例如,卖家(例如,用户)在创建列表时可以选择指示颜色、型号、尺寸、制造商、年份等的下拉菜单。然而,一些列表创建技术可能无法基于卖家提供的项目的标题来预测属性值。
本文描述的一种或多种技术提供了这样的过程,其自动预测属性值,以自动填写在线表单(例如,数字表单),以便基于卖家输入的作为列表的标题的自然语言文本生成在线市场中的列表。具体地,使用这种方法,卖家可以输入自然语言文本作为列出待售的项目的标题。自然语言文本可以是包括一个或多个单词、一个或多个短语、一个或多个首字母缩略词、一个或多个数字等的文本序列。在一些示例中,所述自然语言文本可以不指定用于创建列表的每个属性的值。本文描述的***应用基于转换器的机器学习模型,所述模型已使用自然语言文本序列进行训练以预测用于创建列表的项目的一个或多个属性的值,这些属性的值先前未由用户在输入的自然语言文本中指定。在训练期间,可以通过以下操作训练基于转换器的机器学习模型以预测在输入的自然语言文本中未指定的给定属性值:在训练时间期间屏蔽所述属性值,以及鼓励所述模型预测所述属性值的正确值。
在训练之后,基于转换器的机器学习模型可以从卖家接收列表标题作为输入,并预测在卖家提供的标题中未包括的项目的一个或多个列表属性的值。在接收到自然语言文本后,基于转换器的机器学习模型可以解析自然语言文本以生成对应于自然语言文本中的词的标记。在一个示例中,在接收到自然语言文本后,基于转换器的机器学习模型可以生成与自然语言文本中的各个词相对应的标记“标题1”、“标题2”、“标题3”和“标题4”。基于转换器的机器学习模型可以使用从自然语言文本生成的标记来预测列表的给定属性的值。例如,基于转换器的机器学习模型可以基于标记“标题1”、“标题2”、“标题3”和“标题4”来预测标记属性“字段1”的值(值1)。基于转换器的机器学习模型可以处理有序输入(即列表标题)和无序输入(属性名称-值对的集合)二者。在一些示例中,基于转换器的机器学习模型可以生成一个或多个属性的预测值,并且可以使用预测值自动填写输入数字表单以帮助卖家创建列表。在一个示例中,卖家可以提供列表标题“Pokemon Pikachu VMAX 188/185VividVoltage Gold Metal”,而基于转换器的机器学习模型可以预测标题中未显式提及的属性值(例如,“制造商:任天堂(Nintendo)”和“语言:英语”)。
基于转换器的机器学习模型还可被迭代地使用以在表单填写进行时利用由卖家关于第一预测属性值提供的信息来改进对其他预测属性值的预测。例如,如果用户确认自动填写的值是正确的或不正确的,则基于转换器的机器学习模型可以使用该信息来保留或改变其他属性的预测值。因此,本文描述的技术可被用于基于卖家提供的自然语言标题来预测项目的属性的值,以自动填充表单来帮助卖家在在线市场中创建项目的列表。
初始在支持按需数据库服务的环境的上下文中描述本公开的方面。然后在应用流程和用户界面的上下文中描述本公开的方面。本公开的方面还通过与用于自动填写输入表单以生成列表的技术有关的装置图、***图和流程图来进一步说明和并通过参考它们来描述。
图1示出了根据本公开的各种方面的支持用于自动填写输入表单以生成列表的技术的云计算的***100的示例。***100包括云客户端105、用户设备110、云平台115和数据中心120。云平台115可以是公共或私有的云网络的示例。云客户端105可以通过网络连接135访问云平台115。网络可以实现传输控制协议和互联网协议(TCP/IP),如互联网,或者可以实现其他网络协议。云客户端105可以是计算设备的示例,如服务器(例如,云客户端105-a)、智能电话(例如,云客户端105-b)、或膝上型计算机(例如,云客户端105-c)。在其他示例中,云客户端105可以是台式计算机、平板电脑、传感器或能够生成、分析、发送或接收通信的其他计算设备或***。在一些示例中,云客户端105可以是企业、事业单位、非营利组织、初创公司、或任何其他组织类型的一部分。
云客户端105可以促进数据中心120与一个或多个用户设备110之间的通信以实现在线市场。网络连接130可以包括通信、机会、购买、销售、或云客户端105与用户设备110之间的任何其他交互。云客户端105可以访问云平台115以存储、管理和处理经由一个或多个网络连接130传送的数据。在一些情况下,云客户端105可以具有相关联的安全或许可级别。基于相关联的安全或许可级别,云客户端105可能有权访问云平台115内的一些应用、数据和数据库信息,并且可能无法访问其他内容。
用户设备110可以通过网络连接130与云客户端105交互。网络可以实现传输控制协议和互联网协议(TCP/IP),如互联网,或者可以实现其他网络协议。网络连接130可以经由电子邮件、网络、文本消息、邮件或经由计算机网络的任何其他适当形式的电子交互(例如,网络连接130-a、130-b、130-c和130-d)促进数据传输。在示例中,用户设备110可以是诸如智能电话110-a、膝上型计算机110-b的计算设备,并且也可以是服务器110-c或传感器110-d。在其他情况下,用户设备110可以是另一计算***。在一些情况下,用户设备110可以由用户或用户组操作。用户或用户组可以是客户(与企业相关联)、制造商、或任何其他适当的组织。
云平台115可以向云客户端105提供按需数据库服务。在一些情况下,云平台115可以是多租户数据库***的示例。在这种情况下,云平台115可以用单个软件实例来服务多个云客户端105。然而,可以实现其他类型的***,包括但不限于客户端-服务器***、移动设备***、和移动网络***。在一些情况下,云平台115可以支持在线应用。这可以包括支持操作用户设备110的买家和卖家之间的销售、服务、买家发布的产品营销、买家和卖家之间的社区交互、分析(例如用户交互度量)、应用(例如,计算机视觉和机器学***台115可以通过网络连接135从云客户端105接收与在线市场的生成相关联的数据,并且可以存储和分析该数据。在一些情况下,云平台115可以直接从用户设备110和云客户端105接收数据。在一些情况下,云客户端105可以开发用以在云平台115上运行的应用。云平台115可以使用远程服务器来实现。在一些情况下,远程服务器可以位于一个或多个数据中心120。
数据中心120可以包括多个服务器。多个服务器可被用于数据存储、管理和处理。数据中心120可以经由连接140从云平台115接收数据,或者直接从云客户端105或经由用户设备110和云客户端105之间的网络连接130接收数据。出于安全目的,数据中心120可以利用多个冗余。在一些情况下,存储在数据中心120处的数据可以通过不同数据中心(未示出)处的数据副本来备份。
服务器***125可以包括云客户端105、云平台115、列表生成组件145和数据中心120,其可以与云平台115和数据中心120协作以实现在线市场。在一些情况下,数据处理可以发生在服务器***125的组件中的任何组件处,或者发生在这些组件的结合体处。在一些情况下,服务器可以执行数据处理。服务器可以是云客户端105或位于数据中心120处。
列表生成组件145可以经由连接155与云平台115通信,并且也可以经由连接150与数据中心120通信。列表生成组件145可以经由云客户端105以及经由云平台115或数据中心120从用户设备110接收信号和输入。
在线市场使卖家能够呈现用于向潜在买家出售的项目。描述每个出售项目的详细信息通常被组织在专门的页面中,所述页面称为列表页面。列表页面可以包括诸如项目标题、价格、运输详情、图像和各种属性(例如颜色、型号、尺寸等)之类的信息。这种信息是使用数字表单从卖家收集的。对于一些列表,可以存在独特的产品标识符,这允许从预定义的目录中收集关于列表的准确信息。然而,对于许多产品类别(例如收藏项目,如邮票或运动卡),通常可能不存在独特的标识符。对于这种情况,数字表单通常包括:用于列表标题和描述的自由文本输入框,以及用于收集结构化列表属性的具有值的闭集的多个字段。这种表单的示例可被包括在在线市场的移动应用列表流程中。
一些***可以实现在线市场,其中使用卖家输入的描述来显示列表。很多时候,卖家提供的描述包含冗长的句子。在一些情况下,卖家和买家可以使用移动设备经由软件应用与这种在线市场进行交互。具体地,卖家可以使用软件应用列出产品。卖家可以利用数字表单来生成列表。然而,对于卖家来说,经由应用(使用数字表单)在卖家使用的移动设备屏幕上输入对产品的长的描述可能具有挑战性。因此,可能需要有效的列表技术。
针对每个列表收集准确且完整的属性名称-值对的列表对于在线市场中的多个下游任务非常有价值。在线市场可以使用一个或多个属性名称-值对来向潜在买家显示关于每个列表的结构化的清楚的信息,等等。这样的属性名称-值对还允许过滤用户的搜索结果,并且对于改进诸如目录和产品推荐之类的多个后端任务非常有价值。然而,填写大量属性(一些类别中可以包括多达几十个属性)的过程是单调乏味的,并且经常导致填写速率低下。为了有效地列出项目,对属性值的自动建议可以使得改善卖家的体验,并允许针对每个列表收集更多的属性值。
根据本文描述的一个或多个方面,***100实现用于使用人工智能模型自动填写输入表单的过程和技术。具体地,服务器***125可以包括与此处描述的操作类似的操作。服务器***125的一个或多个组件(包括如本文所述的列表生成组件145)可以操作以生成产品的列表。服务器***125内的列表生成组件145可以经由与在线市场相关联的用户界面接收生成项目的列表的请求,所述请求包括作为列表的标题输入的自然语言文本。服务器***125内的列表生成组件145可以基于将自然语言文本输入到基于转换器的机器学习模型来生成项目的项目描述属性的预测值。在一些示例中,项目描述属性的值可能在用户输入的自然语言文本中未指定,并且可以描述与所产生的项目相关联的特征。与所产生的项目相关联的特征可以包括例如以下中的一个或多个:制造商信息、生产年份、制造商名称、产品类型、产品类别、产品规范、品牌、产品颜色、产品尺寸、重量、型号名称、材料、版本、零件编号、产品规格、产品特性、或其任意组合。服务器***125和列表生成组件145于是可以使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表。
可以实现本文描述的技术以简化卖家在创建列表期间填写列表属性的过程。给定卖家的自由文本输入(即,列表标题),可以实现本公开的技术以预测预定义的属性集的值集合。此外,如果一些属性由卖家显式提供(例如,卖家已批准自动填写值的第一集合),则本公开提供利用这种附加输入来预测其他相关属性以推荐给卖家。
本领域技术人员应当理解,本公开的一个或多个方面可以在***100中实现以附加地或备选地解决除本文描述的问题之外的其他问题。此外,本公开的方面可以提供对如本文所述的“常规的”***或过程的技术改进。然而,说明书和附图包括实现本公开的方面所产生的示例技术改进,并且相应地并不表示在权利要求的范围内提供的所有技术改进。
图2示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的应用流程200的示例。应用流程200的组件可以包括用于实现在线市场的服务器***(例如参考图1所描述的***100的服务器***125)的组件。应用流程200的一些组件可以在数据中心(如数据中心120)或云平台(如云平台115)内,或者与数据中心或云平台通信,或者兼而有之。应用流程200可以表示用于生成项目的列表的多个组件,以便在在线市场上列出项目时有效地利用数字表单。
销售流程组件205可以与一个或多个用户交互以从一个或多个用户或可能打算经由在线市场销售一个或多个项目(例如,产品)的“卖家”生成列表。卖家可以是操作用户设备(诸如关于图1所描述的用户设备110)的用户。与销售流程组件205的交互可以提示卖家输入多个参数,所述参数描述要经由在线市场列出待售的项目。在示例中,销售流程组件205可以使用户设备110呈现包括用于生成列表的数字表单的图形用户界面。卖家可以生成包括产品描述的待售项目(例如,产品)的列表,并且在一些情况下,可以将项目的一个或多个图像上传到销售流程组件205。
在一些情况下,卖家可以输入与产品相关联的列表(项目的一个或多个属性)。在一些示例中,销售流程组件205可以基于卖家提供的产品描述向卖家建议用于列表的产品。附加地或备选地,销售流程组件205可以基于卖家提供的属性的子集来建议产品的附加属性。在一些情况下,销售流程组件205可以使卖家用户设备110显示供卖家选择的用于列表的建议产品或建议属性的菜单。在示例中,卖家可以与销售流程组件205交互以生成平板计算机(如Apple iPad)的列表。卖家列出的特定Apple iPad可以包括列表中包含的其他特征。例如,列表可以包括待售产品是Apple iPad Air 64GB。基于接收到的属性,销售流程组件205可以预测Apple iPad Air 64GB具有Wi-Fi功能。在一个示例中,销售流程组件205可以基于卖家提供的属性以及销售流程组件205预测的属性生成产品的列表。
销售流程组件205可以就经由在线市场可购买的产品集合中的特定产品对列表进行分类。列表可被映射到特定产品,在所述特定产品中列出待售的项目具有相同或相似的特征,但可以允许项目之间存在一些变化同时仍被映射到同一产品。在一些情况下,生成列表的卖家可以选择或推荐该列表针对特定产品。列表的用户推荐产品可以被销售流程组件205或机器学习训练组件220更新或改变。
在一些示例中,销售流程组件205可以通过产品识别映射过程将一个或多个项目构成的集合分类为针对某个产品。产品识别映射过程可以包括对卖家建议的初始产品的分析,包括基于标题、产品详情、相似产品到买家提供的搜索查询的映射的分析等对该选择的准确性的置信度分析。产品识别映射过程还可以使用算法扩展到其他类似的产品集群。该产品识别过程可以由销售流程组件205或机器学习训练组件220执行。在一些示例中,卖家可以使用在卖家的用户设备上显示的数字表单来指示产品信息。备选地,卖家可以不指示产品名称,而是可以包括与产品相关联的其他标识符(例如UPC)。在这种情况下,销售流程组件205可以基于与同一产品相关联的先前列表来识别产品,并且可以向卖家提供产品识别信息(例如产品名称、列表标题等)。
在一些示例中,销售流程组件205或机器学习训练组件220可以提供对输入表单的自动填写以生成列表。在一个示例中,销售流程组件205或机器学习训练组件220可以执行机器学习算法(例如,神经网络算法)来预测项目的一个或多个属性。用于自动填写输入表单的机器学习算法的示例可以是神经网络,例如基于转换器的模型。在示例中,可以使用(例如,当创建或更新列表时)针对项目上传的一些或所有列表来训练机器学习算法。在示例中,可以针对具有相同特征(例如,状况、品牌、颜色等)的相同产品选择项目标题。在一些示例中,机器学习模型可以使用前K个受欢迎(例如,用户经常点击、经常购买等)的项目作为机器学习模型训练的目标,其中K是整数。
在一些示例中,机器学习算法可用于确定针对项目更新的一个或多个列表的标题长度分布。在一些情况下,标题长度分布可用于识别产生项目的最高销售价格的标题长度(例如,按词的数量来计)。在一些示例中,标题长度分布可被用于识别产生项目的最快销售时间的标题长度(例如,按词的数量来计)。机器学习***可以提取项目的先前销售的一个或多个特征(例如,项目的销售价格、列出项目和售出项目之间的时间、已售项目的标题长度、项目收到的报价数量等),并且确定与项目对应的用户行为数据。
一个或多个卖家上传的每个列表可由跟踪服务组件210跟踪。跟踪服务组件210可以转发列表和对应的卖家上传的标题以存储在分布式文件***组件215中。跟踪服务组件210可以监视在查看搜索结果页面中的一个或多个列表(例如,包括卖家更新的标题的列表)时的买家行为。还参考图4讨论包括可被监视的列表的搜索结果页面的示例。跟踪服务组件210可以监视在搜索结果页面中呈现的供购买的列表,以及监视用户与产品列表的交互并将用户行为数据传送给分布式文件***组件215。分布式文件***组件215可以是HADOOP应用的示例。分布式文件***组件215可以使用多个计算机的网络来分析大量数据。分布式文件***组件215可以监视和分析整个在线应用的销售,以及基于跟踪服务组件210检测到的用户行为数据来分析销售。
机器学习训练组件220可以利用基于转换器的模型来自动填写与列表相关的数字表单。机器学习训练组件220可以使用表单双向编码器表示转换器(BERT)架构。也可以使用其他基于转换器的机器学习模型来实现本文讨论的技术。表单BERT架构可以遵循基于BERT的架构(包括例如12个编码器层和每层12个注意头,具有例如768个隐藏单元),并使用“相同的词块(same WordPiece)”分词器。在一个示例中,表单BERT输入可能包括三种类型的文本实体:卖家输入的自然语言文本的列表标题(自由文本)、属性名称(例如“颜色”)和属性值(例如“黑色”)。在一些示例中,可以使用特殊的[SEP]标记定义各种输入实体边界(即,标题、属性名称或属性值)。三种输入类型中的每一种都由不同的(实体)类型嵌入来进一步表示。使用这样的嵌入,机器学习训练组件220可以允许机器学习模型基于各种输入标记关联的实体类型(即,标题、属性名称或属性值)为各种输入标记分配不同的重要性(例如,权重)。此外,机器学习训练组件220可以允许机器学习模型在输入的自由文本标记与它们的表观结构化角色(即,属性名称或值)之间建立链接。
卖家可以将自由自然语言文本(作为数字表单的输入)作为列表提供给机器学习训练组件220。例如,用户可以按任意顺序填写表单字段(例如,先填写第三个字段,然后填写第一个字段)。在这种情况下,机器学习训练组件220可以处理没有定义顺序的输入的属性名称-值对。具体地,机器学习训练组件220可以在训练期间置换每批属性名称-值对的位置嵌入以防止机器学习模型学习特定的属性排序。此外,属性名称-值对位置嵌入可以从值100开始,以便与从0开始的标题标记相比有所区别(我们数据集中的列表标题少于100个标记)。此外,机器学习训练组件220可以使特定的属性名称-值对的位置嵌入保持连续(例如,“彩色”=100,“黑色”=101)以便保持属性名称和值之间的配对。
机器学习训练组件220可以不预训练或微调表单BERT。相反,机器学习训练组件220可以使用屏蔽语言模型(MLM)预训练任务来训练模型并在推理期间预测每个属性值。由于表单BERT旨在预测属性值,机器学习训练组件220可以修改MLM任务,使得在训练期间屏蔽属性值。具体地,在每一批中,最多70%的属性值被随机屏蔽(该参数可被进一步调整)。在推理期间,属性值被屏蔽并且机器学习训练组件220可以训练表单BERT以预测每个被屏蔽标记的属性值。由于属性值可以包括多个标记或子标记,因此所有属性值都经过预处理以作为单个标记包括在分词器词汇表中。这种预处理使得能够在推理阶段针对每个属性使用单个[屏蔽(MASK)]标记。
因此,机器学习训练组件220可以生成机器学习模型以基于自由文本和零个或多个已知值来预测和自动填写数字表单字段(属性)值。表单BERT(例如,机器学习模型)包括输入自由文本的不同嵌入类型、属性名称和属性值、随机屏蔽属性值的经修改的屏蔽语言模型、以及用于解决用户可以填写数字表单的自然语言文本的单词顺序的不确定性的置换位置嵌入。机器学习训练组件220可以生成表单BERT,其帮助卖家基于他们的列表标题和零个或多个已知属性值来自动填写数字表单。当卖家自愿提供一些属性值或采纳一些模型建议时,本文描述的技术允许灵活地更新模型预测并自动填写潜在的附加字段。机器学习模型可以适用于多个在线市场,所述在线市场利用数字表单来收集列表信息,其包括预定义的属性集合连同自由文本框。例如,在线度假租赁市场可以利用其历史列表数据,以基于租赁自由文本描述来自动填写各种便利设施。
机器学习训练组件220可以基于对相似列表中包括什么单词的确定来生成列表的属性度量。在一些示例中,机器学习训练组件220可以基于对列表能够多好地实现期望结果(例如,与产品的其他列表的标题相比,以更高的价格快速销售项目)的确定来生成列表的属性度量。在一些情况下,机器学习训练组件220可以基于用户行为数据生成用户交互度量。例如,如果用户行为数据指示当列表中包括特定词时买家有更高的概率购买产品,则用户交互度量可以将较高的分数应用于包括该特定词的标题。在一些示例中,用户交互度量可以对一个或多个用户行为数据中的一些或全部应用加权以确定可以指示列表能够多好地实现期望结果的数值分数。
当生成用户交互度量时,机器学习训练组件220可以规范化用户交互度量以说明列表中的项目之间的任何差异。用户交互度量可以是分配给产品的每个列表的数值。机器学习模型可以基于用户交互度量对针对产品可获得的列表进行排名(例如,按数值顺序放置),并且可以确定哪些列表特征提供针对产品的最高点击率和/或销售率。在一些示例中,机器学习训练组件220对机器学习模型的训练可以是特定于产品的,并且针对第一产品(例如,智能电话)的改进建议标题的方式可以不同于针对与第一产品不同的第二产品(例如,高尔夫球杆)的改进建议标题的方式。
在一个示例中,机器学习训练组件220可以将至少一个附加词添加到卖家上传的列表以自动填充数字表单并生成改进列表。例如,机器学习训练组件220可以确定特定词在被包括在列表中时产生更高的用户参与度(例如,更高的分数)。机器学习训练组件220可以在确定卖家上传的列表缺少特定词时将该词添加到卖家上传的列表。在一些示例中,机器学习训练组件220可以替换来自卖家上传的列表中的至少一个词以生成更新的列表。例如,用户行为数据可能表明:如果特定词被包括在产品的列表中,则买家有更高的概率(或可能性)购买产品。也即,特定词可能与更高的概率分数相关联。
附加地或备选地,机器学习训练组件220可以确定在卖家上传的自然文本输入中包括的词的相对顺序,并且可以通过根据相对顺序重新排列卖家上传的输入的词来生成列表。在一些示例中,机器学习训练组件220可以使用反馈循环以便随时间迭代地更新列表。例如,跟踪服务组件210可以接收附加的用户数据并且可以更新用户交互度量。例如,机器学习训练组件220可以为列表添加属性,并为用户提供选项以确认或拒绝添加的属性。机器学习训练组件220可以使用用户的确认或拒绝数据来生成更新的列表以及进一步改进机器学习模型。附加地或备选地,机器学习训练组件220可以响应于接收到来自买家的后续搜索查询而提供更新的列表以供显示。
一旦数字表单被自动填写以生成列表,机器学***台(例如,Apache Airflow)将列表及对其产品的识别转发给数据缓存组件225。数据缓存组件225可以是缓存层的示例,例如内存缓存(例如,memcache)或非结构化查询语言(非SQL或NOSQL)数据库。数据缓存组件225可以提供列表及对其产品的识别以存储在缓存230中。
当买家用户设备(例如,用户设备110)使用在线应用(例如,在在线市场中)发送对在线市场中的列出待售的项目的搜索查询时,查询组件235可以实现服务(例如,代表性状态传输(REST)服务)来响应该查询。查询组件235可以使用搜索查询来查询缓存230,以识别可获得产品的集合中的特定产品以及匹配搜索查询的一个或多个列表。在一些情况下,缓存230可以返回匹配搜索查询的列表的标识符、以及产品的标识符、和对应的改进列表。
当潜在买家与搜索结果页面交互时,跟踪服务组件210可以与搜索项目和产品页面组件240协作来监视潜在买家的行为以更新存储在分布式文件***组件215中的一个或多个用户行为数据(例如,用户点击、用户是否在查看列表后购买了列出的项目等)。在一些示例中,机器学习训练组件220可以实现集群计算框架,该框架可以挖掘分布式文件***组件215中的数据以确定改进的标题是否已经导致特定的期望结果(例如,购买可能性的增加)。因此,应用流程200的组件可以响应于从用户接收自由文本、已知属性名称列表以及零个或多个属性值,提供对列表属性的自动填写。附加地或备选地,应用流程200的组件可以随时间监视买家行为以建立反馈循环来训练(例如,连续训练)机器学习模型,用以自动填写表单以生成产品的列表。
图3示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的***300的示例。***300可以包括设备305(例如,应用服务器或服务器***)和数据存储库365。在一些情况下,由设备305(例如应用服务器)执行的功能可以改为由数据存储库365的组件执行。用户设备(未示出)可以支持在线市场的应用。具体地,用户设备结合设备305可以支持通过使用机器学习模型生成改进标题的在线市场。应用(或托管在线市场的应用)可以在设备305处训练数学模型(例如,人工智能模型),其中设备305可以基于训练数据识别结果360并使用训练数据生成列表的改进标题。在一些示例中,设备305可以将结果360提供给用户设备(未示出)。
根据本公开的一个或多个方面,用户设备可以由卖家使用以生成列表以及可以由买家使用以提供搜索查询并接收一个或多个搜索结果。具体地,用户设备可以显示用于显示在线市场以及显示一个或多个搜索结果的交互界面。在一些示例中,用户设备可以是包括用于生成列表(经由列表生成组件)的软件应用的移动设备。在一些情况下,用户设备处的界面可以作为网络浏览器内的网页运行(例如,作为软件即服务(SaaS)产品)。在其他情况下,界面可以是下载到用户设备上的应用的一部分。操作用户设备的用户(卖家和/或买家)可以将信息输入到用户界面中以登录到在线市场。在一些情况下,用户可以与用户凭证或用户ID相关联,并且用户可以使用用户凭证登录到在线市场。
在一些情况下,设备305结合数据存储库365可以训练或开发数学模型(例如,人工智能模型、机器学习模型、神经网络模型、基于转换器的模型等)以自动完成表单并生成列表。在一些方面,设备305(或应用服务器)可以接收针对下述的请求:开发人工智能模型以使用一个或多个预测属性值自动填充列表的一个或多个字段。附加地或备选地,设备305可以确定针对下述的需求:开发人工智能模型(例如,机器学习模型)以对卖家上传的描述进行分类并生成列表。如本文所述,设备305结合数据存储库365可以执行列表生成操作315。
根据本公开的一个或多个方面,列表生成操作315可以由设备305执行,设备305例如是服务器(例如,应用服务器、数据库服务器、服务器集群、虚拟机、容器等)。尽管图3中未示出,但列表生成操作315可由用户设备、数据存储库、或者这些或类似设备的某种组合来执行。在一些情况下,设备305可以是如参考图1所描述的子***125的组件。设备305可以支持计算机辅助的数据科学,其可以由人工智能增强的数据分析框架执行。设备305可以是通用分析机器的示例,并且因此可以基于从用户(例如,卖家)接收到产品描述来执行数据分析并自动填写表单和提供列表。
根据本公开的一个或多个方面,设备305可以从一个或多个先前列表活动和/或购买活动接收训练数据320。如本文所述,训练数据320可以是用户行为数据或可以包括用户行为数据。例如,训练数据320可以包括基于与传送到一个或多个用户设备的搜索结果相关联的交互活动的用户活动。例如,用户设备(例如与设备305分离的用户设备)可以接收响应于搜索查询的搜索结果页面(包括与一产品相关联的多个列表)。用户设备(未示出)可以在交互界面上接收搜索结果页面。该界面可以作为网页浏览器中的网页运行,或者该界面可以是下载到用户设备上的应用的一部分。设备305然后可以接收与搜索结果页面相关联的交互活动信息。附加地或备选地,设备305可以监视列表中包括的属性。
在接收到训练数据320之后,设备305可以执行训练操作325。训练操作325可以广泛地包括用户行为数据识别330和属性识别335。作为用户行为数据识别330的一部分,设备305可以识别搜索词和列表中包括的词之间的相关性、买家在购买或没有购买项目之前查看特定列表所花费的时间长度。设备305可以识别与第一列表相关联的第一属性集合和与第二列表相关联的第二属性集合。第一列表和第二列表二者可以与同一产品相关联。在一些示例中,作为属性识别335的一部分,设备305可以执行参考图4描述的屏蔽操作。例如,设备305可以通过向基于转换器的机器学习模型输入用于项目的列表的属性字段标记的指示并且屏蔽项目的与属性字段标记对应的一个或多个属性字段值来执行训练操作325。即,设备305可以通过用项目的特定列表的属性值的子集训练基于转换器的机器学习模型,来训练基于转换器的机器学习模型以预测项目的列表的一个或多个属性。作为训练过程的一部分,设备305可以屏蔽一些属性值(例如,向模型中隐藏属性值),使得基于转换器的机器学习模型可以预测项目的被屏蔽属性的值。例如,经由在线市场列出待售的项目可以是Pokémon(神奇宝贝)卡。Pokémon卡可具有如下表1中所列出的属性的集合。基于转换器的机器学习模型可以通过下述方式进行训练:屏蔽属性集合中的一个或多个属性的特定组合(例如,省略某些属性的值)并在自然语言文本中提供一个或多个其他属性,以训练基于转换器的机器学习模型来预测被屏蔽属性的正确值。例如,在训练期间,可以从输入到基于转换器的机器学习模型的自然语言文本中略去生物类型属性的值,并且可以将卡名称属性、角色名称属性等的值提供给基于转换器的机器学习模型,以训练基于转换器的机器学习模型来预测被略去的生物类型属性的值。设备305因此可以基于属性字段标记和自然语言训练文本样本来训练基于转换器的机器学习模型以预测属性字段值。在一些示例中,设备305可以实现参考图1和图2描述的表单BERT以执行训练操作325和列表生成操作345。
如本文所述,设备305可以接收列表请求340。列表请求340可以包括生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本。在一些示例中,包括针对产品的第一列表的建议标题。例如,卖家可以使用用户设备(例如与设备305分离的用户设备)来填写数字表单以生成产品的列表。卖家可以在用户设备的交互界面上提供列表的一个或多个属性。该界面可以作为网页浏览器中的网页运行,或者该界面可以是下载到用户设备上的应用的一部分。基于接收到一个或多个属性,设备305可以生成项目的项目描述属性的预测值。如本文所述,项目描述属性的值可以未在自然语言文本中指定,并且可以描述与所产生的项目相关联的特征。在一些示例中,设备305可以基于将自然语言文本输入到基于转换器的机器学习模型来生成预测值。
在接收到列表请求340后,设备305可以基于包括在列表请求340中的属性来执行列表生成操作345。在一些示例中,列表生成操作345可以包括标记识别过程350和值确定过程355。在一个示例中,设备305可以从建议标题中识别词的集合,并且基于识别在输入列表中包括的词的集合来自动填写数字表单以生成列表的一个或多个预测属性。作为标记识别350的一部分,设备305可以解析自然语言文本(作为列表请求340的一部分接收)以生成标题标记。设备305然后可以基于标题标记识别与自然语言文本中未指定属性值的项目相关联的基于转换器的机器学习模型的属性标记。在识别属性标记后,设备305可以执行值确定355。作为值确定355的一部分,设备305可以应用基于转换器的机器学习模型来基于标题标记和属性标记的集合生成项目描述属性的预测值。
设备305可以应用列表生成操作345,使得例如机器学习模型为属性的每个预测值分配分数。附加地或备选地,列表生成操作345可以向作为属性的值的词的一个或多个集合的序列分配分数。例如,列表生成操作345可以基于词被包括在属性的值中的可能性为包括在该属性的值中的每个词分配分数。在一个示例中,卖家可以提供列表标题“PokemonPikachu VMAX 188/185Vivid Voltage Gold Metal”,并且设备305可以预测标题中未显式提及的属性值(例如,“制造商:任天堂”和“语言:英语”)。
根据本公开的一个或多个方面,设备305可以使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表360。参考前面的示例,在接收到自然语言文本“Pokemon Pikachu VMAX 188/185Vivid Voltage Gold Metal”时,设备305可以在数字表单中显示“制造商:任天堂”和“语言:英语”。在一些示例中,设备305可以跟踪卖家是确认还是否认该预测值。也即,设备305可以接收确认或不同意项目描述属性的预测值的指示。基于该指示,设备可以更新与项目描述属性相关联的概率值。例如,卖家可以同意“任天堂”是属性“制造商”的正确预测值。基于接收到的确认,设备305可以根据基于转换器的机器学习模型生成项目的第二属性的第二预测值。例如,在用户确认一个属性的值是正确的之后,基于转换器的机器学习模型可以或多或少地相信第二属性的预测值是正确的。类似地,在用户确认一个属性的值是不正确的之后,基于转换器的机器学习模型可以或多或少地相信第二属性的预测值是正确的。基于转换器的机器学习模型因此可以向项目描述属性的一组候选值分配概率,并且选择所述属性的候选值之一作为项目描述属性的预测值。从用户接收关于一个属性的预测值是正确还是不正确的指示可以被基于转换器的机器学习模型用于更新对一个或多个附加属性的一个或多个预测。
图4示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的技术的基于转换器的机器学习模型400的示例。基于转换器的机器学习模型400可用于生成列表中的属性的预测值。例如,用户(例如,卖家)可以填写包括列表标题和一个或多个属性的表单,基于转换器的机器学习模型400可以预测用户提供的属性中空缺的属性值。
基于转换器的机器学习模型400中的转换器架构可以适用于包括有序输入(即,列表标题)和无序输入(属性名称-值对的集合)的输入类型。此外,基于转换器的机器学习模型400可以能够处理属性值中的一些是已知的而其余是可预测的情况。
从列表标题中提取属性名称-值对的任务可以通过将提取任务转换为命名实体识别(NER)任务来实现。在一些情况下,可以通过应用手工正则表达式、规则或字典,或通过使用各种NLP和机器学习技术(例如语义解析、顺序分类和实体匹配)来执行从列表标题中提取属性名称-值对的任务[1,4,6-8,11-14,16]。如图4的示例中所描绘的,基于转换器的机器学习模型400可以使用MLM方法来提取显式属性和隐式属性二者。
为了使MLM任务的样本效率更高,在一些情况下,基于转换器的机器学习模型400可以用从小型生成器网络采样的合理备选物来替换一些标记。在一些示例中,***可以使用两种屏蔽类型的组合:短语级屏蔽,其中短语被定义为一起充当概念单元和实体级屏蔽(例如,人、组织)的一组词或字符。基于转换器的机器学习模型400可以执行屏蔽操作,其中每个属性值可以包括被作为单个单元屏蔽的若干标记。
使用这种方法,可以向卖家推荐多个属性值,而无需基于转换器的机器学习模型400预先知道所有可能的列表属性。此外,基于转换器的机器学习模型400可以扩展到多个域和属性类型,而无需任何手动标记。基于转换器的机器学习模型400可以使用标记嵌入、位置嵌入和类型嵌入来训练。在接收到生成项目的列表的请求时,支持基于转换器的机器学习模型400的***可以解析用户针对列表输入的自然语言文本以生成标题标记。***然后可以基于标题标记识别与自然语言文本中未指定属性值的项目相关联的基于转换器的机器学习模型的属性标记。
与诸如循环神经网络或卷积神经网络之类的其他神经网络算法相比,输入顺序不是基于转换器的机器学习模型400的网络架构的固有部分。在一些示例中,输入的顺序可以作为每个输入标记的附加位置嵌入而被包括。因此,通过针对每个有序输入和无序输入使用不同的位置嵌入,基于转换器的机器学习模型400架构提供了解决单个架构中的输入混合体的灵活性。列表属性可以不遵循任何特定顺序,因为用户可以按任何顺序添加这些属性。为了提高基于转换器的机器学习模型400对这种任意输入的普适性,可以使用增强的训练方案来训练基于转换器的机器学习模型400,其中在每一批中置换属性名称-值对。
如参考图4所描述的,基于转换器的机器学习模型400可以支持三种特定的“类型”嵌入,每个实体类型(即,标题、属性名称或属性值)一种,每个标记输入可以与之相关联。使用这样的类型嵌入有助于基于转换器的机器学习模型400识别各种输入标记的角色。也即,基于转换器的机器学习模型400可以学习预期哪些标记来表示属性值,并且还对它们进行不同的加权。
在训练阶段期间,基于转换器的机器学***均而言,我们数据集中的每个列表具有4.5个属性名称-值对)。为了移除异常值并降低任务的复杂性,数据可以被截断以包括出现至少5次的前20个最常用的属性和值;得到数据集中大约11,000个最频繁的值。在过滤后,属性名称-值对覆盖了我们数据集中所有属性名称-值对出现项中的大约97%。4%的数据集可被用于验证和模型选择,而另外4%被用于测试,同时其余可被用于训练。表1中报告了前10个属性和独特(unique)值的数量:
表1
基于转换器的机器学***均来计算。
为了评估,与BERT相比,基于转换器的机器学习模型400(例如,表单BERT)所带来的增强的贡献,可以执行基于转换器的机器学习模型400的消融实验,其中类型嵌入对于所有标记都被设置为0以及其位置嵌入都被设置为绝对位置。表2中描绘的对基于转换器的机器学习模型400的定性评估确保基于转换器的机器学习模型400预测不限于列表标题中显式提到的属性名称-值。
属性 | 值 |
卡牌类型 | 宝可梦 |
角色 | 皮卡丘 |
特长 | VMAX |
卡包 | 动感伏特 |
语言 | 英语 |
制造年份 | 2020 |
游戏 | 宝可梦TCG |
制造商 | 任天堂 |
结束 | Holo |
特征 | Full Art |
表2
表2示出了基于转换器的机器学习模型400针对列表标题“Pokemon Pikachu VMAX188/185Vivid Voltage Gold Metal”做出的预测示例,其中没有任何属性值作为自然语言输入给出。如本文所述,基于转换器的机器学习模型400可以能够准确地预测标题中未显式提及的属性值(例如,“制造商:任天堂”和“语言:英语”)。因此,基于转换器的机器学习模型400可被用于基于自由文本和零个或多个已知值来预测和自动填写数字表单字段(属性)值。基于转换器的机器学习模型400可以包括用于输入的自由文本、属性名称和属性值的不同嵌入类型。基于转换器的机器学习模型400还可以包括随机屏蔽属性值的经修改的屏蔽语言模型。此外,基于转换器的机器学习模型400可以包括置换位置嵌入,以解决用户可以填写数字表单的顺序的不确定性。
基于转换器的机器学习模型400可以帮助卖家基于他们的列表标题和零个或多个已知属性值自动填写数字表单。在一些示例中,基于转换器的机器学习模型400可以允许在卖家自愿提供一些属性值或采纳一些模型建议时灵活地更新模型预测和自动填写潜在的附加字段。
图5示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的用户界面500的示例。用户界面500可以是显示用于列表生成的数字表单(列表表单505)的页面的示例。用户界面500可以在用户设备(例如,用户设备110,诸如平板电脑、智能电话或其他面向客户端的用户设备)处显示给预期卖家。
卖家可以访问在线市场的在线应用(例如,网站或智能电话应用)(例如,由搜索项目和产品页面组件240呈现)并输入列表标题515。在示例中,卖家可以输入作为自然语言文本的“Pokemon Pikachu VMAX 188/185Vivid Voltage Gold Metal”,其作为项目的列表标题输入。卖家可以部分填写列表表单505。例如,卖家可以提供列表标题(Pokemon PikachuVMAX 188/185Vivid Voltage Gold Metal)而不提供一个或多个其他属性的值。参考图4在表2中描述了属性的一个示例。附加地或备选地,卖家可以上传列表的图像510。列表表单505的填写可以导致在卖家用户设备处显示用于列表的一个或多个建议的属性值。基于转换器的机器学习模型可以预测与产品相关联的一个或多个附加属性。在一些情况下,一个或多个附加属性可以与所产生的项目相关联(例如,制造商名称、制造日期等)。
基于转换器的机器学习模型可以预测一个或多个附加属性的值(未在来自用户的自然语言文本中提供)。例如,基于转换器的机器学习模型可以使用参考图4描述的方法来预测如表2中所示的一个或多个属性。一个或多个建议的属性值可以包括卖家提供的列表中缺失的属性的预测值。在确定每个属性的值时,基于转换器的机器学习模型可以使用概率值。例如,对于每个属性,基于转换器的机器学习模型可以生成或确定可能值的集合。基于训练数据以及先前的列表信息,基于转换器的机器学习模型可以为属性的每个预测值分配概率或权重。基于转换器的机器学习模型然后可以将具有最高权重的预测值呈现为卖家输入中缺失的属性的值。
如图5中所描绘的,用户界面500可以包括一组项目描述属性的一个或多个预测值。在本文描绘的示例中,用户界面500可以将属性“语言”的值呈现为“英语”,将属性“制造年份”的值呈现为“2020”,并且将属性“制造商”的值呈现为“任天堂”。如本文所述,基于转换器的机器学习模型可以确定属性“语言”的多个选项。值“英语”可以具有作为属性“语言”的预测值的最高概率(或权重),或者可以以其他方式满足概率阈值(例如,达到或超过阈值)。因此,基于转换器的机器学习模型可以将“英语”显示为属性“语言”的值。用户界面500还可以为卖家提供确认或拒绝属性的每个值的选项。也即,基于转换器的机器学习模型可以自动填写列表表单505的部分,并且可以请求卖家同意或拒绝已经自动填写的值。例如,卖家可以同意属性“语言”的值为“英语”,属性“制造商”的值为“任天堂”。卖家可以拒绝或指示属性“制造年份”的值不是“2020”。因此,基于转换器的机器学习模型增加了属性“语言”的值“英语”和属性“制造商”的值“任天堂”的权重。此外,基于转换器的机器学习模型降低了属性“制造年份”的值“2020”的权重。在一些示例中,基于转换器的机器学习模型可以在卖家拒绝第一预测值之后提供属性“制造年份”的第二预测值。也即,基于转换器的机器学习模型可以将属性“制造年份”的值从“2020”替换为另一年份。用户界面500可以帮助用户设备(例如,用户设备110)的用户准备项目的列表,该列表包括一个或多个项目描述属性的一个或多个预测值。用户可以经由用户界面500同意该列表,并且在线市场可以使该列表可搜索并且可用于在线市场的其他用户。
图6示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的设备605的框图600。设备605可以包括输入模块610、输出模块615和表单填写组件620。表单填写组件620可以是参考图1描述的列表生成组件145的示例。设备605还可以包括处理器。这些组件中的各组件可以相互通信(例如,经由一个或多个总线)。
输入模块610可以管理设备605的输入信号。例如,输入模块610可以基于与调制解调器、键盘、鼠标、触摸屏或类似设备的交互来识别输入信号。这些输入信号可以与其他组件或设备处的用户输入或处理相关联。在一些情况下,输入模块610可以利用诸如 或其他已知操作***之类的操作***来处理输入信号。输入模块610可以将这些输入信号的方面发送给设备605的其他组件以进行处理。例如,输入模块610可以将输入信号发送给表单填写组件620以支持用于自动填写输入表单以生成列表的技术。在一些情况下,输入模块610可以是如参考图8所描述的I/O控制器810的组件。
输出模块615可以管理设备605的输出信号。例如,输出模块615可以从设备605的其他组件(例如表单填写组件620)接收信号,并且可以将这些信号发送给其他组件或设备。在一些示例中,输出模块615可以发送输出信号用于在用户界面中显示、用于存储在数据库或数据存储库中、用于在服务器或服务器集群处进一步处理、或用于任何数量的设备或***处的任何其他过程。在一些情况下,输出模块615可以是如参考图8所描述的I/O控制器810的组件。
例如,表单填写组件620可以包括请求组件625、值生成组件630、列表组件635、或其任何组合。在一些示例中,表单填写组件620或其各种组件可以被配置为:使用输入模块610、输出模块615或两者,或以其他方式与输入模块610、输出模块615或两者协作,来执行各种操作(例如,接收、监视、发送)。例如,表单填写组件620可以从输入模块610接收信息,向输出模块615发送信息,或者与输入模块610、输出模块615或两者相结合以接收信息、发送信息、或执行本文描述的各种其他操作。
表单填写组件620可以支持根据本文公开的示例生成项目的列表。请求组件625可以被配置为或以其他方式支持用于经由与在线市场相关联的用户界面接收生成项目的列表的请求的部件,该请求包括作为列表的标题输入的自然语言文本。值生成组件630可以被配置为或以其他方式支持用于基于将自然语言文本输入到基于转换器的机器学习模型来生成项目的项目描述属性的预测值的部件,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征。列表组件635可以被配置为或以其他方式支持用于使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表的部件。
图7示出了根据本公开的方面的支持用于自动填写输入表单以生成列表的表单填写组件720的框图700。表单填写组件720可以是如本文所述的表单填写组件620的示例或包括其组件。表单填写组件720或其各种组件可以是用于执行如本文所述的用于自动填写输入表单以生成列表的技术的各方面的部件的示例。例如,表单填写组件720可以包括请求组件725、值生成组件730、列表组件735、解析组件740、属性标记组件745、输入组件750、屏蔽组件755、训练组件760、指示接收组件765、概率组件770、或其任何组合。这些组件中的各个组件可以直接或间接地相互通信(例如,经由一个或多个总线)。
表单填写组件720可以支持根据本文公开的示例生成项目的列表。请求组件725可以被配置为或以其他方式支持用于经由与在线市场相关联的用户界面接收生成项目的列表的请求的部件,该请求包括作为列表的标题输入的自然语言文本。值生成组件730可以被配置为或以其他方式支持用于基于将自然语言文本输入到基于转换器的机器学习模型来生成项目的项目描述属性的预测值的部件,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征。列表组件735可以被配置为或以其他方式支持用于使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表的部件。
在一些示例中,为了支持生成预测值,解析组件740可以被配置为或以其他方式支持用于解析自然语言文本以生成标题标记的部件。在一些示例中,为了支持生成预测值,属性标记组件745可以被配置为或以其他方式支持用于基于标题标记识别与自然语言文本中未指定属性值的项目相关联的基于转换器的机器学习模型的属性标记的部件。在一些示例中,为了支持生成预测值,值生成组件730可以被配置为或以其他方式支持用于应用基于转换器的机器学习模型以基于标题标记和属性标记的集合生成项目描述属性的预测值的部件。
在一些示例中,列表组件735可以被配置为或以其他方式支持用于基于确定项目描述属性的预测值满足概率阈值而使得经由用户界面在列表创建表单中呈现项目描述属性的预测值的部件。
在一些示例中,指示接收组件765可以被配置为或以其他方式支持用于经由用户界面接收确认或不同意项目描述属性的预测值的指示的部件。在一些示例中,概率组件770可以被配置为或以其他方式支持用于基于所述指示来更新与项目描述属性相关联的概率值的部件。
在一些示例中,值生成组件730可以被配置为或以其他方式支持用于基于所述指示根据基于转换器的机器学习模型生成项目的第二属性的第二预测值的部件。
在一些示例中,输入组件750可以被配置为或以其他方式支持用于向基于转换器的机器学习模型输入列表的属性字段标记的指示的部件。在一些示例中,屏蔽组件755可以被配置为或以其他方式支持用于屏蔽与属性字段标记相对应的一个或多个属性字段值的部件。在一些示例中,训练组件760可以被配置为或以其他方式支持用于基于属性字段标记和自然语言训练文本样本训练基于转换器的机器学习模型以预测属性字段值的部件。在一些示例中,生成项目的列表的请求是作为对显示在用户界面上的数字表单的输入而接收的。
图8示出了根据本公开的方面的包括支持用于自动填写输入表单以生成列表的设备805的***800的图。设备805可以是如本文所述的设备605的示例或包括设备605的组件。设备805可以包括用于双向数据通信的组件(包括用于发送和接收通信的组件),例如表单填写组件820、I/O控制器810、数据库控制器815、存储器825、处理器830和数据库835。这些组件可以经由一个或多个总线(例如,总线840)进行电子通信或以其他方式耦合(例如,操作地、通信地、功能地、电子地、电气地)。
I/O控制器810可以管理设备805的输入信号845和输出信号850。I/O控制器810还可以管理未集成到设备805中的***设备。在一些情况下,I/O控制器810可以表示到外部***设备的物理连接或端口。在一些情况下,I/O控制器810可以利用诸如 或其他已知操作***之类的操作***。在其他情况下,I/O控制器810可以表示调制解调器、键盘、鼠标、触摸屏或类似设备,或与调制解调器、键盘、鼠标、触摸屏或类似设备交互。在一些情况下,I/O控制器810可以被实现为处理器830的一部分。在一些示例中,用户可以经由I/O控制器810或经由由I/O控制器810控制的硬件组件与设备805交互。
数据库控制器815可以管理数据库835中的数据存储和处理。在一些情况下,用户可以与数据库控制器815交互。在其他情况下,数据库控制器815可以在不进行用户交互的情况下自动操作。数据库835可以是单个数据库、分布式数据库、多个分布式数据库、数据存储库、数据湖或紧急备份数据库的示例。
存储器825可以包括随机存取存储器(RAM)和ROM。存储器825可以存储包括指令的计算机可读、计算机可执行软件,所述指令当被执行时使处理器830执行本文描述的各种功能。在一些情况下,存储器825可以包含BIOS等,BIOS可以控制基本硬件或软件操作,例如与***组件或设备的交互。
处理器830可以包括智能硬件设备(例如,通用处理器、DSP、CPU、微控制器、ASIC、FPGA、可编程逻辑器件、分立的门或晶体管逻辑组件、分立硬件组件、或其任何组合)。在一些情况下,处理器830可以被配置为使用存储器控制器来操作存储器阵列。在其他情况下,存储器控制器可被集成到处理器830中。处理器830可以被配置为执行存储在存储器825中的计算机可读指令以执行各种功能(例如,支持自动填写输入表单以生成列表的技术的功能或任务)。
表单填写组件820可以支持根据本文公开的示例生成项目的列表。例如,表单填写组件820可以被配置为或以其他方式支持用于经由与在线市场相关联的用户界面接收生成项目的列表的请求的部件,该请求包括作为列表的标题输入的自然语言文本。表单填写组件820可以被配置为或以其他方式支持用于基于将自然语言文本输入到基于转换器的机器学习模型来生成项目的项目描述属性的预测值的部件,其中项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征。表单填写组件820可以被配置为或以其他方式支持用于使得经由与在线市场相关联的用户界面呈现包括项目描述属性的预测值的列表的部件。
图9示出了说明根据本公开的方面的支持用于自动填写输入表单以生成列表的方法900的流程图。方法900的操作可以由如本文所述的列表生成组件或其组件来实现。例如,方法900的操作可以由如参考图1至图8所描述的列表生成组件来执行。在一些示例中,列表生成组件可以执行指令集以控制列表生成组件的功能单元执行所描述的功能。附加地或备选地,列表生成组件可以使用专用硬件来执行所描述的功能的方面。
在905处,该方法可以包括经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本。操作905可以根据如本文公开的示例来执行。在一些示例中,905的操作的方面可以由如参考图7所描述的请求组件725来执行。
在910处,该方法可以包括:基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值,其中所述项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征。操作905可以根据如本文公开的示例来执行。在一些示例中,操作910的方面可以由如参考图7所描述的值生成组件730来执行。
在915处,该方法可以包括使得经由与在线市场相关联的用户界面来呈现包括项目描述属性的预测值的列表。操作915可以根据如本文公开的示例来执行。在一些示例中,操作915的方面可以由如参考图7所描述的列表组件735来执行。
图10示出了说明根据本公开的方面的支持用于自动填写输入表单以生成列表的方法1000的流程图。方法1000的操作可以由如本文所述的列表生成组件或其组件来实现。例如,方法1000的操作可以由如参考图1至图8所描述的列表生成组件来执行。在一些示例中,列表生成组件可以执行指令集以控制列表生成组件的功能单元执行所描述的功能。附加地或备选地,列表生成组件可以使用专用硬件来执行所描述的功能的方面。
在1005处,该方法可以包括经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本。操作1005可以根据如本文公开的示例来执行。在一些示例中,操作1005的方面可以由如参考图7所描述的请求组件725来执行。
在1010处,该方法可以包括解析自然语言文本以生成标题标记。操作1010可以根据如本文公开的示例来执行。在一些示例中,操作1010的方面可以由如参考图7所描述的解析组件740来执行。
在1015处,该方法可以包括基于标题标记识别与自然语言文本中未指定属性值的项目相关联的基于转换器的机器学习模型的属性标记。操作1015可以根据如本文公开的示例来执行。在一些示例中,1015的操作的方面可以由如参考图7所描述的属性标记组件745来执行。
在1020处,该方法可以包括应用基于转换器的机器学习模型来基于标题标记和属性标记的集合生成项目描述属性的预测值。操作1020可以根据如本文公开的示例来执行。在一些示例中,操作1020的方面可以由如参考图7所描述的值生成组件730来执行。
在1025处,该方法可以包括:基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值,其中所述项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征。操作1025可以根据如本文公开的示例来执行。在一些示例中,操作1025的方面可以由如参考图7所描述的值生成组件730来执行。
在1030处,该方法可以包括使得经由与在线市场相关联的用户界面来呈现包括项目描述属性的预测值的列表。操作1030可以根据如本文公开的示例来执行。在一些示例中,操作1030的方面可以由如参考图7所描述的列表组件735来执行。
图11示出了说明根据本公开的方面的支持用于自动填写输入表单以生成列表的方法1100的流程图。方法1100的操作可以由如本文所述的列表生成组件或其组件来实现。例如,方法1100的操作可以由如参考图1至图8所描述的列表生成组件来执行。在一些示例中,列表生成组件可以执行指令集以控制列表生成组件的功能单元执行所描述的功能。附加地或备选地,列表生成组件可以使用专用硬件来执行所描述的功能的方面。
在1105处,该方法可以包括经由与在线市场相关联的用户界面接收生成项目的列表的请求,该请求包括作为列表的标题输入的自然语言文本。操作1105可以根据如本文公开的示例来执行。在一些示例中,操作1105的方面可以由如参考图7所描述的请求组件725来执行。
在1110处,该方法可以包括:基于将自然语言文本输入到基于转换器的机器学习模型,生成项目的项目描述属性的预测值,其中所述项目描述属性的值在自然语言文本中未指定,并且描述与所产生的项目相关联的特征。操作1110可以根据如本文公开的示例来执行。在一些示例中,操作1110的方面可以由如参考图7所描述的值生成组件730来执行。
在1115处,该方法可以包括:基于确定项目描述属性的预测值满足概率阈值而使得经由用户界面在列表创建表单中呈现项目描述属性的预测值。操作1115可以根据如本文公开的示例来执行。在一些示例中,操作1115的方面可以由如参考图7所描述的列表组件735来执行。
应该注意,本文描述的方法描述了可能的实现,并且操作和步骤可被重新布置或以其他方式修改,并且其他实现也是可能的。此外,可以组合来自两种或更多种方法的方面。
本文结合附图阐述的描述描绘了示例配置,但并不表示可以实现的或在权利要求的范围内的所有示例。本文使用的术语“示例性”是指“用作示例、实例或说明”,而不是“优选的”或“优于其他示例的”。出于提供对所描述技术的理解的目的,详细描述包括具体细节。然而,可以在没有这些具体细节的情况下实践这些技术。在一些实例中,公知的结构和设备以框图形式示出,以避免混淆所描述示例的构思。
在附图中,相似的组件或特征可以具有相同的附图标记。此外,相同类型的各种组件可以通过在附图标记后面加上破折号和区分相似组件的第二标记来区分。如果在说明书中仅使用第一附图标记,则该描述适用于具有相同第一附图标记的不管第二附图标记为何的任何一个类似组件。
本文描述的信息和信号可以使用各种不同的技术和技巧中的任何一种来表示。例如,贯穿上述描述可能引用的数据、指令、命令、信息、信号、比特、符号和芯片可以由电压、电流、电磁波、磁场或粒子、光场或粒子、或其任何组合来表示。
结合本文公开描述的各种说明性框和模块可以用旨在执行本文描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在备选方案中,处理器可以是常规处理器、控制器、微控制器或者状态机。处理器也可以被实现为计算设备的组合(例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核心、或任何其他这样的配置)。
本文描述的功能可以以硬件、由处理器执行的软件、固件或其任何组合来实现。如果以由处理器执行的软件实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输。其他示例和实现在本公开和所附权利要求的范围内。例如,由于软件的性质,本文描述的功能可以使用由处理器执行的软件、硬件、固件、硬连线或任何这些的组合来实现。实现功能的特征也可以在物理上位于不同的位置,包括被分布为使得部分功能在不同的物理位置处实现。此外,如本文所使用的,包括在权利要求中所使用的,如在项目列表(例如,以诸如“……中的至少一个”或“……中的一个或多个”的短语开头的项目列表)中使用的“或”表示包括性列表,例如,A、B或C中的至少一个的列表表示:A或B或C或AB或AC或BC或ABC(即A和B和C)。此外,如本文所使用的,短语“基于”不应被解释为对条件的闭集的引用。例如,描述为“基于条件A”的示例性步骤可以基于条件A和条件B而不脱离本公开的范围。换言之,如本文所使用的,短语“基于”应以与短语“至少部分地基于”相同的方式解释。
计算机可读介质包括非暂时性计算机存储介质和通信介质,包括有助于将计算机程序从一个地方传送到另一个地方的任何介质。非暂时性存储介质可以是通用计算机或专用计算机可以访问的任何可用介质。作为示例而非限制,非暂时性计算机可读介质可以包括RAM、ROM、电可擦除可编程ROM(EEPROM)、紧凑盘(CD)ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或可用于以指令或数据结构的形式携带或存储所需的程序代码装置且可由通用或专用计算机、或通用或专用处理器访问的任何其他非暂时性介质。此外,可以将任意连接适当地命名为计算机可读介质。例如,如果使用同轴电缆、光缆、双绞线、数字用户线(DSL)或无线技术(例如红外线、无线电和微波)从网站、服务器或其他远程源发送软件,则同轴电缆、光缆、双绞线、DSL或无线技术(例如红外线、无线电和微波)包括在介质的定义中。如本文中所使用的磁盘和光盘包括CD、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘,其中,磁盘通常以磁的方式再现数据,而光盘用激光以光的方式再现数据。以上项的组合也包括在计算机可读介质的范围内。
提供本文的描述以使本领域技术人员能够制造或使用本公开。对本公开的各种修改对于本领域技术人员是明显的,并且可将本文中定义的一般原理应用于其他变体,而不背离本公开的精神或范围。因此,本公开不限于本文描述的示例和设计,而是符合与本文公开的原理和新颖特征相一致的最宽泛范围。
Claims (20)
1.一种用于生成项目的列表的计算机实现的方法,包括:
经由与在线市场相关联的用户界面接收生成所述项目的列表的请求,所述请求包括作为所述列表的标题输入的自然语言文本;
至少部分地基于将所述自然语言文本输入到基于转换器的机器学习模型,生成所述项目的项目描述属性的预测值,其中,所述项目描述属性的值在所述自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及
使得经由与所述在线市场相关联的用户界面呈现包括所述项目描述属性的预测值的列表。
2.根据权利要求1所述的方法,其中,生成所述预测值还包括:
解析所述自然语言文本以生成标题标记;
至少部分地基于所述标题标记来识别与所述自然语言文本中未指定属性值的所述项目相关联的基于转换器的机器学习模型的属性标记;以及
应用所述基于转换器的机器学习模型以至少部分地基于所述标题标记和所述属性标记的集合生成所述项目描述属性的预测值。
3.根据权利要求1所述的方法,还包括:
至少部分地基于确定所述项目描述属性的预测值满足概率阈值,使得经由所述用户界面在列表创建表单中呈现所述项目描述属性的预测值。
4.根据权利要求3所述的方法,还包括:
经由所述用户界面接收确认或不同意所述项目描述属性的预测值的指示;以及
至少部分地基于所述指示来更新与所述项目描述属性相关联的概率值。
5.根据权利要求4所述的方法,还包括:
至少部分地基于所述指示,至少部分地基于所述基于转换器的机器学习模型来生成所述项目的第二属性的第二预测值。
6.根据权利要求1所述的方法,还包括:
向所述基于转换器的机器学习模型输入所述列表的属性字段标记的指示;
屏蔽与所述属性字段标记相对应的一个或多个属性字段值;以及
至少部分地基于所述属性字段标记和自然语言训练文本样本来训练所述基于转换器的机器学习模型以预测属性字段值。
7.根据权利要求1所述的方法,其中,所述生成项目的列表的请求是作为对显示在所述用户界面上的数字表单的输入而接收的。
8.一种用于生成项目的列表的装置,包括:
处理器;
存储器,与所述处理器耦合;以及
指令,存储在所述存储器中并能够由所述处理器执行以使所述装置:
经由与在线市场相关联的用户界面接收生成所述项目的列表的请求,所述请求包括作为所述列表的标题输入的自然语言文本;
至少部分地基于将所述自然语言文本输入到基于转换器的机器学习模型,生成所述项目的项目描述属性的预测值,其中,所述项目描述属性的值在所述自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及
使得经由与所述在线市场相关联的用户界面呈现包括所述项目描述属性的预测值的列表。
9.根据权利要求8所述的装置,其中,生成所述预测值的指令还能够由所述处理器执行以使所述装置:
解析所述自然语言文本以生成标题标记;
至少部分地基于所述标题标记来识别与所述自然语言文本中未指定属性值的所述项目相关联的基于转换器的机器学习模型的属性标记;以及
应用所述基于转换器的机器学习模型以至少部分地基于所述标题标记和所述属性标记的集合生成所述项目描述属性的预测值。
10.根据权利要求8所述的装置,其中,所述指令还能够由所述处理器执行以使所述装置:
至少部分地基于确定所述项目描述属性的预测值满足概率阈值,使得经由所述用户界面在列表创建表单中呈现所述项目描述属性的预测值。
11.根据权利要求10所述的装置,其中,所述指令还能够由所述处理器执行以使所述装置:
经由所述用户界面接收确认或不同意所述项目描述属性的预测值的指示;以及
至少部分地基于所述指示来更新与所述项目描述属性相关联的概率值。
12.根据权利要求11所述的装置,其中,所述指令还能够由所述处理器执行以使所述装置:
至少部分地基于所述指示,至少部分地基于所述基于转换器的机器学习模型来生成所述项目的第二属性的第二预测值。
13.根据权利要求8所述的装置,其中,所述指令还能够由所述处理器执行以使所述装置:
向所述基于转换器的机器学习模型输入所述列表的属性字段标记的指示;
屏蔽与所述属性字段标记相对应的一个或多个属性字段值;以及
至少部分地基于所述属性字段标记和自然语言训练文本样本来训练所述基于转换器的机器学习模型以预测属性字段值。
14.根据权利要求8所述的装置,其中,所述生成项目的列表的请求是作为对显示在所述用户界面上的数字表单的输入而接收的。
15.一种存储用于生成项目的列表的代码的非暂时性计算机可读介质,所述代码包括指令,所述指令能够由处理器执行以:
经由与在线市场相关联的用户界面接收生成所述项目的列表的请求,所述请求包括作为所述列表的标题输入的自然语言文本;
至少部分地基于将所述自然语言文本输入到基于转换器的机器学习模型,生成所述项目的项目描述属性的预测值,其中,所述项目描述属性的值在所述自然语言文本中未指定,并且描述与所产生的项目相关联的特征;以及
使得经由与所述在线市场相关联的用户界面呈现包括所述项目描述属性的预测值的列表。
16.根据权利要求15所述的非暂时性计算机可读介质,其中,生成所述预测值的指令还能够由所述处理器执行以:
解析所述自然语言文本以生成标题标记;
至少部分地基于所述标题标记来识别与所述自然语言文本中未指定属性值的所述项目相关联的基于转换器的机器学习模型的属性标记;以及
应用所述基于转换器的机器学习模型以至少部分地基于所述标题标记和所述属性标记的集合生成所述项目描述属性的预测值。
17.根据权利要求15所述的非暂时性计算机可读介质,其中,所述指令还能够由所述处理器执行以:
至少部分地基于确定所述项目描述属性的预测值满足概率阈值,使得经由所述用户界面在列表创建表单中呈现所述项目描述属性的预测值。
18.根据权利要求17所述的非暂时性计算机可读介质,其中,所述指令还能够由所述处理器执行以:
经由所述用户界面接收确认或不同意所述项目描述属性的预测值的指示;以及
至少部分地基于所述指示来更新与所述项目描述属性相关联的概率值。
19.根据权利要求18所述的非暂时性计算机可读介质,其中,所述指令还能够由所述处理器执行以:
至少部分地基于所述指示,至少部分地基于所述基于转换器的机器学习模型来生成所述项目的第二属性的第二预测值。
20.根据权利要求15所述的非暂时性计算机可读介质,其中,所述指令还能够由所述处理器执行以:
向所述基于转换器的机器学习模型输入所述列表的属性字段标记的指示;
屏蔽与所述属性字段标记相对应的一个或多个属性字段值;以及
至少部分地基于所述属性字段标记和自然语言训练文本样本来训练所述基于转换器的机器学习模型以预测属性字段值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/752,652 | 2022-05-24 | ||
US17/752,652 US20230385887A1 (en) | 2022-05-24 | 2022-05-24 | Techniques for automatic filling of an input form to generate a listing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117112775A true CN117112775A (zh) | 2023-11-24 |
Family
ID=86387399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310586683.2A Pending CN117112775A (zh) | 2022-05-24 | 2023-05-23 | 自动填写输入表单以生成列表的技术 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230385887A1 (zh) |
EP (1) | EP4283496A1 (zh) |
CN (1) | CN117112775A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220374805A1 (en) * | 2021-05-18 | 2022-11-24 | Ebay Inc. | Inventory Item Prediction and Listing Recommendation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11176589B2 (en) * | 2018-04-10 | 2021-11-16 | Ebay Inc. | Dynamically generated machine learning models and visualization thereof |
US20200034754A1 (en) * | 2018-07-30 | 2020-01-30 | Fernando Fortini | System and method for recommending and booking travel reservations |
US11676187B2 (en) * | 2019-05-30 | 2023-06-13 | Mercari, Inc. | Method, system, and device to intelligently create effective listings |
US20220067571A1 (en) * | 2020-08-31 | 2022-03-03 | Mercari, Inc. | Machine-learning prediction or suggestion based on object identification |
US20220374955A1 (en) * | 2021-05-21 | 2022-11-24 | Airbnb, Inc. | Auto-generation of online listing information |
US20230104662A1 (en) * | 2021-10-05 | 2023-04-06 | Salesforce.Com, Inc. | Systems and methods for refining pre-trained language models with improved gender fairness |
-
2022
- 2022-05-24 US US17/752,652 patent/US20230385887A1/en active Pending
-
2023
- 2023-05-17 EP EP23174054.9A patent/EP4283496A1/en not_active Withdrawn
- 2023-05-23 CN CN202310586683.2A patent/CN117112775A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4283496A1 (en) | 2023-11-29 |
US20230385887A1 (en) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia | Data mining and data warehousing: principles and practical techniques | |
AU2019261735B2 (en) | System and method for recommending automation solutions for technology infrastructure issues | |
US11204972B2 (en) | Comprehensive search engine scoring and modeling of user relevance | |
CN110866799B (zh) | 使用人工智能监视在线零售平台的***和方法 | |
CN107077486A (zh) | 情感评价***和方法 | |
US20200104897A1 (en) | Probabilistic Item Matching and Searching | |
JP2015511039A (ja) | 製品情報の公開 | |
CN109584006B (zh) | 一种基于深度匹配模型的跨平台商品匹配方法 | |
Yan et al. | Implementation of a product-recommender system in an IoT-based smart shopping using fuzzy logic and apriori algorithm | |
US11682060B2 (en) | Methods and apparatuses for providing search results using embedding-based retrieval | |
Artasanchez et al. | Artificial Intelligence with Python: Your complete guide to building intelligent apps using Python 3. x | |
US20220414741A1 (en) | Systems and methods for managing a personalized online experience | |
US11461824B2 (en) | Systems and methods of product recommendation and integrated language modelling | |
JP2024041849A (ja) | 確率的アイテムマッチングおよび検索 | |
KR102444498B1 (ko) | 이미지 기반 제품 매매 서비스 제공 시스템 및 방법 | |
CN117112775A (zh) | 自动填写输入表单以生成列表的技术 | |
US11789983B2 (en) | Enhanced data driven intelligent cloud advisor system | |
CN115511582A (zh) | 一种基于人工智能的商品推荐***及方法 | |
US20230040315A1 (en) | Techniques for automated review-based insights | |
CN117015789A (zh) | 基于sns文本的用户的装修风格分析模型提供装置及方法 | |
Trivedi | Machine learning fundamental concepts | |
US12008621B1 (en) | Search query processing system | |
US20230135327A1 (en) | Systems and methods for automated training data generation for item attributes | |
US20230128686A1 (en) | Automatic product description generation | |
US20230054187A1 (en) | Methods and apparatus for keyword search term recommendations for taxonomy enrichment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |