JP7164701B2 - セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 - Google Patents
セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP7164701B2 JP7164701B2 JP2021501074A JP2021501074A JP7164701B2 JP 7164701 B2 JP7164701 B2 JP 7164701B2 JP 2021501074 A JP2021501074 A JP 2021501074A JP 2021501074 A JP2021501074 A JP 2021501074A JP 7164701 B2 JP7164701 B2 JP 7164701B2
- Authority
- JP
- Japan
- Prior art keywords
- theme
- semantic
- text data
- tag
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000013507 mapping Methods 0.000 claims description 52
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 13
- 238000013145 classification model Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
を含む前記複数のセマンティックテキストデータのみを抽出することを含む。
セマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする。
を含む前記複数のセマンティックテキストデータのみを抽出することを含む。
図1を参照すると、本発明の一実施例に係るセマンティックテキストデータをタグとマッチングさせる方法のフローチャートが示されている。ステップ102では、ユーザのコメントデータを前処理する。前処理の目的は、ユーザのコメントなどのセマンティックテキストデータを処理して、セマンティックが独立したメンバー(英単語、中国語語彙などの形態素)、及びオリジナルコーパスデータを得ることである。各セマンティックが独立したメンバーは、セマンティック解析のための独立ユニットであり、特に、セマンティックが独立したメンバーは、セマンティック解析のための最小のユニットであってもよい。
テーマの確率分布マトリックスを生成することができる。そして、単語対集合に基づいて各文書に現れる単語対の数を統計し、全ての単語対が文書で現れる数を1×N次元のマトリックスで記憶する。単語対は、基本形態素である任意の二つの語彙のペアである。最後に、単語対類似性マトリックスSimが作成され、以降の処理に使用される。
反復回数が最大反復回数(100回)に達したか否かを判断し、達していなければ、コーパスの単語対集合をトラバースし、最終的に生成されたコーパス‐テーママトリックス、及びテーマ-単語対マトリックスを保存する。
トのテーママトリックスを用いてショートテキストを表す。すなわち、テーマの確率分布を用いてショートテキストの特徴を表す。
本実施例は、主に、データプラットフォームにおけるユーザのフィードバックメッセージを分析する。まず、本発明が提案したショートテキスト特徴抽出方法に基づいてデータプラットフォームにおけるユーザのフィードバックメッセージのセマンティック特徴情報を抽出し、次に、分類モデルを構築し、ユーザのフィードバックメッセージの自動分類を実現する。データ源は、特定の月のデータプラットフォームAPPにおけるユーザのフィードバックメッセージデータである。オリジナルデータは、主にテキストの形で保存されており、具体例は表1を参照することができる。
大量のデータの分析をによると、ほとんどの場合、ユーザは否定語あるいは疑問詞を使用して質問するので、キー情報をさらに絞り込むためには、次のような方法を採用してユーザフィードバックメッセージの否定ウィンドウを抽出する。
1.1一般的な中英記号(例えば、全角、半角のコンマ、句点等)を利用して文章をい
くつかの短句に分ける。
1.2最初の否定語あるいは疑問詞がある短句を見つけてウィンドウとする。
1.3指定されたウィンドウサイズ(本明細書で設定した前後のステップサイズはいず
れも1である)を設定し、否定ウィンドウを抽出する。
2.1ステップ1で前処理したコーパスに対して、Googleで提案されたWord
2Vec方法におけるSkip‐gramモデルを使用して、gensimライブラリにおけるword2vec関数を用いて訓練を行う。ここで設定される単語ベクトル次元を200に設定し、Skip‐gramモデルのウィンドウサイズを5とする。表2は、例示的な結果を示す。
ギブスサンプリングを採用して、全体のユーザコメントコーパス‐テーママトリックス、及びテーマ-単語対マトリックスを取得する。そのうち、ディクレ分布のアプリオリパラメータα=0.5、β=0.1、反復最大回数が500であり、中間結果を保存するためのステップサイズは10である。
3.1、上記で得られた特徴マトリックスを入力として、scikit-learn機
械学習ツールキットを用いてK-meansクラスタリングを行う(図6)。なお、次のクラスタリングマージ方法と合わせて使用するために、このシーンでは、初期クラスタリングの数を60とし、最終的なクラスタリングの数は、輪郭係数とS_Dbwとで共通に決定する。
3.2クラスタリングにおけるテキストをトラバースし、テキスト‐テーマ確率分布マ
トリックスに基づいて該テキストにおける最大テーマ確率値のテーマを見つける。該クラスタリングにおける各テーマの占める割合を統計し、出現回数が最も多いテーマを見つける。テーマ‐単語マトリックスにおいて、前のステップで統計した出現回数が最も多いテーマを見つけ、該テーマにおける確率値の大きさが上位10位の語彙またはフレーズをクラスタリングとして見つけて記述する(表4、表5に示すように)。
4.1sklearnを用いて機械学習アルゴリズム(主にSVMアルゴリズムを用い
る)の分類実験を行い、指標の正確性を分類し、5分割交差検証を採用して結果の安定性を保証する。
分類モデルの構築過程で、グリッドサーチ(GridSearch)を用いて、パラメータがC=3.276、kernel='rbf'、gamma=0.01に設定された最適なSVMパラメータを得た。図7は、この構成によるタグ予測結果の一例を示す図である。
4.2実際の応用シーン、例えばデータプラットホームシーンでは、モデルの利用可能
性を向上させるために、分類予測の確率閾値を設け、予測確率種別が高くないデータに対しては人工的に処理する。モデルの適合率とリリコール率を総合的に考慮して、閾値は0.6とすることができる。
Claims (19)
- コンピュータによってセマンティックテキストデータをタグとマッチングさせる方法であって、
複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得することと、
複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定し、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定することと、
当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングすることと、
決定された前記複数のセマンティックテキストデータと前記タグとのマッピング関係を訓練データとし、機械学習によってマッピングされていないセマンティックテキストデータを前記訓練データに基づいて前記タグにマッチングさせることと、
を含み、
前記再現関係は、形態素間のセマンティックの関連程度を反映していることを特徴とする方法。 - 前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む、
ことを特徴とする請求項1に記載の方法。 - 前記前処理は、否定セマンティック及び/又は疑問セマンティックを含む前記複数のセマンティックテキストデータのみを抽出することを含む、
ことを特徴とする請求項1に記載の方法。 - 前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈のセマンティックとの関連程度を示す、
ことを特徴とする請求項1に記載の方法。 - 前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、
類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマとセマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、
含むことを特徴とする請求項1に記載の方法。 - 当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、
前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、
前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、
を含むことを特徴とする請求項5に記載の方法。 - 前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、
前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、
各クラスタリングにおける前記最大確率テーマの数を決定することと、
クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、
を含むことを特徴とする請求項6に記載の方法。 - 前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする、
ことを特徴とする請求項7に記載の方法。 - 異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを、前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、
確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる、
ことを特徴とする請求項8に記載の方法。 - セマンティックテキストデータをタグとマッチングさせる装置であって、
複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得する前処理ユニットと、
複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定し、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定するテーマモデルユニットと、
当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングするタグ決定ユニットと、
決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、機械学習によってマッピングされていないセマンティックテキストデータを前記訓練データに基づいてタグにマッチングさせるタグマッチングユニットと、
を含み、
前記再現関係は、形態素間のセマンティックの関連程度を反映していることを特徴とする装置。 - 前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む、
ことを特徴とする請求項10に記載の装置。 - 前記前処理は、否定セマンティック及び/又は疑問セマンティックを含む前記複数のセマンティックテキストデータのみを抽出することを含む、
ことを特徴とする請求項10に記載の装置。 - 前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈のセマンティックとの関連程度を示す、
ことを特徴とする請求項10に記載の装置。 - 前記テーマモデルユニットが、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、
類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマとセマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、
含むことを特徴とする請求項10に記載の装置。 - 前記タグ決定ユニットが、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、
前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、
前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、
を含むことを特徴とする請求項14に記載の装置。 - 前記タグ決定ユニットが、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、
前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、
各クラスタリングにおける前記最大確率テーマの数を決定することと、
クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、
を含むことを特徴とする請求項15に記載の装置。 - 前記タグ決定ユニットは、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする、
ことを特徴とする請求項16に記載の装置。 - 前記タグ決定ユニットは、
異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを、前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、
確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる、
ことを特徴とする請求項17に記載の装置。 - 命令を格納するコンピュータ読み取り可能な記憶媒体であって、
前記命令がプロセッサによって実行される場合、前記プロセッサは、請求項1~9のいずれかに記載の方法を実行するように構成されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811610544.4A CN110032639B (zh) | 2018-12-27 | 2018-12-27 | 将语义文本数据与标签匹配的方法、装置及存储介质 |
CN201811610544.4 | 2018-12-27 | ||
PCT/CN2019/094646 WO2020134008A1 (zh) | 2018-12-27 | 2019-07-04 | 一种将语义文本数据与标签匹配的方法、装置以及一种储存指令的计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021518027A JP2021518027A (ja) | 2021-07-29 |
JP7164701B2 true JP7164701B2 (ja) | 2022-11-01 |
Family
ID=67235412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021501074A Active JP7164701B2 (ja) | 2018-12-27 | 2019-07-04 | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11586658B2 (ja) |
JP (1) | JP7164701B2 (ja) |
KR (1) | KR20200127020A (ja) |
CN (1) | CN110032639B (ja) |
WO (1) | WO2020134008A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515895B (zh) * | 2019-08-30 | 2023-06-23 | 北京燕山电子设备厂 | 大数据存储***中对数据文件进行关联存储的方法及*** |
CN111274798B (zh) * | 2020-01-06 | 2023-08-18 | 北京大米科技有限公司 | 一种文本主题词确定方法、装置、存储介质及终端 |
CN111310438B (zh) * | 2020-02-20 | 2021-06-08 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN111311450B (zh) * | 2020-02-28 | 2024-03-29 | 重庆百事得大牛机器人有限公司 | 用于法律咨询服务的大数据管理平台及方法 |
CN111695358B (zh) * | 2020-06-12 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 生成词向量的方法、装置、计算机存储介质和电子设备 |
CN114281928A (zh) * | 2020-09-28 | 2022-04-05 | ***通信集团广西有限公司 | 基于文本数据的模型生成方法、装置及设备 |
CN112989971B (zh) * | 2021-03-01 | 2024-03-22 | 武汉中旗生物医疗电子有限公司 | 一种不同数据源的心电数据融合方法及装置 |
CN112926339B (zh) * | 2021-03-09 | 2024-02-09 | 北京小米移动软件有限公司 | 文本相似度确定方法、***、存储介质以及电子设备 |
CN113934819B (zh) * | 2021-10-14 | 2024-07-26 | 陈鹏 | 基于context的标签管理方法、装置、服务器及存储介质 |
CN114398968B (zh) * | 2022-01-06 | 2022-09-20 | 北京博瑞彤芸科技股份有限公司 | 基于文件相似度对同类获客文件进行标注的方法和装置 |
CN114896398A (zh) * | 2022-05-05 | 2022-08-12 | 南京邮电大学 | 一种基于特征选择的文本分类***及方法 |
CN116151542A (zh) * | 2022-11-30 | 2023-05-23 | 上海韵达高新技术有限公司 | 物流订单实时监控方法、装置、设备及存储介质 |
CN118132818A (zh) * | 2024-03-27 | 2024-06-04 | 中国科学院地理科学与资源研究所 | 基于意象差异的旅游区域资源评估方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094855A (ja) | 2005-09-29 | 2007-04-12 | Toshiba Corp | 文書処理装置及び文書処理方法 |
JP2012042998A (ja) | 2010-08-12 | 2012-03-01 | Nec Biglobe Ltd | 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム |
JP2014153977A (ja) | 2013-02-12 | 2014-08-25 | Mitsubishi Electric Corp | コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム |
JP2017068848A (ja) | 2015-09-30 | 2017-04-06 | 株式会社日立製作所 | 自動分析方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2391967A (en) * | 2002-08-16 | 2004-02-18 | Canon Kk | Information analysing apparatus |
US8972410B2 (en) * | 2008-07-30 | 2015-03-03 | Hewlett-Packard Development Company, L.P. | Identifying related objects in a computer database |
US10536728B2 (en) * | 2009-08-18 | 2020-01-14 | Jinni | Content classification system |
GB2488925A (en) | 2009-12-09 | 2012-09-12 | Ibm | Method of searching for document data files based on keywords,and computer system and computer program thereof |
US9311386B1 (en) * | 2013-04-03 | 2016-04-12 | Narus, Inc. | Categorizing network resources and extracting user interests from network activity |
KR101478016B1 (ko) | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
US10510018B2 (en) * | 2013-09-30 | 2019-12-17 | Manyworlds, Inc. | Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty |
US10509814B2 (en) * | 2014-12-19 | 2019-12-17 | Universidad Nacional De Educacion A Distancia (Uned) | System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model |
CN106033445B (zh) | 2015-03-16 | 2019-10-25 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106156204B (zh) * | 2015-04-23 | 2020-05-29 | 深圳市腾讯计算机***有限公司 | 文本标签的提取方法和装置 |
CN104850650B (zh) * | 2015-05-29 | 2018-04-10 | 清华大学 | 基于类标关系的短文本扩充方法 |
CN105975475A (zh) | 2016-03-31 | 2016-09-28 | 华南理工大学 | 基于中文短语串的细粒度主题信息抽取方法 |
CN106055538B (zh) * | 2016-05-26 | 2019-03-08 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
KR101847847B1 (ko) | 2016-11-15 | 2018-04-12 | 주식회사 와이즈넛 | 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법 |
CN107301199B (zh) * | 2017-05-17 | 2021-02-12 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
US10311454B2 (en) * | 2017-06-22 | 2019-06-04 | NewVoiceMedia Ltd. | Customer interaction and experience system using emotional-semantic computing |
CN107798043B (zh) * | 2017-06-28 | 2022-05-03 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
US10678816B2 (en) * | 2017-08-23 | 2020-06-09 | Rsvp Technologies Inc. | Single-entity-single-relation question answering systems, and methods |
CN107818153B (zh) * | 2017-10-27 | 2020-08-21 | 中航信移动科技有限公司 | 数据分类方法和装置 |
CN108399228B (zh) * | 2018-02-12 | 2020-11-13 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN108763539B (zh) * | 2018-05-31 | 2020-11-10 | 华中科技大学 | 一种基于词性分类的文本分类方法和*** |
CN108959431B (zh) * | 2018-06-11 | 2022-07-05 | 中国科学院上海高等研究院 | 标签自动生成方法、***、计算机可读存储介质及设备 |
US11397859B2 (en) * | 2019-09-11 | 2022-07-26 | International Business Machines Corporation | Progressive collocation for real-time discourse |
-
2018
- 2018-12-27 CN CN201811610544.4A patent/CN110032639B/zh active Active
-
2019
- 2019-07-04 WO PCT/CN2019/094646 patent/WO2020134008A1/zh active Application Filing
- 2019-07-04 KR KR1020207028156A patent/KR20200127020A/ko not_active IP Right Cessation
- 2019-07-04 US US17/260,177 patent/US11586658B2/en active Active
- 2019-07-04 JP JP2021501074A patent/JP7164701B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094855A (ja) | 2005-09-29 | 2007-04-12 | Toshiba Corp | 文書処理装置及び文書処理方法 |
JP2012042998A (ja) | 2010-08-12 | 2012-03-01 | Nec Biglobe Ltd | 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム |
JP2014153977A (ja) | 2013-02-12 | 2014-08-25 | Mitsubishi Electric Corp | コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム |
JP2017068848A (ja) | 2015-09-30 | 2017-04-06 | 株式会社日立製作所 | 自動分析方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020134008A1 (zh) | 2020-07-02 |
US20210286835A1 (en) | 2021-09-16 |
CN110032639A (zh) | 2019-07-19 |
JP2021518027A (ja) | 2021-07-29 |
CN110032639B (zh) | 2023-10-31 |
KR20200127020A (ko) | 2020-11-09 |
US11586658B2 (en) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7164701B2 (ja) | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US11030401B2 (en) | Unsupervised topic modeling for short texts | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
US20170300565A1 (en) | System and method for entity extraction from semi-structured text documents | |
WO2022222300A1 (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
Diamantini et al. | A negation handling technique for sentiment analysis | |
CN113961685A (zh) | 信息抽取方法及装置 | |
US20180081861A1 (en) | Smart document building using natural language processing | |
WO2023159758A1 (zh) | 数据增强方法和装置、电子设备、存储介质 | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
WO2023065642A1 (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和*** | |
JP5426292B2 (ja) | 意見分類装置およびプログラム | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及***的训练、识别方法 | |
KR102007437B1 (ko) | 콘텐츠 분류 장치 및 방법 | |
Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
US20230118640A1 (en) | Methods and systems for extracting self-created terms in professional area | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7164701 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |