JP2021077256A - 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム - Google Patents
文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム Download PDFInfo
- Publication number
- JP2021077256A JP2021077256A JP2019205267A JP2019205267A JP2021077256A JP 2021077256 A JP2021077256 A JP 2021077256A JP 2019205267 A JP2019205267 A JP 2019205267A JP 2019205267 A JP2019205267 A JP 2019205267A JP 2021077256 A JP2021077256 A JP 2021077256A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- classification
- group
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000012545 processing Methods 0.000 title claims abstract description 117
- 238000012553 document review Methods 0.000 title claims description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 21
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 46
- 238000012552 review Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
図1は、文書レビューシステム100の構成例を示す模式図である。文書レビューシステム100は、文書をレビュアに効率よくレビューさせる(文書の内容を検討させる)システムである。図1に例示されるように、文書レビューシステム100は、文書処理装置110とユーザ端末120〜122とを含む。
図2は、文書処理装置110のハードウェア構成の一例を示す図である。図2に例示されるように、文書処理装置110は、制御部200、記憶部210、通信部220、インターフェース部230などを備えている。
図3は、文書処理装置110が備えた制御部200の機能的構成の一例を示す機能ブロック図である。図3に例示されるように、制御部200は、文書分類部301、分類判定部302、特徴抽出部303、検出部304、通信制御部305、スコア付与部306などを含む。
図4Aおよび図4Bは、文書処理装置110が準重複する文書群を検出する処理の概略の一例を示す概略図である。準重複(Near Duplication)は、例えば、2つの文書に含まれる文字または内容の少なくとも一部が互いに重複または類似することを意味する。
図6は、文書処理装置110が実行するフィルタ1の処理の一例を示すフローチャートである。なお、図6に含まれるS601〜S603の各処理が、図5に例示されるS501に含まれる。
図7は、文書処理装置110が実行するフィルタ2の処理の一例を示すフローチャートである。なお、図7に含まれるS701〜S707の各処理が、図5に例示されるS502に含まれる。
図8は、文書処理装置110が実行するフィルタ3の処理の一例を示すフローチャートである。なお、図8に含まれるS801〜S807の各処理が、図5に例示されるS503に含まれる。
図9は、文書処理装置110が実行するフィルタ4の処理の一例を示すフローチャートである。なお、図9に含まれるS901〜S908の各処理が、図5に例示されるS504に含まれ、S909の処理がS505の処理に対応する。
文書処理装置110が、文書にフィルタ1〜4(複数の分類方法)をそれぞれ適用するために必要となる計算量について説明する。
(1)文書の文字数を所定の文字数で割った商の小数点以下を切り捨てた値
(2)文書に現れる文字の種類ごとの文字数を各次元に格納した頻度ベクトル
(3)改行で区切られた1行を各次元に格納した行頻度ベクトル
(4)文書ごとのハッシュ値の頻度を各次元に格納したハッシュ頻度ベクトル
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
文書処理装置110が備えた制御ブロック(特に、制御部200に含まれる各部)は、CPU(Central Processing Unit)などのコントローラ(プロセッサ)を用いてソフトウェアによって実現してもよい。すなわち、文書処理装置110は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、当該制御プログラム、および各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
Claims (12)
- 複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、
前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、
前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、
前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である文書処理装置。 - 前記2以上の文書に対して最後の分類方法を適用した後、同じグループに属する複数の文書を、互いに類似する文書群として検出する検出部をさらに備えた請求項1に記載の文書処理装置。
- 前記複数の分類方法がそれぞれ適用される過程において、前記複数の分類方法に応じた共通の特徴を、前記分類の対象となる文書から抽出する特徴抽出部をさらに備えた請求項1または2に記載の文書処理装置。
- 前記文書分類部は、前記2以上の文書が含まれると判定されたグループを細分類する方法を、前記複数の分類方法の1つとして前記複数の文書を分類する請求項1から3のいずれか一項に記載の文書処理装置。
- 前記文書分類部は、前記複数の文書の文字数をそれぞれカウントし、前記文字数の分布に基づいて前記複数の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から4のいずれか一項に記載の文書処理装置。
- 前記文書分類部は、前記2以上の文書にそれぞれ含まれる文字の種類の出現数を前記種類ごとに求め、前記出現数の分布に基づいて前記2以上の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から5のいずれか一項に記載の文書処理装置。
- 前記文書分類部は、前記2以上の文書の各行にそれぞれ含まれる文字列を、前記2以上の文書に含まれる2つの文書間で比較した結果に基づいて、前記2以上の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から6のいずれか一項に記載の文書処理装置。
- 前記文書分類部は、前記2以上の文書にそれぞれ含まれる文字を所定の関数を用いて数値に変換し、前記数値の出現数を前記数値ごとに求め、前記出現数の分布に基づいて前記2以上の文書を分類する方法を、前記複数の分類方法の1つとして用いる請求項1から7のいずれか一項に記載の文書処理装置。
- 文書処理装置と、
レビュアが用いるユーザ端末とを含み、
前記文書処理装置は、
複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類部と、
前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定部とを備え、
前記文書分類部は、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、
前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である
文書レビューシステム。 - 複数の文書に対して、複数の分類方法を所定の順序で順次適用し、前記複数の文書を複数のグループに分類する文書分類ステップと、
前記複数の分類方法に含まれる1つの分類方法が適用されるたびに、各グループに2以上の文書が含まれているか否かを判定する分類判定ステップとを含み、
前記文書分類ステップにおいて、先行の分類方法を適用した後、前記2以上の文書が含まれると判定されたグループごとに、前記2以上の文書に対して後続の分類方法をさらに適用し、
前記所定の順序は、前記複数の分類方法の各計算量が小さい順序である文書処理装置の制御方法。 - 請求項1から8のいずれか一項に記載の文書処理装置を用いて、文書レビューサービスを提供する方法。
- 請求項1から8のいずれか一項に記載の文書処理装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを前記各部として機能させるための制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019205267A JP2021077256A (ja) | 2019-11-13 | 2019-11-13 | 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム |
US17/094,907 US11609957B2 (en) | 2019-11-13 | 2020-11-11 | Document processing device, method of controlling document processing device, and non-transitory computer-readable recording medium containing control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019205267A JP2021077256A (ja) | 2019-11-13 | 2019-11-13 | 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021077256A true JP2021077256A (ja) | 2021-05-20 |
Family
ID=75847779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019205267A Pending JP2021077256A (ja) | 2019-11-13 | 2019-11-13 | 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11609957B2 (ja) |
JP (1) | JP2021077256A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198683A (ja) * | 1997-01-07 | 1998-07-31 | Ricoh Co Ltd | 文書画像分類方法 |
JP2009083265A (ja) * | 2007-09-28 | 2009-04-23 | Konica Minolta Business Technologies Inc | 画像形成方法及び画像形成装置 |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
US20150206007A1 (en) * | 2014-01-20 | 2015-07-23 | Array Technology, LLC | System and method for document grouping and user interface |
JP2016004560A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社日立システムズ | メール修正支援システム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US8180773B2 (en) * | 2009-05-27 | 2012-05-15 | International Business Machines Corporation | Detecting duplicate documents using classification |
EP2471009A1 (en) * | 2009-08-24 | 2012-07-04 | FTI Technology LLC | Generating a reference set for use during document review |
US9183173B2 (en) * | 2010-03-02 | 2015-11-10 | Microsoft Technology Licensing, Llc | Learning element weighting for similarity measures |
US9760548B2 (en) * | 2011-11-30 | 2017-09-12 | The University Of Surrey | System, process and method for the detection of common content in multiple documents in an electronic system |
US10467252B1 (en) * | 2012-01-30 | 2019-11-05 | DiscoverReady LLC | Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis |
JP5567049B2 (ja) * | 2012-02-29 | 2014-08-06 | 株式会社Ubic | 文書分別システム及び文書分別方法並びに文書分別プログラム |
US11663254B2 (en) * | 2016-01-29 | 2023-05-30 | Thomson Reuters Enterprise Centre Gmbh | System and engine for seeded clustering of news events |
-
2019
- 2019-11-13 JP JP2019205267A patent/JP2021077256A/ja active Pending
-
2020
- 2020-11-11 US US17/094,907 patent/US11609957B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198683A (ja) * | 1997-01-07 | 1998-07-31 | Ricoh Co Ltd | 文書画像分類方法 |
JP2009083265A (ja) * | 2007-09-28 | 2009-04-23 | Konica Minolta Business Technologies Inc | 画像形成方法及び画像形成装置 |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
US20150206007A1 (en) * | 2014-01-20 | 2015-07-23 | Array Technology, LLC | System and method for document grouping and user interface |
JP2016004560A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社日立システムズ | メール修正支援システム |
Also Published As
Publication number | Publication date |
---|---|
US20210141841A1 (en) | 2021-05-13 |
US11609957B2 (en) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dani et al. | Sentiment informed cyberbullying detection in social media | |
Yadav et al. | Twitter sentiment analysis using supervised machine learning | |
JP2017224184A (ja) | 機械学習装置 | |
US20220230089A1 (en) | Classifier assistance using domain-trained embedding | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
US10796095B2 (en) | Prediction of tone of interpersonal text communications | |
US11354345B2 (en) | Clustering topics for data visualization | |
US11481734B2 (en) | Machine learning model for predicting litigation risk on construction and engineering projects | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN112052451A (zh) | 一种webshell检测方法和装置 | |
CN112949476A (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
Rajput et al. | Sentiment analysis using latent dirichlet allocation for aspect term extraction | |
US10614100B2 (en) | Semantic merge of arguments | |
US10296527B2 (en) | Determining an object referenced within informal online communications | |
CN110544166A (zh) | 样本生成方法、装置及存储介质 | |
JP2021077256A (ja) | 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム | |
US11593569B2 (en) | Enhanced input for text analytics | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN113190679A (zh) | 关系确定方法、装置、电子设备和存储介质 | |
CN115017906A (zh) | 一种针对文本中实体的识别方法、装置及存储介质 | |
CN113656393B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
US11386310B2 (en) | Systems for font replacement in print workflows | |
Wong et al. | Language independent models for COVID-19 fake news detection: Black box versus white box models | |
US12001486B2 (en) | Identifying reference data in a source data set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220803 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240611 |