JP2008537811A - リスティングを管理するためのシステム及び方法 - Google Patents
リスティングを管理するためのシステム及び方法 Download PDFInfo
- Publication number
- JP2008537811A JP2008537811A JP2008501026A JP2008501026A JP2008537811A JP 2008537811 A JP2008537811 A JP 2008537811A JP 2008501026 A JP2008501026 A JP 2008501026A JP 2008501026 A JP2008501026 A JP 2008501026A JP 2008537811 A JP2008537811 A JP 2008537811A
- Authority
- JP
- Japan
- Prior art keywords
- job
- data set
- database
- scraped
- categorization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【選択図】図1A
Description
シードURL(1つ又は複数)
スロットル速度
頻度
スクレープの好ましい日時
表示/非表示スケジュール
「ホスト」の所与のリスト内に留まるためのエージェントインストラクション
ブラックリストサイト(スクレープされるべきでないもの)
所与のSLD、例えば、<anything>.ibm.com内に留まる
1ホスト離れるまでクロールする(例えば、www.ibm.comは、www.ibm.peopleclick.comへのリンクを有し、従って、peopleclick.comから全リストを得る)
1.そのコンフィギュレーションファイルを読み取る。これは、実行すべきエージェント1502のリストを含む。各ランナーは、コンフィギュレーションの一部分として通されるidを有する。
2.スニファー220のためのコンフィギュレーションファイルを、それ自身のコンフィギュレーションに基づいて発生する。
3.実行されるべきエージェント1502に属する“job_current”テーブル626から全てのレコードを削除する(好ましくは、“job_current”テーブル626は毎日裁断されるので、これは、ほとんどの場合、不必要である)。
4.エージェント1502を実行するスニファーサーチエンジン220を起動する。
5.ジョブ説明をhtmlタグから剥離するようにジョブタグ内の各レコードを処理するのが好ましい。各ランナーは、それ「自身」のジョブテーブル1506を有し、ランナーid(例えば、“job 1”)を使用してその名前が生成される。
6.ジョブテーブル1506から“job_current”テーブル626へ全てのレコードをダンプする。ジョブレコードは、ランナーのidを含み、これは、下流のコンポーネントが、特定のランナー1504から到来するレコードを容易に識別する上で助けとなる。
7.実行エージェントの概要をそのログファイルに書き込む。この情報は、ジョブテーブル1506、“job_current”テーブル626及びレポートテーブル1508への問合せを経て検索される。
8.最終的に、sshを経てクオリティマネージャーマネージメントモジュール124を呼び出し、個別のマシンにおいて実行することができる。ランナー1504のidは、データクレンザータスク138、データデ・デューピングタスク139、クオリティマネージャータスク142、カテゴリー分けタスク140の各々に通され、従って、各タスクは、マスタータスクスケジューラー131により実行すべくコールされたときに“job_current”テーブル626からどのレコードを処理すべきかを知る。
1.共通のHTMLキャラクタ−エンティティリファレンスが、それに対応するASCIIキャラクタに置き換えられる。
2.次いで、非アルファニューメリックキャラクタをデリミッタとして処理することによりテキストフィールドがストリングに分割される(単一の引用符がアルファニューメリックキャラクタとして処理される)。
3.ジョブ肩書きテストが全てのストリングに適用される。ジョブの肩書きは、regex [0-9]*[A-Z]+[A-Z0-9]*を満足するストリングとして定義される。全てのストリングは、小文字に変換される。
4.全てのストリングは、Porterステマーを使用してステムされる。(M. F. Porter. “An algorithm for suffix stripping”; Program, 14(3): 130-137, 1980. Reprinted in Sparck Jones, Karen, and Peter Willet, 1997, Readings in Information Retrieval, San Francisco: Morgan Kaufmann, ISBN 1-55860-454-4、ここでは、“Porter”と称される)
5.ストップワードの予め定義されたリストを使用して、非常に共通した特徴をテキストフィールドからフィルタリングする。純粋なデジットより成るストリングも取り除かれる。
job description be able right candidate qualified applicants
job id your resume qualified candidate interested candidate
job title seeking equal opportunity interested candidates
job summary be considered eoe interested applicants
such as can enjoy qualified candidates duties
currently seeking ideal candidate contact information focused on
are seeking ideal candidates remain emphasis on
click here successful candidate find out depending on
selected candidate further information come join are met
highly desired should forward please note follow through
strongly desired without regard please sent work closely
strongly preferred subject line please indicate board range
strong online below please submit wide range
preferred listed below please visit wide variety
are encouraged when applying primary responsibility conjunction with
button below when submitting word attachment
make sure be contacted
contact us
幾つかのバイグラム(bigrams)(2ワードフレーズ)は、単一トークンとして検出される。上位のnグラムも、カテゴリー分けに使用してもよい。
human resources at least self starter tuition reimbursement
equal opportunity power point accounts payable customer service
pay rate click here seque appli positively impacting
problem solving ajilonfinance com funct subfu human resource
d v boehringer ingelheim registered trademark san francisco
more than immediate los angeles award winning
united states consideration full time decision making
cover letter new york spirited metropolitan area
ideal candidate track record entrepreneurial credit union
long term stock purchase bames noble benefits package
job description loss prevention ad hoc wide range
job title ag 2002 wild kingdom multi task
job summary ajilon finance voice messaging sarbanes oxley
duties fortune 500 affirmative action p sou
air force fastest growing iras cancer valid driver
kaiser permanente general ledger tuition assistance
deutsche telekom real estate
test plans
journal entries
general ledger 2 per week 3 technical sales 3 development
inpatient 2 nurse 3 planning analyst 2 lifecycles 2
outpatient 2 registered nurse 3 budget planning 3 operating systems 2
claims adjusting 3 human resource 3 financial planning 3 programming
estimate damage 3 college degree 3 financial statements 3 languages 3
ASIC design 3 hs degree 3 financial reports 3 business skills 2
logic design 3 systems administrator corporate tax 3 communication
residential purchase 3 worker compensation disorders 2
3 accounts receivable 3 3 speech language 2
refinance products 3 accounts payable 3 business speech therapy 2
mortgage products 3 fixed assets 3 development 3 speech pathology 2
mortgage loan 4 medical terminology 3 market development speech therapist 2
mortgage brokers 3 legal terminology 3 3 speech pathologist 2
mortgage lender 3 public relations 3 trade shows 4 switchboard 2
call center 3 product marketing 3 forklift operator 2 telephone skills 2
customer service 3 clinical research 3 forklift certified 2 blood drives 2
answers telephone 3 clinical trials 3 food service 3 blood centers 2
inventory control 3 clinical data 3 real estate 3 plasmapheresis
quality assurance 3 direct sales 3 social services 4 process 2
object oriented 4 internet publishing 2 phlebotomist 2
マシン学習及びパターン分類においては、カテゴリー分け(又は「分類」)されるべきオブジェクトは、ドキュメントが属する見込みが最も高いカテゴリーを決定するのに使用される情報を含む「特徴ベクトル」xと称されるものにより表わされる。ドキュメントに対するいわゆる「ナイーブ・ベイズ(Naive Bayes)」クラシファイアは、「バッグ・オブ・ワード(bag-of-words)」モデルと称されるものを仮定する(Lewisを参照)。これは、ワードの特定シーケンスが無視され、それらのカウントしか使用されないことを意味する。この制限は、フレーズがトークンとして検出されそして個々の用語であったかのように処理されるときには、若干回避される。(ナイーブ・ベイズ)のケースでは、特徴ベクトルは、次の式となる。
x=(k1、k2、・・・km)
但し、kiは、i番目の用語の発生回数(カテゴリー分けされるべきドキュメントにおける)であり、そしてmは、辞書における全用語数であり、このケースでは、ストップワードの除去、等の後にカテゴリー分けを行なうのに使用される用語のセットを指す。
c’=arg maxc p(c|x)
p(c|x)=(p(x|c)p(c))/p(x)
c’=arg maxc [p(x|c)p(c)] (5)
p(x、c)=p(x|c)p(c)
但し、ni,cは、カテゴリーcのトレーニングドキュメントの全集合における用語iの全インスタンス数であり、ncは、カテゴリーcのトレーニングドキュメントの全集合における全用語(カテゴリー分け辞書における用語であって、ストップワード等ではない)の全インスタンス数であり、そしてmは、辞書における全用語数である。式(8)は、「ラプラスのルール」又は「ラプラスの連続ルール(Laplace's Rule of Succession)」として知られている。
但し、vcは、トレーニングセットにおけるカテゴリーcの全ドキュメント数であり、Nは、トレーニングセットにおける全ドキュメント数(全カテゴリー)であり、|C|は、全カテゴリー数である。これらの数({vc}及びN)が、カテゴリー分けされるべきドキュメントの最終的なポピュレーションを表わさない場合には、{φ' c}に対して正しい推定値(何らなの手段により得られた)が使用される。
c’=arg maxc d(c、x) (11)
Claims (72)
- サーチ可能なデータ構造体へコンパイルするために複数のソースからデータネットワークを経て捕獲されるリスティング情報データの捕獲及び処理を管理するコンピュータシステムにおいて、
ネットワークインターフェイスを通してシステム管理及びオペレーション制御を与えるアドミニストレーションポータルモジュールと、
前記アドミニストレーションポータルモジュールを経て与えられるインストラクションに応答して、前記ソースへのアクセスを制御し、リスティング情報データの検索を制御し、そしてこれらソースから受け取られたリスティング情報データを処理し、更に、リスティング情報データをカテゴリー分けし、そのカテゴリー分けされたリスティング情報データの部分を、所定のクオリティ基準への適合性について検査し、そしてそのカテゴリー分けされたリスティング情報データを使用のためにサーチバンクに記憶するように動作できる1つ以上のリスティングマネージャーモジュールと、
を備えたコンピュータシステム。 - 前記データネットワークは、インターネットである、請求項1に記載のシステム。
- 各々のリスティングマネージャーモジュールは、1つ以上のタスクマネージャーを含み、その各々は、
前記アドミニストレーションポータルモジュールにおいてサイトマネージメントモジュールにより識別されたサイトからスクレープされたデータセットを得、そしてそのスクレープされたデータセットをデータベースに記憶するために、1つ以上のスクレープエンジンのオペレーション及びそれらの間の通信を整合するスクレープマネージメントモジュールと、
前記スクレープマネージメントモジュールに結合され、前記データベースに記憶された各スクレープされたデータセットを、所定のクオリティ基準への適合性について分析するためのクオリティマネージメントモジュールと、
を含む請求項1に記載のシステム。 - 各タスクマネージャーモジュールは、更に、
前記データベースに記憶された各データセットを検査して、所定セットのカテゴリーの1つ以上へとカテゴリー分けし、そのカテゴリー分けされたデータセットを前記データベースへ返送するように動作できるリスティングデータカテゴリー分けモジュールと、
前記データベースからのカテゴリー分けされたデータセットをコンパイルしてサーチバンクへ転送するために前記データベースと通信するサーチバンクシンクロナイザーと、
を含む請求項3に記載のシステム。 - 前記カテゴリー分けモジュールは、
カテゴリー分けデータベースと、
各スクレープされたデータセットのテキストを、前記カテゴリー分けデータベースにおける以前にカテゴリー分けされたリスティングデータテキストと比較することにより、各スクレープされたリスティング情報データセットに対して各所定のカテゴリーの信頼値を決定するドキュメントカテゴリー分けプラットホームサービスと、
を含む請求項1に記載のシステム。 - 前記アドミニストレーションポータルは、レビューアが前記ドキュメントカテゴリー分けプラットホームサービスにより決定されたカテゴリーを検証するのを許すカテゴリー分けレビューモジュールを含む、請求項4に記載のシステム。
- 前記データベースへ返送される各データセットは、前記カテゴリー分けモジュールにより決定される指定のカテゴリーと、そのカテゴリーに対する指定の信頼値とを含む、請求項4に記載のシステム。
- 前記データベースへ返送される各データセットは、更に、各所定のカテゴリーに対する信頼値を含む、請求項7に記載のシステム。
- 前記データベースへ返送される各データセットは、前記指定の信頼値が所定のスレッシュホールド値より低い場合にセットされる手動レビューフラグを含む、請求項5に記載のシステム。
- 前記クオリティマネージメントモジュールは、所定の基準を満足しない各データセットに関連したクオリティフラグをセットする、請求項1に記載のシステム。
- 前記アドミニストレーションポータルは、更に、前記クオリティマネージメントモジュールと通信して、レビューアが、クオリティフラグがセットされたデータセットを手動で検査するのを許すクオリティレビューモジュールを含む、請求項10に記載のシステム。
- リスティングデータセットを得、取り扱い、そしてコンパイルする方法において、
インターネットを経て利用できる1つ以上のサイトにおいて1つ以上のリスティングからリスティング情報データセットを得るステップと、
各リスティングに対応するデータセットをデータベースに記憶するステップと、
前記データベースに記憶された各データセットを所定のクオリティ基準への適合性について分析するステップと、
前記データベースに記憶された各データセットを1つ以上の所定のカテゴリーへカテゴリー分けし、そのカテゴリー分けされたデータセットを前記データベースへ返送するステップと、
を備えた方法。 - XLMフィードを通して1つ以上の顧客サイトからリスティング情報データセットを得るステップを更に備えた、請求項12に記載の方法。
- 前記カテゴリー分け動作は、各々の所定のカテゴリーに対して各データセットの信頼値を指定することを更に含む、請求項12に記載の方法。
- 前記カテゴリー分け動作は、
各得られたデータセットのテキストを、カテゴリー分けデータベースにおける以前にカテゴリー分けされたデータセットのテキストと比較する段階と、
各得られたデータセットに対して各所定のカテゴリーの信頼値を決定する段階と、
を含む請求項12に記載の方法。 - 信頼値が手動レビューに対する所定値より低い各カテゴリー分けされたデータセットにフラグを立てるステップと、
レビューアがアドミニストレーションポータルを通してフラグの立ったカテゴリー分けを検証できるようにする手動レビューモジュールを用意するステップと、
を更に備えた請求項15に記載の方法。 - 前記データベースへ返送される各データセットに指定されるカテゴリーに対して信頼値を指定するステップを更に備えた、請求項12に記載の方法。
- 前記データベースへ返送されるデータセットであって、指定の信頼レベルが所定スレッシュホールドより低いデータセットにフラグを立てるステップを更に備えた、請求項17に記載の方法。
- ユーザによる問合せに応答して前記サーチバンクからウェブクライアントサーバークラスターを経てユーザへ選択されたカテゴリー分けされたデータセットを転送するステップを更に備えた、請求項12に記載の方法。
- 前記得る動作は、更に、
インターネットを通して1つ以上のサイトにアクセスする段階と、
前記1つ以上のサイトからリスティングデータセットをスクレープする段階と、
所定のクオリティ基準を満足しないスクレープされたデータセットにフラグを立てる段階と、
前記データベースへ返送されるフラグの立てられたデータセットの手動レビューを許す段階と、
を含み、そして前記カテゴリー分け動作は、
各スクレープされたデータセットのデータを、カテゴリー分けデータベース内の以前にカテゴリー分けされたデータセットのデータと比較する段階と、
各スクレープされたデータセットに対して各所定のカテゴリーの信頼値を決定する段階と、
を含む請求項12に記載の方法。 - 信頼値が手動レビューに対する所定値より低い各カテゴリー分けされスクレープされたデータセットにフラグを立てる段階と、
レビューアがフラグの立ったカテゴリー分けを検証できるようにする手動レビューモジュールをアドミニストレーションポータルに用意するステップと、
を更に備えた請求項20に記載の方法。 - ユーザによる問合せに応答して、前記サーチバンクからウェブサーバーを経てユーザへ選択されたカテゴリー分けされたデータセットを転送する段階を更に備えた、請求項20に記載の方法。
- リスティングデータを得て処理するためのコンピュータプロセスを実行するインストラクションのコンピュータプログラムをエンコードするコンピュータ読み取り可能なメディアにおいて、前記コンピュータプロセスは、
インターネットを通して利用できるサイトにおいて1つ以上のリスティングからリスティング情報データをスクレープし、
各スクレープされたリスティング情報に対応するスクレープされたデータセットをデータベースに記憶し、
前記データベースに記憶された各スクレープされたデータセットを、所定のクオリティ基準への適合性について分析し、そして
前記データベースに記憶された各データセットを1つ以上の所定のカテゴリーへとカテゴリー分けし、そのカテゴリー分けされたデータセットを前記データベースへ返送する、
ことを含むものである、コンピュータ読み取り可能なメディア。 - 前記プロセスは、更に、
所定のクオリティ基準を満足しないスクレープされたデータセットにフラグを立て、
前記データベースへ返送されるフラグの立てられたデータセットの手動レビューを許す、ことを含み、そして前記カテゴリー分け動作は、更に、
各スクレープされたデータセットのデータを、カテゴリー分けデータベース内の以前にカテゴリー分けされたデータセットのデータと比較し、
各スクレープされたデータセットに対して各所定のカテゴリーの信頼値を決定する、
ことを含む請求項23に記載のコンピュータ読み取り可能なメディア。 - サーチ可能なデータ構造体へコンパイルするために複数のジョブ関連ソースからデータネットワークを経て捕獲されるジョブリスティング情報データの捕獲及び処理を管理するコンピュータシステムにおいて、
ネットワークインターフェイスを通してシステムアドミニストレーション及びオペレーション制御を与えるアドミニストレーションポータルモジュールと、
前記アドミニストレーションポータルモジュールを経て与えられるインストラクションに応答して、前記ジョブ関連ソースへのアクセスを制御し、ジョブリスティング情報データの検索を制御し、そしてこれらソースから受け取られたジョブ情報データセットを処理し、更に、ジョブリスティング情報データセットをカテゴリー分けし、そのカテゴリー分けされたジョブ情報データセットの部分を、所定のクオリティ基準への適合性について検査し、そしてそのカテゴリー分けされたジョブ情報データセットを使用のためにジョブサーチバンクに記憶するように動作できる1つ以上のタスクマネージャーモジュールと、
を備えたコンピュータシステム。 - 前記データネットワークは、インターネットを含む、請求項25に記載のシステム。
- 各タスクマネージャーモジュールは、
会社の経歴サイトからのスクレープされたジョブ情報データセットと、前記アドミニストレーションポータルモジュールにおいてサイトマネージメントモジュールにより識別されるジョブボードとを得て、前記スクレープされたデータセットをデータベースに記憶するために、1つ以上のジョブスクレープエンジンのオペレーション及びそれらの間の通信を整合するスクレープマネージメントモジュールと、
前記スクレープマネージメントモジュールに結合され、前記データベースに記憶された各スクレープされたジョブデータセットを、所定のクオリティ基準への適合性について分析するためのクオリティマネージメントモジュールと、
を含む請求項25に記載のシステム。 - 前記タスクマネージャーモジュールは、更に、
前記データベースに記憶された各ジョブデータセットを検査して、所定セットのジョブカテゴリーの1つ以上へとカテゴリー分けし、そのカテゴリー分けされたジョブデータセットを前記データベースへ返送するように動作できるジョブリスティングデータカテゴリー分けモジュールと、
前記データベースからのカテゴリー分けされたジョブデータセットをコンパイルして、ジョブサーチバンクへ転送するために前記データベースと通信するサーチバンクシンクロナイザーと、
を含む請求項27に記載のシステム。 - 前記カテゴリー分けモジュールは、
ジョブカテゴリー分けデータベースと、
各スクレープされたジョブデータセットのテキストを、前記ジョブカテゴリー分けデータベースにおける以前にカテゴリー分けされたジョブデータのテキストと比較することにより、各スクレープされたジョブリスティング情報データセットに対して各所定のジョブカテゴリーの信頼値を決定するカテゴリー分けモジュールと、
を含む請求項25に記載のシステム。 - 前記アドミニストレーションポータルは、レビューアがドキュメントカテゴリー分けプラットホームサービスにより決定されたカテゴリーを検証するのを許すカテゴリー分けレビューモジュールを含む、請求項28に記載のシステム。
- 前記データベースへ返送される各ジョブデータセットは、前記カテゴリー分けモジュールにより決定される指定のジョブカテゴリーと、そのカテゴリーに対する指定の信頼値とを含む、請求項28に記載のシステム。
- 前記データベースへ返送される各データセットは、更に、各所定のジョブカテゴリーに対する信頼値を含む、請求項31に記載のシステム。
- 前記データベースへ返送される各ジョブデータセットは、前記指定の信頼値が所定のスレッシュホールド値より低い場合にセットされる手動レビューフラグを含む、請求項29に記載のシステム。
- 前記クオリティマネージメントモジュールは、所定の基準を満足しない各スクレープされたデータセットに関連したクオリティフラグをセットする、請求項25に記載のシステム。
- 前記アドミニストレーションポータルは、更に、前記クオリティマネージメントモジュールと通信して、レビューアが、クオリティフラグがセットされたジョブデータセットを手動で検査するのを許すクオリティレビューモジュールを含む、請求項34に記載のシステム。
- ジョブ情報データセットを得、取り扱い、そしてコンパイルする方法において、
インターネットを通して利用できる1つ以上の会社経歴サイト又はジョブボードにおいて1つ以上のジョブリスティングからジョブ情報データセットをスクレープするステップと、
見つかった各スクレープされたジョブリスティングに対応するジョブデータセットをデータベースに記憶するステップと、
前記データベースに記憶された各スクレープされたデータセットを所定のクオリティ基準への適合性について分析するステップと、
前記データベースに記憶された各データセットを1つ以上の所定のジョブカテゴリーへカテゴリー分けし、そのカテゴリー分けされたジョブ情報データセットを前記データベースへ返送するステップと、
を備えた方法。 - XLMフィードを通して1つ以上の顧客サイトからジョブ情報データセットを得るステップを更に備えた、請求項36に記載の方法。
- 前記カテゴリー分け動作は、各々の所定のジョブカテゴリーに対して各ジョブ情報データセットの信頼値を指定することを更に含む、請求項36に記載の方法。
- 前記カテゴリー分け動作は、
各スクレープされたジョブ情報データセットのテキストを、ジョブカテゴリー分けデータベースにおける以前にカテゴリー分けされたジョブ情報データセットのテキストと比較する段階と、
各スクレープされたデータセットに対して各所定のカテゴリーの信頼値を決定する段階と、
を含む請求項36に記載の方法。 - 信頼値が手動レビューに対する所定値より低い各カテゴリー分けされたスクレープされたデータセットにフラグを立てるステップと、
レビューアがアドミニストレーションポータルを通してフラグの立ったカテゴリー分けを検証できるようにする手動レビューモジュールを用意するステップと、
を更に備えた請求項39に記載の方法。 - 前記データベースへ返送される各データセットに指定されるジョブカテゴリーに対して信頼値を指定するステップを更に備えた、請求項36に記載の方法。
- 前記データベースへ返送されるデータセットであって、指定の信頼レベルが所定スレッシュホールドより低いデータセットにフラグを立てるステップを更に備えた、請求項41に記載の方法。
- 求職者による問合せに応答して前記ジョブサーチバンクからウェブクライアントサーバークラスターを経て求職者へ選択されたカテゴリー分けされたジョブ情報データセットを転送するステップを更に備えた、請求項36に記載の方法。
- 前記スクレーピング動作は、更に、
インターネットを通してジョブボード又は会社の経歴サイトの1つにアクセスする段階と、
所定のクオリティ基準を満足しないスクレープされたジョブ情報データセットにフラグを立てる段階と、
前記データベースへ返送されるフラグの立てられたジョブ情報データセットの手動レビューを許す段階と、
を含み、そして前記カテゴリー分け動作は、
各スクレープされたジョブ情報データセットのデータを、カテゴリー分けデータベース内の以前にカテゴリー分けされたジョブデータセットのデータと比較する段階と、
各スクレープされたジョブ情報データセットに対して各所定のジョブカテゴリーの信頼値を決定する段階と、
を含む請求項36に記載の方法。 - 信頼値が手動レビューに対する所定値より低い各カテゴリー分けされスクレープされたデータセットにフラグを立てる段階と、
レビューアがフラグの立ったカテゴリー分けを検証できるようにする手動レビューモジュールをアドミニストレーションポータルに用意するステップと、
を更に備えた請求項44に記載の方法。 - ユーザによる問合せに応答して、前記サーチバンクからウェブサーバーを経てユーザへ選択されたカテゴリー分けされたデータセットを転送する段階を更に備えた、請求項44に記載の方法。
- 会社の経歴サイト及びジョブボードからジョブ説明データをスクレープするためのコンピュータプロセスを実行するインストラクションのコンピュータプログラムをエンコードするコンピュータ読み取り可能なメディアにおいて、前記コンピュータプロセスは、
インターネットを通して利用できるサイトにおいて1つ以上のリスティングからリスティング情報データをスクレープし、
各スクレープされたリスティング情報に対応するスクレープされたデータセットをデータベースに記憶し、
前記データベースに記憶された各スクレープされたデータセットを、所定のクオリティ基準への適合性について分析し、そして
前記データベースに記憶された各データセットを1つ以上の所定のカテゴリーへとカテゴリー分けし、そのカテゴリー分けされたデータセットを前記データベースへ返送する、
ことを含むものである、コンピュータ読み取り可能なメディア。 - 前記プロセスは、更に、
所定のクオリティ基準を満足しないスクレープされたデータセットにフラグを立て、
前記データベースへ返送されるフラグの立てられたデータセットの手動レビューを許す、ことを含み、そして前記カテゴリー分け動作は、更に、
各スクレープされたデータセットのテキストを、カテゴリー分けデータベース内の以前にカテゴリー分けされたデータセットのテキストと比較し、
各スクレープされたデータセットに対して各所定のカテゴリーの信頼値を決定する、
ことを含む請求項47に記載のコンピュータ読み取り可能なメディア。 - サーチ可能なデータ構造体へコンパイルするために複数のジョブ関連ソースからデータネットワークを経て捕獲されるジョブリスティング情報データの捕獲及び処理を管理するコンピュータシステムにおいて、
ネットワークインターフェイスを通してシステムアドミニストレーション及びオペレーション制御を与えるアドミニストレーションポータルモジュールと、
前記アドミニストレーションポータルモジュール内でサイトマネージメントモジュールにより識別された会社の経歴サイト及びジョブボードからスクレープされたジョブ情報データセットを得、そしてそのスクレープされたデータセットをデータベースに記憶するために、1つ以上のジョブスクレーピングエンジンのオペレーション及びそれらの間の通信を整合するスクレーピングマネージメントモジュールと、
前記データベースに記憶された各ジョブデータセットを検査して、所定セットのジョブカテゴリーの1つ以上へとカテゴリー分けし、そしてそのカテゴリー分けされたジョブデータセットを前記データベースに返送するように動作できるジョブリスティングデータカテゴリー分けモジュールと、
前記スクレーピングマネージメントモジュールに結合され、前記データベースに記憶された各スクレープされたジョブデータセットを、所定のクオリティルールへの適合性について分析するクオリティマネージメントモジュールと、
を備えたコンピュータシステム。 - 前記データネットワークは、インターネットを含む、請求項49に記載のシステム。
- 前記データベースと通信し、前記データベースからのカテゴリー分けされたジョブデータセットをコンパイルしてジョブサーチバンクへ転送するためのサーチバンクシンクロナイザーを更に備えた、請求項49に記載のシステム。
- 前記カテゴリー分けモジュールは、
ジョブカテゴリー分けデータベースと、
各スクレープされたジョブデータセットのテキストを、前記ジョブカテゴリー分けデータベースにおける以前にカテゴリー分けされたジョブデータのテキストと比較することにより、各スクレープされたジョブリスティング情報データセットに対して各所定のジョブカテゴリーの信頼値を決定するカテゴリー分けモジュールと、
を含む請求項51に記載のシステム。 - 前記アドミニストレーションポータルは、レビューアが前記カテゴリー分けモジュールにおいてドキュメントカテゴリー分けプラットホームサービスにより決定されたカテゴリーを検証するのを許すカテゴリー分けレビューモジュールを含む、請求項52に記載のシステム。
- 前記データベースへ返送される各ジョブデータセットは、前記カテゴリー分けモジュールにより決定される指定のジョブカテゴリーと、そのカテゴリーに対する指定の信頼値とを含む、請求項52に記載のシステム。
- 前記データベースへ返送される各データセットは、更に、各所定のジョブカテゴリーに対する信頼値を含む、請求項54に記載のシステム。
- 前記データベースへ返送される各ジョブデータセットは、前記指定の信頼値が所定のスレッシュホールド値より低い場合にセットされる手動レビューフラグを含む、請求項52に記載のシステム。
- 前記アドミニストレーションポータルは、レビューアが前記カテゴリー分けモジュールにより決定されたカテゴリー分けを検証するのを許すカテゴリー分けレビューモジュールを含む、請求項56に記載のシステム。
- 前記クオリティマネージメントモジュールは、所定の基準を満足しない各スクレープされたジョブデータセットに関連したクオリティフラグをセットする、請求項49に記載のシステム。
- 前記アドミニストレーションポータルは、更に、前記クオリティマネージメントモジュールと通信して、レビューアが、クオリティフラグがセットされたジョブデータセットを手動で検査するのを許すクオリティレビューモジュールを含む、請求項58に記載のシステム。
- ジョブ情報データセットを得、取り扱い、そしてコンパイルする方法において、
インターネットを通して利用できる1つ以上の会社経歴サイト又はジョブボードにおいて1つ以上のジョブリスティングからジョブ情報データセットをスクレープするステップと、
見つかった各スクレープされたジョブリスティングに対応するジョブデータセットをデータベースに記憶するステップと、
前記データベースに記憶された各スクレープされたデータセットを所定のクオリティ基準への適合性について分析するステップと、
前記データベースに記憶された各データセットを1つ以上の所定のジョブカテゴリーへカテゴリー分けし、そのカテゴリー分けされたジョブ情報データセットを前記データベースへ返送するステップと、
を備えた方法。 - XLMフィードを通して1つ以上の顧客サイトからジョブ情報データセットを得るステップを更に備えた、請求項60に記載の方法。
- 前記カテゴリー分け動作は、更に、所定のジョブカテゴリー各々に対して各ジョブ情報データセットの信頼値を指定することを含む、請求項60に記載の方法。
- 前記カテゴリー分け動作は、
各スクレープされたジョブ情報データセットのテキストを、ジョブカテゴリー分けデータベースにおける以前にカテゴリー分けされたジョブ情報データセットのテキストと比較する段階と、
各スクレープされたデータセットに対して各所定のカテゴリーの信頼値を決定する段階と、
を含む請求項60に記載の方法。 - 信頼値が手動レビューに対する所定値より低い各カテゴリー分けされたスクレープされたデータセットにフラグを立てるステップと、
レビューアがアドミニストレーションポータルを通してフラグの立ったカテゴリー分けを検証できるようにする手動レビューモジュールを用意するステップと、
を更に備えた請求項63に記載の方法。 - 前記データベースへ返送される各データセットに指定されるジョブカテゴリーに対して信頼値を指定するステップを更に備えた、請求項60に記載の方法。
- 前記データベースへ返送されるデータセットであって、指定の信頼レベルが所定スレッシュホールドより低いデータセットにフラグを立てるステップを更に備えた、請求項65に記載の方法。
- 求職者による問合せに応答して前記ジョブサーチバンクからウェブクライアントサーバークラスターを経て求職者へ選択されたカテゴリー分けされたジョブ情報データセットを転送するステップを更に備えた、請求項60に記載の方法。
- 前記スクレーピング動作は、更に、
インターネットを通してジョブボード又は会社の経歴サイトの1つにアクセスする段階と、
所定のクオリティ基準を満足しないスクレープされたジョブ情報データセットにフラグを立てる段階と、
前記データベースへ返送されるフラグの立てられたジョブ情報データセットの手動レビューを許す段階と、
を含み、そして前記カテゴリー分け動作は、
各スクレープされたジョブ情報データセットのデータを、カテゴリー分けデータベース内の以前にカテゴリー分けされたジョブデータセットのデータと比較する段階と、
各スクレープされたジョブ情報データセットに対して各所定のジョブカテゴリーの信頼値を決定する段階と、
を含む請求項60に記載の方法。 - 信頼値が手動レビューに対する所定値より低い各カテゴリー分けされスクレープされたデータセットにフラグを立てる段階と、
レビューアがフラグの立ったカテゴリー分けを検証できるようにする手動レビューモジュールをアドミニストレーションポータルに用意するステップと、
を更に備えた請求項68に記載の方法。 - ユーザによる問合せに応答して、前記サーチバンクからウェブサーバーを経てユーザへ選択されたカテゴリー分けされたデータセットを転送する段階を更に備えた、請求項68に記載の方法。
- 会社の経歴サイト及びジョブボードからジョブ説明データをスクレープするためのコンピュータプロセスを実行するインストラクションのコンピュータプログラムをエンコードするコンピュータ読み取り可能なメディアにおいて、前記コンピュータプロセスは、
インターネットを通して利用できるサイトにおいて1つ以上のリスティングからリスティング情報データをスクレープし、
各スクレープされたリスティング情報に対応するスクレープされたデータセットをデータベースに記憶し、
前記データベースに記憶された各スクレープされたデータセットを、所定のクオリティ基準への適合性について分析し、そして
前記データベースに記憶された各データセットを1つ以上の所定のカテゴリーへとカテゴリー分けし、そのカテゴリー分けされたデータセットを前記データベースへ返送する、
ことを含むものである、コンピュータ読み取り可能なメディア。 - 前記プロセスは、更に、
所定のクオリティ基準を満足しないスクレープされたデータセットにフラグを立て、
前記データベースへ返送されるフラグの立てられたデータセットの手動レビューを許す、ことを含み、そして前記カテゴリー分け動作は、更に、
各スクレープされたデータセットのテキストを、カテゴリー分けデータベース内の以前にカテゴリー分けされたデータセットのテキストと比較し、
各スクレープされたデータセットに対して各所定のカテゴリーの信頼値を決定する、
ことを含む請求項71に記載のコンピュータ読み取り可能なメディア。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66128005P | 2005-03-11 | 2005-03-11 | |
US11/174,393 US7680855B2 (en) | 2005-03-11 | 2005-06-30 | System and method for managing listings |
US11/173,837 US7680854B2 (en) | 2005-03-11 | 2005-06-30 | System and method for improved job seeking |
US11/173,470 US7702674B2 (en) | 2005-03-11 | 2005-06-30 | Job categorization system and method |
US11/173,656 US7707203B2 (en) | 2005-03-11 | 2005-06-30 | Job seeking system and method for managing job listings |
PCT/US2006/008906 WO2006099299A2 (en) | 2005-03-11 | 2006-03-10 | System and method for managing listings |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008537811A true JP2008537811A (ja) | 2008-09-25 |
Family
ID=39846670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008501026A Pending JP2008537811A (ja) | 2005-03-11 | 2006-03-10 | リスティングを管理するためのシステム及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2008537811A (ja) |
CN (1) | CN101203847B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674798A (zh) * | 2020-05-15 | 2021-11-19 | 复旦大学 | 蛋白质组学数据的分析*** |
CN115072502A (zh) * | 2022-07-01 | 2022-09-20 | 猫岐智能科技(上海)有限公司 | 电梯终端服务器***及控制方法 |
CN116092682A (zh) * | 2023-04-11 | 2023-05-09 | 中大体育产业集团股份有限公司 | 一种体测数据的档案管理方法及*** |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130006986A1 (en) * | 2011-06-28 | 2013-01-03 | Microsoft Corporation | Automatic Classification of Electronic Content Into Projects |
US9519883B2 (en) | 2011-06-28 | 2016-12-13 | Microsoft Technology Licensing, Llc | Automatic project content suggestion |
CN102609456A (zh) * | 2012-01-12 | 2012-07-25 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取***和方法 |
CN110580171B (zh) * | 2019-09-17 | 2023-06-09 | RealMe重庆移动通信有限公司 | App分类方法、相关装置及产品 |
KR20210048349A (ko) * | 2019-10-23 | 2021-05-03 | 에스케이하이닉스 주식회사 | 메모리 시스템 |
CN113407287A (zh) * | 2021-06-29 | 2021-09-17 | 中国平安人寿保险股份有限公司 | 可视化页面的快速生成方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134600A (ja) * | 1999-11-08 | 2001-05-18 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体 |
JP2002117135A (ja) * | 2000-08-02 | 2002-04-19 | Masunaga Sogo Keikaku:Kk | ウェブサイトセキュリティシステム |
JP2002202983A (ja) * | 2000-12-28 | 2002-07-19 | Matsushita Electric Ind Co Ltd | 分類への帰属度計算基準作成方法及び装置 |
JP2003242078A (ja) * | 2002-02-18 | 2003-08-29 | Hitachi Ltd | 電子掲示板システム |
JP2003248687A (ja) * | 2002-02-22 | 2003-09-05 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2004326712A (ja) * | 2003-04-23 | 2004-11-18 | Atsushi Matsumoto | インターネット上における求人情報の自動収集方法および供給方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5805747A (en) * | 1994-10-04 | 1998-09-08 | Science Applications International Corporation | Apparatus and method for OCR character and confidence determination using multiple OCR devices |
US7725472B2 (en) * | 2000-05-30 | 2010-05-25 | Hottolink, Inc. | Distributed monitoring system providing knowledge services |
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及*** |
-
2006
- 2006-03-10 CN CN2006800158945A patent/CN101203847B/zh not_active Expired - Fee Related
- 2006-03-10 JP JP2008501026A patent/JP2008537811A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134600A (ja) * | 1999-11-08 | 2001-05-18 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体 |
JP2002117135A (ja) * | 2000-08-02 | 2002-04-19 | Masunaga Sogo Keikaku:Kk | ウェブサイトセキュリティシステム |
JP2002202983A (ja) * | 2000-12-28 | 2002-07-19 | Matsushita Electric Ind Co Ltd | 分類への帰属度計算基準作成方法及び装置 |
JP2003242078A (ja) * | 2002-02-18 | 2003-08-29 | Hitachi Ltd | 電子掲示板システム |
JP2003248687A (ja) * | 2002-02-22 | 2003-09-05 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2004326712A (ja) * | 2003-04-23 | 2004-11-18 | Atsushi Matsumoto | インターネット上における求人情報の自動収集方法および供給方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674798A (zh) * | 2020-05-15 | 2021-11-19 | 复旦大学 | 蛋白质组学数据的分析*** |
CN113674798B (zh) * | 2020-05-15 | 2024-04-26 | 复旦大学 | 蛋白质组学数据的分析*** |
CN115072502A (zh) * | 2022-07-01 | 2022-09-20 | 猫岐智能科技(上海)有限公司 | 电梯终端服务器***及控制方法 |
CN115072502B (zh) * | 2022-07-01 | 2023-11-07 | 猫岐智能科技(上海)有限公司 | 电梯终端服务器***及控制方法 |
CN116092682A (zh) * | 2023-04-11 | 2023-05-09 | 中大体育产业集团股份有限公司 | 一种体测数据的档案管理方法及*** |
CN116092682B (zh) * | 2023-04-11 | 2023-06-16 | 中大体育产业集团股份有限公司 | 一种体测数据的档案管理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN101203847A (zh) | 2008-06-18 |
CN101203847B (zh) | 2010-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100996131B1 (ko) | 리스팅 관리 시스템 및 방법 | |
US7702674B2 (en) | Job categorization system and method | |
US7680855B2 (en) | System and method for managing listings | |
US7707203B2 (en) | Job seeking system and method for managing job listings | |
JP7515537B2 (ja) | コミュニケーション用談話ツリーの使用による修辞学的分析の可能化 | |
US20210286830A1 (en) | Data loss prevention system for cloud security based on document discourse analysis | |
JP7447019B2 (ja) | コミュニケーション用談話ツリーを用いる、説明の要求の検出 | |
US7587395B2 (en) | System and method for providing profile matching with an unstructured document | |
US20120041769A1 (en) | Requests for proposals management systems and methods | |
JP2008537811A (ja) | リスティングを管理するためのシステム及び方法 | |
US10839406B2 (en) | A/B testing for search engine optimization | |
US20110055041A1 (en) | System and method for managing workforce transitions between public and private sector employment | |
Zhu et al. | IBM Watson content analytics: discovering actionable insight from your content | |
US20200104398A1 (en) | Unified management of targeting attributes in a/b tests | |
Poornima et al. | A journey from big data towards prescriptive analytics | |
Moore | Performance Measures for Knowledge | |
US20230316186A1 (en) | Multi-service business platform system having entity resolution systems and methods | |
US20170032036A1 (en) | System and Method for Model Creation in an Organizational Environment | |
Wang et al. | [Retracted] Smart Medical Prediction for Guidance: A Mechanism Study of Machine Learning | |
US20190378206A1 (en) | Computerized Relevance Scoring Engine For Identifying Potential Investors For A New Business Entity | |
US20240281410A1 (en) | Multi-service business platform system having custom workflow actions systems and methods | |
US20200401928A1 (en) | Term-uid generation, mapping and lookup | |
Costa | Automatization of Incident Resolution | |
Electronic-Business | Search Engine Optimization for E-Business Website | |
Ng et al. | Perspectives on Business Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100726 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101022 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110411 |